brozzler - 使用浏览器进行分布式网络爬取

使用浏览器进行分布式网络爬取

项目描述

https://api.travis-ci.org/internetarchive/brozzler.svg?branch=master

浏览器

“浏览器” | “爬虫” = “brozzler”

Brozzler 是一个分布式网络爬虫（爬虫），它使用真实的浏览器（Chrome 或 Chromium）来获取页面和嵌入的 URL 并提取链接。它使用 youtube-dl来增强媒体捕获功能并使用 rethinkdb来管理爬网状态。

Brozzler 旨在与 warcprox 结合使用以进行 Web 归档。

要求

Python 3.5 或更高版本
RethinkDB 部署
Chromium 或 Google Chrome >= 版本 64

注意：浏览器需要图形环境才能运行。当 brozzler 在服务器上运行时，这可能需要部署一些额外的基础架构，通常是 X11。Xvnc4 和 Xvfb 是适合在服务器上使用的 X11 变体，因为它们不会在物理屏幕上显示任何内容。brozzler 存储库中的vagrant 配置有一个使用 Xvnc4 的示例设置。（上次测试时，Xvfb 上的 chromium 不支持截图，所以此时首选 Xvnc4。）

入门

开始使用 brozzler 进行 Web 归档的最简单方法是使用 brozzler-easy。Brozzler-easy 运行 brozzler-worker、warcprox、brozzler wayback 和 brozzler-dashboard，配置为在单个进程中相互协作。

麦克指令：

# install and start rethinkdb
brew install rethinkdb
# no brew? try rethinkdb's installer: https://www.rethinkdb.com/docs/install/osx/
rethinkdb &>>rethinkdb.log &

# install brozzler with special dependencies pywb and warcprox
pip install brozzler[easy]  # in a virtualenv if desired

# queue a site to crawl
brozzler-new-site http://example.com/

# or a job
brozzler-new-job job1.yml

# start brozzler-easy
brozzler-easy

此时 brozzler-easy 将开始归档您的网站。结果将立即在http://localhost:8880/brozzler/的 pywb 中播放。

Brozzler-easy 演示了完整的 brozzler 归档爬取工作流程，但没有利用 brozzler 的分布式特性。

安装使用

仅安装 brozzler：

pip install brozzler  # in a virtualenv if desired

启动一个或多个工人：[ * ]

brozzler-worker --warcprox-auto

提交职位：

brozzler-new-job myjob.yaml

提交与工作无关的网站：

brozzler-new-site --time-limit=600 http://example.com/

作业配置

Brozzler 作业是使用 YAML 文件定义的。选项可以在顶层或单个种子上指定。必须至少指定一个种子 URL，但其他所有内容都是可选的。有关详细信息，请参阅job-conf.rst。

id: myjob
time_limit: 60 # seconds
proxy: 127.0.0.1:8000 # point at warcprox for archiving
ignore_robots: false
warcprox_meta: null
metadata: {}
seeds:
  - url: http://one.example.org/
  - url: http://two.example.org/
    time_limit: 30
  - url: http://three.example.org/
    time_limit: 10
    ignore_robots: true
    scope:
      surt: http://(org,example,

Brozzler 仪表板

Brozzler 带有一个用于查看爬网作业状态的基本 Web 应用程序。要安装具有运行此应用程序所需的依赖项的 brozzler，请运行

pip install brozzler[dashboard]

要启动应用程序，请运行

brozzler-dashboard

此时可以通过http://localhost:8000/访问 Brozzler 仪表板。

有关配置选项，请参阅brozzler-dashboard --help。

Brozzler 回程

Brozzler 带有一个定制版本的pywb，它支持使用 rethinkdb “捕获”表（由 warcprox 填充）作为其索引。

要使用，首先安装依赖项。

pip install brozzler[easy]

编写配置文件pywb.yml。

# 'archive_paths' should point to the output directory of warcprox
archive_paths: warcs/  # pywb will fail without a trailing slash
collections:
  brozzler:
    index_paths: !!python/object:brozzler.pywb.RethinkCDXSource
      db: brozzler
      table: captures
      servers:
      - localhost
enable_auto_colls: false
enable_cdx_api: true
framed_replay: true
port: 8880

像这样运行 pywb：

$ PYWB_CONFIG_FILE=pywb.yml brozzler-wayback

然后浏览http://localhost:8880/brozzler/。

无头 Chrome（实验性）

众所周知，Brozzler 名义上可以在无头模式下与 Chrome/Chromium 一起使用，但这还没有经过广泛的测试。

执照

根据 Apache 许可证 2.0 版（“许可证”）获得许可；除非遵守许可，否则您不得使用此软件。您可以在以下网址获取许可证的副本

http://www.apache.org/licenses/LICENSE-2.0

除非适用法律要求或书面同意，否则根据许可分发的软件将按“原样”分发，没有任何明示或暗示的保证或条件。有关许可下的特定语言管理权限和限制，请参阅许可。

项目详情

发布历史发布通知| RSS订阅

这个版本

1.5.18

2020 年 1 月 2 日

1.5.7

2019 年 9 月 13 日

1.5.3

2019 年 4 月 11 日

1.4

2018 年 8 月 22 日

1.3

2018 年 6 月 25 日

1.3.dev293 预发布

2018 年 6 月 25 日

1.1b12 预发布

2018 年 2 月 3 日

1.1b11 预发布

2017 年 6 月 9 日

1.1b10 预发布

2017 年 3 月 22 日

1.1b9 预发布

2017 年 3 月 22 日

1.1b8 预发布

2016 年 12 月 15 日

1.1b7 预发布

2016 年 11 月 11 日

1.1b6 预发布

2016 年 10 月 13 日

1.1b6.dev94 预发布

2016 年 10 月 13 日

1.1b5 预发布

2016 年 8 月 5 日

1.1b4 预发布

2016 年 8 月 4 日

1.1b3 预发布

2016 年 7 月 27 日

1.1b2 预发布

2016 年 6 月 16 日

1.1b1 预发布

2016 年 6 月 16 日

1.1.dev12 预发布

2016 年 5 月 11 日

1.1.dev11 预发布

2016 年 5 月 11 日

1.1.dev10 预发布

2016 年 5 月 11 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

brozzler-1.5.18.tar.gz （74.9 kB 查看哈希）

已上传 2020 年 1 月 2 日 source

brozzler -1.5.18.tar.gz 的哈希值

brozzler-1.5.18.tar.gz 的哈希值
算法	哈希摘要
SHA256	`15dcb06d57f7c6a1b46f4c55d0dde49ce70e7222d74b1ae31d33d70a297e0b1c`
MD5	`92bcda2a5389bfc7939568e5bc1c4801`
布莱克2-256	`b99e7fa23d061f1dcbbe659740a675bff85804d715ce552ae7a3780e27c81537`

brozzler 1.5.18

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

浏览器

要求

入门

安装使用

作业配置

Brozzler 仪表板

Brozzler 回程

无头 Chrome（实验性）

执照

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

brozzler 1.5.18

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

浏览器

要求

入门

安装使用

作业配置

Brozzler 仪表板

Brozzler 回程

无头 Chrome（实验性）

执照

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

发布历史发布通知| RSS订阅