部署 Spiders (爬虫)

本节介绍了部署 Scrapy spider (爬虫) 以定期运行它们的不同选项。在本地机器上运行 Scrapy spider 对于 (早期) 开发阶段非常方便,但在需要执行长时间运行的 spider 或将 spider 转移到生产环境中持续运行时就不那么方便了。这就是部署 Scrapy spider 的解决方案派上用场的地方。

部署 Scrapy spider 的常用选择包括

部署到 Scrapyd 服务器

Scrapyd 是一个用于运行 Scrapy spider 的开源应用程序。它提供了一个带有 HTTP API 的服务器,能够运行和监控 Scrapy spider。

要将 spider 部署到 Scrapyd,您可以使用由 scrapyd-client 包提供的 scrapyd-deploy 工具。请参考 scrapyd-deploy 文档获取更多信息。

Scrapyd 由部分 Scrapy 开发者维护。

部署到 Zyte Scrapy Cloud

Zyte Scrapy Cloud 是由 Scrapy 背后的公司 Zyte 提供的托管式云服务。

Zyte Scrapy Cloud 消除了设置和监控服务器的需求,并提供了一个友好的用户界面来管理 spider、查看抓取的数据项、日志和统计数据。

要将 spider 部署到 Zyte Scrapy Cloud,您可以使用 shub 命令行工具。请参考 Zyte Scrapy Cloud 文档获取更多信息。

Zyte Scrapy Cloud 与 Scrapyd 兼容,可以根据需要在这两者之间切换 - 配置与 scrapyd-deploy 一样从 scrapy.cfg 文件中读取。