部署爬虫

本节介绍了用于部署 Scrapy 爬虫以定期运行的不同选项。在本地机器上运行 Scrapy 爬虫对于(早期)开发阶段非常方便,但在需要执行长时间运行的爬虫或将爬虫迁移到生产环境中持续运行时,就不那么方便了。这就是 Scrapy 爬虫部署解决方案的用武之地。

部署 Scrapy 爬虫的常见选择包括:

部署到 Scrapyd 服务器

Scrapyd 是一款用于运行 Scrapy 爬虫的开源应用程序。它提供了一个带有 HTTP API 的服务器,能够运行和监控 Scrapy 爬虫。

要将爬虫部署到 Scrapyd,您可以使用 scrapyd-client 包提供的 scrapyd-deploy 工具。有关更多信息,请参阅 scrapyd-deploy 文档

Scrapyd 由一些 Scrapy 开发人员维护。

部署到 Zyte Scrapy Cloud

Zyte Scrapy Cloud 是由 Zyte(Scrapy 背后的公司)提供的托管式云服务。

Zyte Scrapy Cloud 消除了设置和监控服务器的需要,并提供了一个友好的 UI 来管理爬虫并查看已抓取的项目、日志和统计数据。

要将爬虫部署到 Zyte Scrapy Cloud,您可以使用 shub 命令行工具。有关更多信息,请参阅 Zyte Scrapy Cloud 文档

Zyte Scrapy Cloud 与 Scrapyd 兼容,并且可以根据需要在两者之间切换 - 配置信息与 scrapyd-deploy 一样,从 scrapy.cfg 文件中读取。