Scrapy 2.13 文档
Scrapy 是一个快速的高级 网络爬行 和 网络抓取 框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。
获取帮助
遇到问题?我们很乐意提供帮助!
试试 常见问题解答 – 它包含一些常见问题的答案。
在我们的 问题跟踪器中报告 Scrapy 的错误。
加入 Discord 社区 Scrapy Discord。
第一步
基本概念
内置服务
- 日志
了解如何在 Scrapy 中使用 Python 的内置日志记录。
- 统计信息收集
收集关于你的抓取爬虫的统计信息。
- 发送电子邮件
在特定事件发生时发送电子邮件通知。
- Telnet 控制台
使用内置的 Python 控制台检查正在运行的爬虫。
解决特定问题
- 常见问题解答
获取最常见问题的答案。
- 调试爬虫
了解如何调试 Scrapy 爬虫的常见问题。
- 爬虫契约
了解如何使用契约来测试你的爬虫。
- 常见实践
熟悉一些 Scrapy 常见实践。
- 宽泛抓取
调整 Scrapy 以并行抓取大量域。
- 使用浏览器开发者工具进行抓取
学习如何使用浏览器开发者工具进行抓取。
- 选择动态加载的内容
读取动态加载的网页数据。
- 调试内存泄漏
学习如何在你的爬虫中查找和清除内存泄漏。
- 下载和处理文件及图片
下载与你抓取的数据项(items)相关的文件和/或图片。
- 部署爬虫
部署你的 Scrapy 爬虫并在远程服务器上运行它们。
- AutoThrottle 扩展
根据负载动态调整抓取速率。
- 基准测试
检查 Scrapy 在你的硬件上的性能。
- 作业:暂停和恢复抓取
学习如何暂停和恢复大型爬虫的抓取。
- 协程
使用 协程语法。
- asyncio
扩展 Scrapy
其他内容
- 发布说明
查看 Scrapy 近期版本中的变化。
- 贡献给 Scrapy
学习如何贡献给 Scrapy 项目。
- 版本控制与 API 稳定性
理解 Scrapy 版本控制和 API 稳定性。