Scrapy 2.13 文档

Scrapy 是一个快速的高级网络爬行和网络抓取框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

获取帮助

遇到问题？我们很乐意提供帮助！

第一步

Scrapy 概览: 了解 Scrapy 是什么以及它如何帮助你。
安装指南: 在你的电脑上安装 Scrapy。
Scrapy 教程: 编写你的第一个 Scrapy 项目。
示例: 通过一个现成的 Scrapy 项目来学习更多。

基本概念

命令行工具: 了解用于管理 Scrapy 项目的命令行工具。
爬虫: 编写抓取网站的规则。
选择器: 使用 XPath 从网页中提取数据。
Scrapy shell: 在交互式环境中测试你的提取代码。
项目: 定义你想抓取的数据。
项目加载器: 用提取的数据填充你的数据项（items）。
数据管道: 后处理和存储你的抓取数据。
数据导出: 使用不同的格式和存储方式输出你的抓取数据。
请求与响应: 了解用于表示 HTTP 请求和响应的类。
链接提取器: 用于从页面中提取要跟随的链接的便捷类。
设置: 了解如何配置 Scrapy 并查看所有可用设置。
异常: 查看所有可用异常及其含义。

内置服务

日志: 了解如何在 Scrapy 中使用 Python 的内置日志记录。
统计信息收集: 收集关于你的抓取爬虫的统计信息。
发送电子邮件: 在特定事件发生时发送电子邮件通知。
Telnet 控制台: 使用内置的 Python 控制台检查正在运行的爬虫。

解决特定问题

常见问题解答: 获取最常见问题的答案。
调试爬虫: 了解如何调试 Scrapy 爬虫的常见问题。
爬虫契约: 了解如何使用契约来测试你的爬虫。
常见实践: 熟悉一些 Scrapy 常见实践。
宽泛抓取: 调整 Scrapy 以并行抓取大量域。
使用浏览器开发者工具进行抓取: 学习如何使用浏览器开发者工具进行抓取。
选择动态加载的内容: 读取动态加载的网页数据。
调试内存泄漏: 学习如何在你的爬虫中查找和清除内存泄漏。
下载和处理文件及图片: 下载与你抓取的数据项（items）相关的文件和/或图片。
部署爬虫: 部署你的 Scrapy 爬虫并在远程服务器上运行它们。
AutoThrottle 扩展: 根据负载动态调整抓取速率。
基准测试: 检查 Scrapy 在你的硬件上的性能。
作业：暂停和恢复抓取: 学习如何暂停和恢复大型爬虫的抓取。
协程: 使用协程语法。
asyncio: 使用 asyncio 和由 asyncio 驱动的库。

扩展 Scrapy

架构概览: 理解 Scrapy 架构。
附加组件: 启用和配置第三方扩展。
下载器中间件: 自定义页面如何被请求和下载。
爬虫中间件: 自定义爬虫的输入和输出。
扩展: 用你的自定义功能扩展 Scrapy
信号: 查看所有可用信号以及如何使用它们。
调度器: 理解调度器组件。
数据导出器: 快速将你抓取的数据项（items）导出到文件（XML, CSV 等）。
组件: 学习构建自定义 Scrapy 组件时的通用 API 和一些良好实践。
核心 API: 在扩展和中间件中使用它来扩展 Scrapy 功能。

其他内容

发布说明: 查看 Scrapy 近期版本中的变化。
贡献给 Scrapy: 学习如何贡献给 Scrapy 项目。
版本控制与 API 稳定性: 理解 Scrapy 版本控制和 API 稳定性。