Scrapy 概览

Scrapy（/ˈskreɪpaɪ/）是一个用于爬取网站并提取结构化数据的应用框架，可用于广泛的有用应用，如数据挖掘、信息处理或历史存档。

尽管 Scrapy 最初是为网页抓取设计的，但它也可以用于使用 API（例如 Amazon Associates Web Services）提取数据，或作为通用的网络爬虫使用。

示例 Spider 导览

为了向您展示 Scrapy 的优势，我们将通过一个 Scrapy Spider 示例向您展示运行 Spider 的最简单方法。

下面是一个 Spider 的代码，它从网站 https://quotes.toscrape.com 抓取著名引言，并遵循分页：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        "https://quotes.toscrape.com/tag/humor/",
    ]

    def parse(self, response):
        for quote in response.css("div.quote"):
            yield {
                "author": quote.xpath("span/small/text()").get(),
                "text": quote.css("span.text::text").get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将此代码保存到一个文本文件中，命名为类似 quotes_spider.py 的名字，然后使用 runspider 命令运行该 Spider。

scrapy runspider quotes_spider.py -o quotes.jsonl

完成后，您将在 quotes.jsonl 文件中获得一个 JSON Lines 格式的引言列表，包含文本和作者，内容如下所示：

{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...

刚才发生了什么？

当您运行命令 scrapy runspider quotes_spider.py 时，Scrapy 会在其中查找 Spider 定义，并通过其爬虫引擎运行它。

爬取过程始于对 start_urls 属性中定义的 URL（在此例中，仅是“幽默”类别的引言 URL）发起请求，并调用默认的回调方法 parse，将响应对象作为参数传递。在 parse 回调中，我们使用 CSS 选择器遍历引言元素，生成一个包含提取的引言文本和作者的 Python 字典，然后查找指向下一页的链接，并使用相同的 parse 方法作为回调来调度另一个请求。

在这里您会注意到 Scrapy 的主要优势之一：请求是异步调度和处理的。这意味着 Scrapy 不需要等待一个请求完成并处理完毕，它可以在此期间发送另一个请求或执行其他操作。这也意味着即使某个请求失败或在处理过程中发生错误，其他请求仍然可以继续进行。

虽然这使得您可以进行非常快速的爬取（以容错的方式同时发送多个并发请求），但 Scrapy 也允许您通过一些设置来控制爬取的礼貌性。您可以设置每个请求之间的下载延迟，限制每个域名或每个 IP 的并发请求数量，甚至使用自动限速扩展来尝试自动确定这些设置。

注意

这使用了feed 导出来生成 JSON 文件，您可以轻松更改导出格式（例如 XML 或 CSV）或存储后端（例如 FTP 或 Amazon S3）。您还可以编写一个Item Pipeline 将 item 存储到数据库中。

还有什么？

您已经了解了如何使用 Scrapy 从网站提取和存储 item，但这只是冰山一角。Scrapy 提供了许多强大功能，使抓取变得简单高效，例如：

内置支持使用扩展的 CSS 选择器和 XPath 表达式从 HTML/XML 源选择和提取数据，并提供使用正则表达式进行提取的辅助方法。
提供一个交互式 shell 控制台（支持 IPython），用于尝试 CSS 和 XPath 表达式来抓取数据，这在编写或调试 Spider 时非常有用。
内置支持以多种格式（JSON、CSV、XML）生成 feed 导出，并将其存储到多个后端（FTP、S3、本地文件系统）。
强大的编码支持和自动检测，用于处理外部、非标准和损坏的编码声明。
强大的扩展性支持，允许您使用信号和定义良好的 API（中间件、扩展和管道）插入自己的功能。
广泛的内置扩展和中间件，用于处理：
- cookies 和会话处理
- HTTP 功能，如压缩、认证、缓存
- 模拟用户代理
- robots.txt
- 爬取深度限制
- 等等
一个 Telnet 控制台，用于连接到在 Scrapy 进程中运行的 Python 控制台，以便内省和调试爬虫。
此外还有其他好东西，例如可重用的 Spider，用于从 Sitemaps 和 XML/CSV feed 爬取站点；一个媒体管道，用于自动下载与抓取到的 item 相关的图片（或任何其他媒体）；一个缓存 DNS 解析器；以及更多！

接下来是什么？

接下来的步骤是安装 Scrapy，学习教程了解如何创建一个完整的 Scrapy 项目，以及加入社区。感谢您的关注！