Scrapy 概览
Scrapy(/ˈskreɪpaɪ/)是一个用于爬取网站并提取结构化数据的应用框架,可用于广泛的有用应用,如数据挖掘、信息处理或历史存档。
尽管 Scrapy 最初是为网页抓取设计的,但它也可以用于使用 API(例如 Amazon Associates Web Services)提取数据,或作为通用的网络爬虫使用。
示例 Spider 导览
为了向您展示 Scrapy 的优势,我们将通过一个 Scrapy Spider 示例向您展示运行 Spider 的最简单方法。
下面是一个 Spider 的代码,它从网站 https://quotes.toscrape.com 抓取著名引言,并遵循分页:
import scrapy
class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = [
"https://quotes.toscrape.com/tag/humor/",
]
def parse(self, response):
for quote in response.css("div.quote"):
yield {
"author": quote.xpath("span/small/text()").get(),
"text": quote.css("span.text::text").get(),
}
next_page = response.css('li.next a::attr("href")').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
将此代码保存到一个文本文件中,命名为类似 quotes_spider.py
的名字,然后使用 runspider
命令运行该 Spider。
scrapy runspider quotes_spider.py -o quotes.jsonl
完成后,您将在 quotes.jsonl
文件中获得一个 JSON Lines 格式的引言列表,包含文本和作者,内容如下所示:
{"author": "Jane Austen", "text": "\u201cThe person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.\u201d"}
{"author": "Steve Martin", "text": "\u201cA day without sunshine is like, you know, night.\u201d"}
{"author": "Garrison Keillor", "text": "\u201cAnyone who thinks sitting in church can make you a Christian must also think that sitting in a garage can make you a car.\u201d"}
...
刚才发生了什么?
当您运行命令 scrapy runspider quotes_spider.py
时,Scrapy 会在其中查找 Spider 定义,并通过其爬虫引擎运行它。
爬取过程始于对 start_urls
属性中定义的 URL(在此例中,仅是“幽默”类别的引言 URL)发起请求,并调用默认的回调方法 parse
,将响应对象作为参数传递。在 parse
回调中,我们使用 CSS 选择器遍历引言元素,生成一个包含提取的引言文本和作者的 Python 字典,然后查找指向下一页的链接,并使用相同的 parse
方法作为回调来调度另一个请求。
在这里您会注意到 Scrapy 的主要优势之一:请求是异步调度和处理的。这意味着 Scrapy 不需要等待一个请求完成并处理完毕,它可以在此期间发送另一个请求或执行其他操作。这也意味着即使某个请求失败或在处理过程中发生错误,其他请求仍然可以继续进行。
虽然这使得您可以进行非常快速的爬取(以容错的方式同时发送多个并发请求),但 Scrapy 也允许您通过一些设置来控制爬取的礼貌性。您可以设置每个请求之间的下载延迟,限制每个域名或每个 IP 的并发请求数量,甚至使用自动限速扩展来尝试自动确定这些设置。
注意
这使用了feed 导出来生成 JSON 文件,您可以轻松更改导出格式(例如 XML 或 CSV)或存储后端(例如 FTP 或 Amazon S3)。您还可以编写一个Item Pipeline 将 item 存储到数据库中。
还有什么?
您已经了解了如何使用 Scrapy 从网站提取和存储 item,但这只是冰山一角。Scrapy 提供了许多强大功能,使抓取变得简单高效,例如:
内置支持使用扩展的 CSS 选择器和 XPath 表达式从 HTML/XML 源选择和提取数据,并提供使用正则表达式进行提取的辅助方法。
提供一个交互式 shell 控制台(支持 IPython),用于尝试 CSS 和 XPath 表达式来抓取数据,这在编写或调试 Spider 时非常有用。
内置支持以多种格式(JSON、CSV、XML)生成 feed 导出,并将其存储到多个后端(FTP、S3、本地文件系统)。
强大的编码支持和自动检测,用于处理外部、非标准和损坏的编码声明。
广泛的内置扩展和中间件,用于处理:
cookies 和会话处理
HTTP 功能,如压缩、认证、缓存
模拟用户代理
robots.txt
爬取深度限制
等等
一个 Telnet 控制台,用于连接到在 Scrapy 进程中运行的 Python 控制台,以便内省和调试爬虫。
此外还有其他好东西,例如可重用的 Spider,用于从 Sitemaps 和 XML/CSV feed 爬取站点;一个媒体管道,用于自动下载与抓取到的 item 相关的图片(或任何其他媒体);一个缓存 DNS 解析器;以及更多!