调试爬虫
本文档解释了调试爬虫最常用的技术。请参考下面的 Scrapy 爬虫示例:
import scrapy
from myproject.items import MyItem
class MySpider(scrapy.Spider):
name = "myspider"
start_urls = (
"http://example.com/page1",
"http://example.com/page2",
)
def parse(self, response):
# <processing code not shown>
# collect `item_urls`
for item_url in item_urls:
yield scrapy.Request(item_url, self.parse_item)
def parse_item(self, response):
# <processing code not shown>
item = MyItem()
# populate `item` fields
# and extract item_details_url
yield scrapy.Request(
item_details_url, self.parse_details, cb_kwargs={"item": item}
)
def parse_details(self, response, item):
# populate more `item` fields
return item
基本上,这是一个简单的爬虫,用于解析两个 Item 页面(`start_urls`)。Item 也有一个包含附加信息的详细页面,因此我们使用 Request
的 cb_kwargs
功能来传递部分填充的 Item。
Parse 命令
检查爬虫输出的最基本方法是使用 parse
命令。它允许在方法级别检查爬虫不同部分的的行为。它的优点是灵活且易于使用,但不允许调试方法内部的代码。
为了查看从特定 URL 抓取的 Item
$ scrapy parse --spider=myspider -c parse_item -d 2 <item_url>
[ ... scrapy log lines crawling example.com spider ... ]
>>> STATUS DEPTH LEVEL 2 <<<
# Scraped Items ------------------------------------------------------------
[{'url': <item_url>}]
# Requests -----------------------------------------------------------------
[]
使用 --verbose
或 -v
选项,我们可以看到每个深度级别的状态
$ scrapy parse --spider=myspider -c parse_item -d 2 -v <item_url>
[ ... scrapy log lines crawling example.com spider ... ]
>>> DEPTH LEVEL: 1 <<<
# Scraped Items ------------------------------------------------------------
[]
# Requests -----------------------------------------------------------------
[<GET item_details_url>]
>>> DEPTH LEVEL: 2 <<<
# Scraped Items ------------------------------------------------------------
[{'url': <item_url>}]
# Requests -----------------------------------------------------------------
[]
检查从单个 `start_url` 抓取的 Item,也可以轻松实现,使用
$ scrapy parse --spider=myspider -d 3 'http://example.com/page1'
Scrapy Shell
虽然 parse
命令对于检查爬虫的行为非常有用,但除了显示接收到的响应和输出之外,它对检查回调内部发生的事情帮助不大。当 parse_details
有时接收不到 Item 时,如何调试这种情况?
幸运的是,在这种情况下,shell
是你的得力助手(参见 从爬虫调用 shell 来检查响应)
from scrapy.shell import inspect_response
def parse_details(self, response, item=None):
if item:
# populate more `item` fields
return item
else:
inspect_response(response, self)
另请参见:从爬虫调用 shell 来检查响应。
在浏览器中打开
有时你只是想看看某个响应在浏览器中是什么样子,你可以使用 open_in_browser()
函数来实现:
- scrapy.utils.response.open_in_browser(response: TextResponse, _openfunc: Callable[[str], Any] = <function open>) Any [source]
在本地 Web 浏览器中打开 response,调整 base 标签 使外部链接工作,例如让图片和样式得以显示。
例如:
from scrapy.utils.response import open_in_browser def parse_details(self, response): if "item name" not in response.body: open_in_browser(response)
日志记录
日志记录是获取关于爬虫运行信息的另一个有用选项。虽然不像其他方式那么方便,但它的优点是日志将在所有未来的运行中可用,如果再次需要的话。
def parse_details(self, response, item=None):
if item:
# populate more `item` fields
return item
else:
self.logger.warning("No item received for %s", response.url)
更多信息,请查阅 日志记录 部分。
Visual Studio Code
要使用 Visual Studio Code 调试爬虫,可以使用以下 launch.json
配置:
{
"version": "0.1.0",
"configurations": [
{
"name": "Python: Launch Scrapy Spider",
"type": "python",
"request": "launch",
"module": "scrapy",
"args": [
"runspider",
"${file}"
],
"console": "integratedTerminal"
}
]
}
此外,请确保启用“User Uncaught Exceptions”(用户未捕获异常)选项,以便捕获 Scrapy 爬虫中的异常。