日志记录
注意
scrapy.log
及其函数已被弃用,取而代之的是显式调用 Python 标准库的日志记录。继续阅读以了解新的日志记录系统。
Scrapy 使用 logging
进行事件日志记录。我们将提供一些简单的示例供您入门,但对于更高级的用例,强烈建议您仔细阅读其文档。
日志记录即开即用,并且可以在一定程度上通过 日志设置 中列出的 Scrapy 设置进行配置。
Scrapy 在运行命令时会调用 scrapy.utils.log.configure_logging()
来设置一些合理的默认值并处理 日志设置 中的那些配置,因此如果您按照 从脚本运行 Scrapy 中所述从脚本运行 Scrapy,建议手动调用它。
日志级别
Python 内置的日志记录定义了 5 个不同的级别来指示给定日志消息的严重程度。以下是标准级别,按严重程度递减顺序列出:
logging.CRITICAL
- 用于严重错误(最高严重程度)logging.ERROR
- 用于常规错误logging.WARNING
- 用于警告消息logging.INFO
- 用于信息性消息logging.DEBUG
- 用于调试消息(最低严重程度)
如何记录日志消息
以下是如何使用 logging.WARNING
级别记录消息的快速示例
import logging
logging.warning("This is a warning")
有用于发出标准 5 个级别中任何一个的日志消息的快捷方式,还有一个通用的 logging.log
方法,它接受给定的级别作为参数。如果需要,上一个示例可以改写为
import logging
logging.log(logging.WARNING, "This is a warning")
除此之外,您可以创建不同的“日志记录器”(loggers)来封装消息。(例如,一种常见做法是为每个模块创建不同的日志记录器)。这些日志记录器可以独立配置,并允许分层构造。
前面的示例在后台使用了根日志记录器,这是一个顶层日志记录器,所有消息都会传播到它(除非另有说明)。使用 logging
助手只是显式获取根日志记录器的一种快捷方式,因此这也与上一个代码片段等效
import logging
logger = logging.getLogger()
logger.warning("This is a warning")
您只需使用 logging.getLogger
函数获取其名称即可使用不同的日志记录器
import logging
logger = logging.getLogger("mycustomlogger")
logger.warning("This is a warning")
最后,您可以通过使用 __name__
变量,确保为您正在处理的任何模块拥有一个自定义日志记录器,该变量填充有当前模块的路径
import logging
logger = logging.getLogger(__name__)
logger.warning("This is a warning")
另请参阅
- logging 模块,HowTo(操作指南)
基本日志记录教程
- logging 模块,日志记录器(Loggers)
日志记录器的更多文档
从 Spiders 中记录日志
Scrapy 在每个 Spider 实例中提供了一个 logger
,可以这样访问和使用它
import scrapy
class MySpider(scrapy.Spider):
name = "myspider"
start_urls = ["https://scrapy.net.cn"]
def parse(self, response):
self.logger.info("Parse function called on %s", response.url)
该日志记录器是使用 Spider 的名称创建的,但您可以使用任何自定义 Python 日志记录器。例如
import logging
import scrapy
logger = logging.getLogger("mycustomlogger")
class MySpider(scrapy.Spider):
name = "myspider"
start_urls = ["https://scrapy.net.cn"]
def parse(self, response):
logger.info("Parse function called on %s", response.url)
日志配置
日志记录器本身不管理通过它们发送的消息如何显示。对于此任务,可以将不同的“处理程序”(handlers)附加到任何日志记录器实例,它们会将这些消息重定向到适当的目标,例如标准输出、文件、电子邮件等。
默认情况下,Scrapy 根据以下设置,为根日志记录器设置和配置一个处理程序。
日志设置
这些设置可用于配置日志记录
前几个设置定义了日志消息的目标。如果设置了 LOG_FILE
,通过根日志记录器发送的消息将被重定向到名为 LOG_FILE
的文件,编码为 LOG_ENCODING
。如果未设置且 LOG_ENABLED
为 True
,日志消息将显示在标准错误输出。如果设置了 LOG_FILE
且 LOG_FILE_APPEND
为 False
,文件将被覆盖(如果存在,则丢弃之前运行的输出)。最后,如果 LOG_ENABLED
为 False
,将不会有任何可见的日志输出。
LOG_LEVEL
确定要显示的最低严重级别,那些严重性较低的消息将被过滤掉。它涵盖了 日志级别 中列出的所有可能级别。
LOG_FORMAT
和 LOG_DATEFORMAT
分别指定用作所有消息布局的格式化字符串。这些字符串可以包含 logging 的 logrecord 属性文档 和 datetime 的 strftime 和 strptime 指令 中列出的任何占位符。
如果设置了 LOG_SHORT_NAMES
,则日志不会显示打印日志的 Scrapy 组件。默认情况下未设置此项,因此日志包含负责该日志输出的 Scrapy 组件。
命令行选项
有一些命令行参数可用于所有命令,您可以使用它们来覆盖一些与日志记录相关的 Scrapy 设置。
--logfile FILE
覆盖
LOG_FILE
--loglevel/-L LEVEL
覆盖
LOG_LEVEL
--nolog
将
LOG_ENABLED
设置为False
另请参阅
- 模块
logging.handlers
可用处理程序的更多文档
自定义日志格式
通过扩展 LogFormatter
类并使 LOG_FORMATTER
指向您的新类,可以为不同的操作设置自定义日志格式。
- class scrapy.logformatter.LogFormatter[source]
用于为不同操作生成日志消息的类。
所有方法必须返回一个字典,列出将用于在调用
logging.log
时构建日志消息的参数level
、msg
和args
。方法输出的字典键
level
是该操作的日志级别,您可以使用 python logging 库 中的级别:logging.DEBUG
、logging.INFO
、logging.WARNING
、logging.ERROR
和logging.CRITICAL
。msg
应该是一个字符串,可以包含不同的格式化占位符。这个字符串,用提供的args
格式化后,将成为该操作的长消息。args
应该是一个元组或字典,包含msg
的格式化占位符。最终的日志消息计算为msg % args
。
如果用户想自定义每个操作如何记录日志,或者想完全省略某个操作,可以定义自己的
LogFormatter
类。要省略记录某个操作,方法必须返回None
。以下是创建一个自定义日志格式化器的示例,该格式化器在项目从管道中丢弃时降低日志消息的严重级别
class PoliteLogFormatter(logformatter.LogFormatter): def dropped(self, item, exception, response, spider): return { 'level': logging.INFO, # lowering the level from logging.WARNING 'msg': "Dropped: %(exception)s" + os.linesep + "%(item)s", 'args': { 'exception': exception, 'item': item, } }
- crawled(request: Request, response: Response, spider: Spider) LogFormatterResult [source]
当爬虫找到一个网页时记录消息。
- download_error(failure: Failure, request: Request, spider: Spider, errmsg: str | None = None) LogFormatterResult [source]
记录来自 spider 的下载错误消息(通常来自引擎)。
在 2.0 版本中新增。
- dropped(item: Any, exception: BaseException, response: Response | None, spider: Spider) LogFormatterResult [source]
当项目在通过项目管道时被丢弃时记录消息。
- item_error(item: Any, exception: BaseException, response: Response | None, spider: Spider) LogFormatterResult [source]
当项目在通过项目管道时导致错误时记录消息。
在 2.0 版本中新增。
高级自定义
因为 Scrapy 使用 stdlib logging 模块,所以您可以使用 stdlib logging 的所有功能来自定义日志记录。
例如,假设您正在抓取一个返回大量 HTTP 404 和 500 响应的网站,并且您想隐藏所有类似这样的消息
2016-12-16 22:00:06 [scrapy.spidermiddlewares.httperror] INFO: Ignoring
response <500 https://quotes.toscrape.com/page/1-34/>: HTTP status code
is not handled or not allowed
首先要注意的是日志记录器名称——它在方括号中:[scrapy.spidermiddlewares.httperror]
。如果您只看到 [scrapy]
,那很可能是 LOG_SHORT_NAMES
设置为 True;将其设置为 False 并重新运行爬取。
接下来,我们可以看到消息的级别是 INFO。要隐藏它,我们应该将 scrapy.spidermiddlewares.httperror
的日志级别设置为高于 INFO;INFO 之后的下一个级别是 WARNING。这可以在 spider 的 __init__
方法中完成,例如
import logging
import scrapy
class MySpider(scrapy.Spider):
# ...
def __init__(self, *args, **kwargs):
logger = logging.getLogger("scrapy.spidermiddlewares.httperror")
logger.setLevel(logging.WARNING)
super().__init__(*args, **kwargs)
如果您再次运行此 spider,则来自 scrapy.spidermiddlewares.httperror
日志记录器的 INFO 消息将不再出现。
您还可以通过 LogRecord
数据过滤日志记录。例如,您可以使用子字符串或正则表达式按消息内容过滤日志记录。创建一个 logging.Filter
子类,并为其配备一个正则表达式模式来过滤掉不需要的消息
import logging
import re
class ContentFilter(logging.Filter):
def filter(self, record):
match = re.search(r"\d{3} [Ee]rror, retrying", record.message)
if match:
return False
可以将项目级别的过滤器附加到 Scrapy 创建的根处理程序,这是过滤项目不同部分(中间件、spider 等)中所有日志记录器的便捷方法。
import logging
import scrapy
class MySpider(scrapy.Spider):
# ...
def __init__(self, *args, **kwargs):
for handler in logging.root.handlers:
handler.addFilter(ContentFilter())
或者,您可以选择一个特定的日志记录器并将其隐藏,而不会影响其他日志记录器
import logging
import scrapy
class MySpider(scrapy.Spider):
# ...
def __init__(self, *args, **kwargs):
logger = logging.getLogger("my_logger")
logger.addFilter(ContentFilter())
scrapy.utils.log 模块
- scrapy.utils.log.configure_logging(settings: Settings | dict[bool | float | int | str | None, Any] | None = None, install_root_handler: bool = True) None [source]
为 Scrapy 初始化日志记录默认值。
- 参数:
此函数执行以下操作:
通过 Python 标准日志记录路由警告和 Twisted 日志
分别将 DEBUG 和 ERROR 级别分配给 Scrapy 和 Twisted 日志记录器
如果 LOG_STDOUT 设置为 True,则将 stdout 路由到日志
当
install_root_handler
为 True(默认值)时,此函数还会根据给定设置(参见 日志设置)为根日志记录器创建一个处理程序。您可以使用settings
参数覆盖默认选项。当settings
为空或 None 时,将使用默认值。使用 Scrapy 命令或
CrawlerProcess
时会自动调用configure_logging
,但使用CrawlerRunner
运行自定义脚本时需要显式调用它。在这种情况下,不强制要求使用它,但建议使用。运行自定义脚本时的另一个选项是手动配置日志记录。为此,您可以使用
logging.basicConfig()
设置一个基本的根处理程序。请注意,
CrawlerProcess
会自动调用configure_logging
,因此建议仅与CrawlerRunner
一起使用logging.basicConfig()
。以下是如何将
INFO
或更高级别的消息重定向到文件的示例import logging logging.basicConfig( filename="log.txt", format="%(levelname)s: %(message)s", level=logging.INFO )
有关以这种方式使用 Scrapy 的更多详细信息,请参阅 从脚本运行 Scrapy。