日志记录

注意

scrapy.log 及其函数已被弃用，取而代之的是显式调用 Python 标准库的日志记录。继续阅读以了解新的日志记录系统。

Scrapy 使用 logging 进行事件日志记录。我们将提供一些简单的示例供您入门，但对于更高级的用例，强烈建议您仔细阅读其文档。

日志记录即开即用，并且可以在一定程度上通过日志设置中列出的 Scrapy 设置进行配置。

Scrapy 在运行命令时会调用 scrapy.utils.log.configure_logging() 来设置一些合理的默认值并处理日志设置中的那些配置，因此如果您按照从脚本运行 Scrapy 中所述从脚本运行 Scrapy，建议手动调用它。

日志级别

Python 内置的日志记录定义了 5 个不同的级别来指示给定日志消息的严重程度。以下是标准级别，按严重程度递减顺序列出：

logging.CRITICAL - 用于严重错误（最高严重程度）
logging.ERROR - 用于常规错误
logging.WARNING - 用于警告消息
logging.INFO - 用于信息性消息
logging.DEBUG - 用于调试消息（最低严重程度）

如何记录日志消息

以下是如何使用 logging.WARNING 级别记录消息的快速示例

import logging

logging.warning("This is a warning")

有用于发出标准 5 个级别中任何一个的日志消息的快捷方式，还有一个通用的 logging.log 方法，它接受给定的级别作为参数。如果需要，上一个示例可以改写为

import logging

logging.log(logging.WARNING, "This is a warning")

除此之外，您可以创建不同的“日志记录器”（loggers）来封装消息。（例如，一种常见做法是为每个模块创建不同的日志记录器）。这些日志记录器可以独立配置，并允许分层构造。

前面的示例在后台使用了根日志记录器，这是一个顶层日志记录器，所有消息都会传播到它（除非另有说明）。使用 logging 助手只是显式获取根日志记录器的一种快捷方式，因此这也与上一个代码片段等效

import logging

logger = logging.getLogger()
logger.warning("This is a warning")

您只需使用 logging.getLogger 函数获取其名称即可使用不同的日志记录器

import logging

logger = logging.getLogger("mycustomlogger")
logger.warning("This is a warning")

最后，您可以通过使用 __name__ 变量，确保为您正在处理的任何模块拥有一个自定义日志记录器，该变量填充有当前模块的路径

import logging

logger = logging.getLogger(__name__)
logger.warning("This is a warning")

另请参阅

logging 模块，HowTo（操作指南）: 基本日志记录教程
logging 模块，日志记录器（Loggers）: 日志记录器的更多文档

从 Spiders 中记录日志

Scrapy 在每个 Spider 实例中提供了一个 logger，可以这样访问和使用它

import scrapy


class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = ["https://scrapy.net.cn"]

    def parse(self, response):
        self.logger.info("Parse function called on %s", response.url)

该日志记录器是使用 Spider 的名称创建的，但您可以使用任何自定义 Python 日志记录器。例如

import logging
import scrapy

logger = logging.getLogger("mycustomlogger")


class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = ["https://scrapy.net.cn"]

    def parse(self, response):
        logger.info("Parse function called on %s", response.url)

日志配置

日志记录器本身不管理通过它们发送的消息如何显示。对于此任务，可以将不同的“处理程序”（handlers）附加到任何日志记录器实例，它们会将这些消息重定向到适当的目标，例如标准输出、文件、电子邮件等。

默认情况下，Scrapy 根据以下设置，为根日志记录器设置和配置一个处理程序。

日志设置

这些设置可用于配置日志记录

前几个设置定义了日志消息的目标。如果设置了 LOG_FILE，通过根日志记录器发送的消息将被重定向到名为 LOG_FILE 的文件，编码为 LOG_ENCODING。如果未设置且 LOG_ENABLED 为 True，日志消息将显示在标准错误输出。如果设置了 LOG_FILE 且 LOG_FILE_APPEND 为 False，文件将被覆盖（如果存在，则丢弃之前运行的输出）。最后，如果 LOG_ENABLED 为 False，将不会有任何可见的日志输出。

LOG_LEVEL 确定要显示的最低严重级别，那些严重性较低的消息将被过滤掉。它涵盖了日志级别中列出的所有可能级别。

LOG_FORMAT 和 LOG_DATEFORMAT 分别指定用作所有消息布局的格式化字符串。这些字符串可以包含 logging 的 logrecord 属性文档和 datetime 的 strftime 和 strptime 指令中列出的任何占位符。

如果设置了 LOG_SHORT_NAMES，则日志不会显示打印日志的 Scrapy 组件。默认情况下未设置此项，因此日志包含负责该日志输出的 Scrapy 组件。

命令行选项

有一些命令行参数可用于所有命令，您可以使用它们来覆盖一些与日志记录相关的 Scrapy 设置。

--logfile FILE
覆盖 LOG_FILE
--loglevel/-L LEVEL
覆盖 LOG_LEVEL
--nolog
将 LOG_ENABLED 设置为 False

另请参阅

模块 logging.handlers: 可用处理程序的更多文档

自定义日志格式

通过扩展 LogFormatter 类并使 LOG_FORMATTER 指向您的新类，可以为不同的操作设置自定义日志格式。

class scrapy.logformatter.LogFormatter[source]

用于为不同操作生成日志消息的类。

所有方法必须返回一个字典，列出将用于在调用 logging.log 时构建日志消息的参数 level、msg 和 args。

方法输出的字典键

level 是该操作的日志级别，您可以使用 python logging 库中的级别：logging.DEBUG、logging.INFO、logging.WARNING、logging.ERROR 和 logging.CRITICAL。
msg 应该是一个字符串，可以包含不同的格式化占位符。这个字符串，用提供的 args 格式化后，将成为该操作的长消息。
args 应该是一个元组或字典，包含 msg 的格式化占位符。最终的日志消息计算为 msg % args。

如果用户想自定义每个操作如何记录日志，或者想完全省略某个操作，可以定义自己的 LogFormatter 类。要省略记录某个操作，方法必须返回 None。

以下是创建一个自定义日志格式化器的示例，该格式化器在项目从管道中丢弃时降低日志消息的严重级别

class PoliteLogFormatter(logformatter.LogFormatter):
    def dropped(self, item, exception, response, spider):
        return {
            'level': logging.INFO, # lowering the level from logging.WARNING
            'msg': "Dropped: %(exception)s" + os.linesep + "%(item)s",
            'args': {
                'exception': exception,
                'item': item,
            }
        }

crawled(request: Request, response: Response, spider: Spider) → LogFormatterResult[source]: 当爬虫找到一个网页时记录消息。

download_error(failure: Failure, request: Request, spider: Spider, errmsg: str | None = None) → LogFormatterResult[source]: 记录来自 spider 的下载错误消息（通常来自引擎）。

在 2.0 版本中新增。

dropped(item: Any, exception: BaseException, response: Response | None, spider: Spider) → LogFormatterResult[source]: 当项目在通过项目管道时被丢弃时记录消息。

item_error(item: Any, exception: BaseException, response: Response | None, spider: Spider) → LogFormatterResult[source]: 当项目在通过项目管道时导致错误时记录消息。

在 2.0 版本中新增。

scraped(item: Any, response: Response | Failure | None, spider: Spider) → LogFormatterResult[source]: 当一个项目被 spider 抓取时记录消息。

spider_error(failure: Failure, request: Request, response: Response | Failure, spider: Spider) → LogFormatterResult[source]: 记录来自 spider 的错误消息。

在 2.0 版本中新增。

高级自定义

因为 Scrapy 使用 stdlib logging 模块，所以您可以使用 stdlib logging 的所有功能来自定义日志记录。

例如，假设您正在抓取一个返回大量 HTTP 404 和 500 响应的网站，并且您想隐藏所有类似这样的消息

2016-12-16 22:00:06 [scrapy.spidermiddlewares.httperror] INFO: Ignoring
response <500 https://quotes.toscrape.com/page/1-34/>: HTTP status code
is not handled or not allowed

首先要注意的是日志记录器名称——它在方括号中：[scrapy.spidermiddlewares.httperror]。如果您只看到 [scrapy]，那很可能是 LOG_SHORT_NAMES 设置为 True；将其设置为 False 并重新运行爬取。

接下来，我们可以看到消息的级别是 INFO。要隐藏它，我们应该将 scrapy.spidermiddlewares.httperror 的日志级别设置为高于 INFO；INFO 之后的下一个级别是 WARNING。这可以在 spider 的 __init__ 方法中完成，例如

import logging
import scrapy


class MySpider(scrapy.Spider):
    # ...
    def __init__(self, *args, **kwargs):
        logger = logging.getLogger("scrapy.spidermiddlewares.httperror")
        logger.setLevel(logging.WARNING)
        super().__init__(*args, **kwargs)

如果您再次运行此 spider，则来自 scrapy.spidermiddlewares.httperror 日志记录器的 INFO 消息将不再出现。

您还可以通过 LogRecord 数据过滤日志记录。例如，您可以使用子字符串或正则表达式按消息内容过滤日志记录。创建一个 logging.Filter 子类，并为其配备一个正则表达式模式来过滤掉不需要的消息

import logging
import re


class ContentFilter(logging.Filter):
    def filter(self, record):
        match = re.search(r"\d{3} [Ee]rror, retrying", record.message)
        if match:
            return False

可以将项目级别的过滤器附加到 Scrapy 创建的根处理程序，这是过滤项目不同部分（中间件、spider 等）中所有日志记录器的便捷方法。

import logging
import scrapy


class MySpider(scrapy.Spider):
    # ...
    def __init__(self, *args, **kwargs):
        for handler in logging.root.handlers:
            handler.addFilter(ContentFilter())

或者，您可以选择一个特定的日志记录器并将其隐藏，而不会影响其他日志记录器

import logging
import scrapy


class MySpider(scrapy.Spider):
    # ...
    def __init__(self, *args, **kwargs):
        logger = logging.getLogger("my_logger")
        logger.addFilter(ContentFilter())

scrapy.utils.log 模块

为 Scrapy 初始化日志记录默认值。

参数：

settings (dict, Settings 对象或 None) – 用于为根日志记录器创建和配置处理程序的设置（默认值：None）。
install_root_handler (bool) – 是否安装根日志处理程序（默认值：True）

此函数执行以下操作：

通过 Python 标准日志记录路由警告和 Twisted 日志
分别将 DEBUG 和 ERROR 级别分配给 Scrapy 和 Twisted 日志记录器
如果 LOG_STDOUT 设置为 True，则将 stdout 路由到日志

当 install_root_handler 为 True（默认值）时，此函数还会根据给定设置（参见日志设置）为根日志记录器创建一个处理程序。您可以使用 settings 参数覆盖默认选项。当 settings 为空或 None 时，将使用默认值。

使用 Scrapy 命令或 CrawlerProcess 时会自动调用 configure_logging，但使用 CrawlerRunner 运行自定义脚本时需要显式调用它。在这种情况下，不强制要求使用它，但建议使用。

运行自定义脚本时的另一个选项是手动配置日志记录。为此，您可以使用 logging.basicConfig() 设置一个基本的根处理程序。

请注意，CrawlerProcess 会自动调用 configure_logging，因此建议仅与 CrawlerRunner 一起使用 logging.basicConfig()。

以下是如何将 INFO 或更高级别的消息重定向到文件的示例

import logging

logging.basicConfig(
    filename="log.txt", format="%(levelname)s: %(message)s", level=logging.INFO
)

有关以这种方式使用 Scrapy 的更多详细信息，请参阅从脚本运行 Scrapy。