项目¶
抓取的主要目标是从非结构化源(通常是网页)中提取结构化数据。 爬虫 可以将提取的数据作为项目返回,项目是定义键值对的 Python 对象。
Scrapy 支持 多种类型的项目。创建项目时,可以使用任何你想要的项目类型。当你编写接收项目的代码时,你的代码应该 适用于任何项目类型。
项目类型¶
Scrapy 通过 itemadapter 库支持以下类型的项目: 字典、 项目对象、 数据类对象 和 attrs 对象。
字典¶
作为一种项目类型, dict
方便且熟悉。
项目对象¶
Item
提供了一个类似 dict
的 API 以及其他功能,使其成为功能最完善的项目类型。
- class scrapy.Item(*args: Any, **kwargs: Any)[source]¶
抓取项目的基类。
在 Scrapy 中,如果一个对象受 itemadapter 库支持,则认为它是一个
item
。例如,当评估爬虫回调的输出时,只有此类对象会被传递到 项目管道。Item
是默认情况下 itemadapter 支持的类之一。项目必须声明
Field
属性,这些属性会在fields
属性中进行处理和存储。这限制了允许的字段名称集并防止了拼写错误,在引用未定义的字段时会引发KeyError
。此外,字段可以用来定义元数据并控制内部数据处理的方式。请参考 关于字段的文档 以获取更多信息。与
dict
的实例不同,Item
的实例可以 跟踪 以调试内存泄漏。- deepcopy() Self [source]¶
返回此项目的
deepcopy()
。
Item
对象复制了标准 dict
API,包括其 __init__
方法。
Item
允许定义字段名称,以便
trackref
跟踪 Item
对象以帮助查找内存泄漏(参见 使用 trackref 调试内存泄漏)。
示例
from scrapy.item import Item, Field
class CustomItem(Item):
one_field = Field()
another_field = Field()
数据类对象¶
版本 2.2 中的新功能。
dataclass()
允许定义带有字段名称的项目类,以便 项目导出器 可以默认导出所有字段,即使第一个抓取的对象没有所有字段的值。
此外,dataclass
项目还允许你
定义每个定义字段的类型和默认值。
通过
dataclasses.field()
定义自定义字段元数据,可用于 自定义序列化。
示例
from dataclasses import dataclass
@dataclass
class CustomItem:
one_field: str
another_field: int
注意
字段类型在运行时不会被强制执行。
attr.s 对象¶
版本 2.2 中的新功能。
attr.s()
允许定义具有字段名称的项目类,以便 项目导出器 可以默认导出所有字段,即使第一个抓取的对象没有所有字段的值。
此外,attr.s
项目也允许
为了使用这种类型,需要安装 attrs 包。
示例
import attr
@attr.s
class CustomItem:
one_field = attr.ib()
another_field = attr.ib()
使用 Item 对象¶
声明 Item 子类¶
Item 子类使用简单的类定义语法和 Field
对象声明。以下是一个示例
import scrapy
class Product(scrapy.Item):
name = scrapy.Field()
price = scrapy.Field()
stock = scrapy.Field()
tags = scrapy.Field()
last_updated = scrapy.Field(serializer=str)
注意
熟悉 Django 的人会注意到,Scrapy Items 的声明方式类似于 Django Models,但 Scrapy Items 更简单,因为没有不同字段类型的概念。
声明字段¶
Field
对象用于指定每个字段的元数据。例如,上面示例中 last_updated
字段的序列化函数。
您可以为每个字段指定任何类型的元数据。对 Field
对象接受的值没有限制。出于同样的原因,没有所有可用元数据键的参考列表。在 Field
对象中定义的每个键都可能被不同的组件使用,并且只有这些组件知道它。您也可以在您的项目中定义和使用任何其他 Field
键,以满足您自己的需求。 Field
对象的主要目标是提供一种方法,在一个地方定义所有字段元数据。通常,其行为依赖于每个字段的组件使用某些字段键来配置该行为。您必须参考其文档以查看每个组件使用了哪些元数据键。
需要注意的是,用于声明项目的 Field
对象不会作为类属性分配。相反,可以通过 fields
属性访问它们。
- class scrapy.Field[source]¶
字段元数据容器
Field
类只是内置dict
类的别名,不提供任何额外的功能或属性。换句话说,Field
对象是普通的 Python 字典。使用单独的类来支持基于类属性的 项目声明语法。
注意
还可以为 dataclass
和 attrs
项目声明字段元数据。有关更多信息,请参阅 dataclasses.field 和 attr.ib 的文档。
使用 Item 对象¶
以下是一些使用项目执行常见任务的示例,使用 Product
项目 上面声明的。您会注意到 API 与 dict
API 非常相似。
创建项目¶
>>> product = Product(name="Desktop PC", price=1000)
>>> print(product)
Product(name='Desktop PC', price=1000)
获取字段值¶
>>> product["name"]
Desktop PC
>>> product.get("name")
Desktop PC
>>> product["price"]
1000
>>> product["last_updated"]
Traceback (most recent call last):
...
KeyError: 'last_updated'
>>> product.get("last_updated", "not set")
not set
>>> product["lala"] # getting unknown field
Traceback (most recent call last):
...
KeyError: 'lala'
>>> product.get("lala", "unknown field")
'unknown field'
>>> "name" in product # is name field populated?
True
>>> "last_updated" in product # is last_updated populated?
False
>>> "last_updated" in product.fields # is last_updated a declared field?
True
>>> "lala" in product.fields # is lala a declared field?
False
设置字段值¶
>>> product["last_updated"] = "today"
>>> product["last_updated"]
today
>>> product["lala"] = "test" # setting unknown field
Traceback (most recent call last):
...
KeyError: 'Product does not support field: lala'
访问所有填充的值¶
要访问所有填充的值,只需使用典型的 dict
API
>>> product.keys()
['price', 'name']
>>> product.items()
[('price', 1000), ('name', 'Desktop PC')]
复制项目¶
要复制项目,您必须首先确定是要进行浅复制还是深复制。
如果您的项目包含像列表或字典这样的 可变 值,则浅复制将保留对所有不同副本中相同可变值的引用。
例如,如果您有一个包含标签列表的项目,并且您创建了该项目的浅复制,则原始项目和副本都具有相同的标签列表。向其中一个项目的列表中添加标签也将向另一个项目添加该标签。
如果这不是所需的行为,请改用深复制。
有关更多信息,请参阅 copy
。
要创建项目的浅复制,您可以对现有项目调用 copy()
(product2 = product.copy()
)或从现有项目实例化您的项目类(product2 = Product(product)
)。
要创建深复制,请改用 deepcopy()
(product2 = product.deepcopy()
)。
其他常见任务¶
从项目创建字典
>>> dict(product) # create a dict from all populated values
{'price': 1000, 'name': 'Desktop PC'}
Creating items from dicts:
>>> Product({"name": "Laptop PC", "price": 1500})
Product(price=1500, name='Laptop PC')
>>> Product({"name": "Laptop PC", "lala": 1500}) # warning: unknown field in dict
Traceback (most recent call last):
...
KeyError: 'Product does not support field: lala'
扩展 Item 子类¶
您可以通过声明原始 Item 的子类来扩展 Item(以添加更多字段或更改某些字段的一些元数据)。
例如
class DiscountedProduct(Product):
discount_percent = scrapy.Field(serializer=str)
discount_expiration_date = scrapy.Field()
您还可以通过使用以前的字段元数据并追加更多值或更改现有值来扩展字段元数据,如下所示
class SpecificProduct(Product):
name = scrapy.Field(Product.fields["name"], serializer=my_serializer)
这为 name
字段添加(或替换)serializer
元数据键,同时保留所有以前存在的元数据值。
支持所有 Item 类型¶
在接收项目的代码中,例如 项目管道 或 爬虫中间件 的方法,最好使用 ItemAdapter
类和 is_item()
函数来编写适用于任何受支持的项目类型的代码。