Richard's Blog

Scrapy学习笔记——Scrapy概览

字数统计: 176阅读时长: 1 min
2019/02/09 Share

Scrapy 开发中需要编程的内容

Spider

爬虫,负责提取页面中的数据,返回dict或Item子类实例。

Item

封装爬取到的数据,在Spider中返回。Item包含特殊的字段及方法便于其他Scrapy组件使用。

Item Pipeline

用于处理数据,在settings.py中定义需要处理数据的Item Pipeline和优先级,数据会以优先级从高到低依次传递给所有在settings.py中被定义的Item Pipeline,直至最后或数据被丢弃。

Exporter

用于导出数据,Scrapy内部实现了多个Exporters,每个Exporter实现一种导出的数据格式,自定义Exporter需要在settings.py中配置对应的格式。

to be continue……

CATALOG
  1. 1. Scrapy 开发中需要编程的内容
    1. 1.1. Spider
    2. 1.2. Item
    3. 1.3. Item Pipeline
    4. 1.4. Exporter