Scrapy 开发中需要编程的内容
Spider
爬虫,负责提取页面中的数据,返回dict或Item子类实例。
Item
封装爬取到的数据,在Spider中返回。Item包含特殊的字段及方法便于其他Scrapy组件使用。
Item Pipeline
用于处理数据,在settings.py中定义需要处理数据的Item Pipeline和优先级,数据会以优先级从高到低依次传递给所有在settings.py中被定义的Item Pipeline,直至最后或数据被丢弃。
Exporter
用于导出数据,Scrapy内部实现了多个Exporters,每个Exporter实现一种导出的数据格式,自定义Exporter需要在settings.py中配置对应的格式。
to be continue……