一个小又全的爬虫项目
任务生成者
生成爬虫任务的组件, 最大的作用就是建立生产消费者模型, 将生产者和消费者剥离, 可以达到程序暂停重启的功能.
配置文件
当前爬虫项目的基础配置信息, 目的就是统一化配置, 避免重复修改.
主函数/调度器
以逻辑控制流协同各个组件, 完成爬取工作, 具有一定的调度功能
下载器
用来和目标服务器进行交互, 获取数据的组件
解析器
用来解析非结构化的页面内容, 获取想要的数据.
存储器
用来持久化解析后的数据
- 数据库
- 存为本地文件, 比较推荐的格式为json, 结构严谨的可以保存为csv
Comment here is closed