一个小又全的爬虫项目

  • 任务生成者

    生成爬虫任务的组件, 最大的作用就是建立生产消费者模型, 将生产者和消费者剥离, 可以达到程序暂停重启的功能.

  • 配置文件

    当前爬虫项目的基础配置信息, 目的就是统一化配置, 避免重复修改.

  • 主函数/调度器

    以逻辑控制流协同各个组件, 完成爬取工作, 具有一定的调度功能

  • 下载器

    用来和目标服务器进行交互, 获取数据的组件

  • 解析器

    用来解析非结构化的页面内容, 获取想要的数据.

  • 存储器

    用来持久化解析后的数据

    • 数据库
    • 存为本地文件, 比较推荐的格式为json, 结构严谨的可以保存为csv

github地址

Last modification:September 14, 2022
如果觉得我的文章对你有用,请随意赞赏