编排和调度

编排和调度#

  1. 请求环节使用https://github.com/quanttide/quanttide-data-python将要拆出来的爬虫库

  2. 请求和保存可以在平台复用

    可视化的爬虫需求定位工具:用户输入网址,平台访问网址并提供两种可视化网页:静态网页和selenium动态加载后的网页,用户指出需要爬取的内容的位置

    • 请求:输入请求链接、请求方式、请求附带参数,输出正确响应结果(200)

    • 解析:用户自行编写对目标信息的解析代码,平台将提供输入:正确响应,代码返回值为需要保存的信息

    • 保存:输入需要保存的信息、保存的方式(CSV、数据库……)、保存的路径,进行保存操作,输出成功与否

    竞品:八爪鱼采集器

  3. 请求之后网页html可以先保存在本地,便于后续遇到遗漏信息或需求修改时重新解析就行,无需再重新访问网站。