反爬

反爬#

  1. 上云可以以多种方法实现多IP,触发验证的概率比本地低

  2. 有可能有些网站会拉黑云服务厂商的IP段,或者做为高风险IP加严反爬限制

  3. 如果网站要求登陆后才能访问,那么换IP难直接解决反爬问题

  4. 使用第三方服务可以解决验证码和滑块等问题

  5. 函数(FaaS,Lambda)、容器、虚拟机是3种可用的云产品。

    1. 函数可以做到更小的规格,来降低成本,具体需要上AWS进行对比。

    2. 函数可以很方便的启动较多的数量,虚拟机正常需要手动进行启停,auto scaling应该可以批量启动虚拟机

    3. 函数运行结束后会有一段待回收的时期,回收前再次调用会复用之前的实例导致复用了之前的IP,但是在同时运行的就是不同的IP;虚拟机每一个实例是不同的IP,销毁后再次启动新的虚拟机理论上IP重复概率比较小

    4. 虚拟机需要配置环境,函数预先把依赖包下载好,作为层一起运行,相当于直接附到代码包里

  6. 多输出运行日志,特别是关键步骤,然后由 人工定期检查 或 平台(自己做或第三方提供)自动读取日志 并提醒使用者。日志要么输出到对象存储/日志服务里,要么虚拟机往文件输出,函数直接打印,让其自动记录。