博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬虫尽量不被发现策略
阅读量:4145 次
发布时间:2019-05-25

本文共 1109 字,大约阅读时间需要 3 分钟。

1. 不要用一个IP狂爬

所以要准备一堆可用的代理IP,如果公司有额外的比较闲的IP最好了,闲着也是闲着,在不影响正常业务的提前下,多换IP。否则就要想办法获取免费代理。

2.勤换UA

很多人喜欢在配置中列一些UA, 其实吧,可以使用python库--,当然需要先pip安装。其实我也推荐大家伪装成各大搜索网站的UA,比如GoogleUA 有这样一些,说到这里,有的网站你添加referfer字段是搜索网站也是有用的,因为网站是希望被索引的,所以会放宽搜索引擎的爬取策略。

fake_useragetn 实例测试

from fake_useragent import UserAgent ua = UserAgent()ua.update()try:    ua = UserAgent()except FakeUserAgentError:    passprint(ua.ie)print(ua.firefox)print(ua.safari)print(ua.random)
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/4.0; GTB7.4; InfoPath.1; SV1; .NET CLR 2.8.52393; WOW64; en-US)Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:27.0) Gecko/20121011 Firefox/27.0Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36

3、爬取间隔自适应

就是已经限制了你这个IP的抓取,就不要傻傻重复试,怎么滴也得休息一会。网易云音乐操作起来比较简单,sleep一下就好了。其实sleep的间隔应该按情况累加,比如第一次sleep10秒,发现还是被约束。那么久sleep 20秒... 这个间隔的设置已经自适应的最终效果是经验值。

4、验证码识别

现在攻防让验证码技术层出不穷,其实好多都是自己写算法识别,并不开源,开源的就是tesseract,还可以借用试试。我个人还是倾其所有的做好其他的地方,不要让人家弹出验证码让我输入。

转载地址:http://tqbti.baihongyu.com/

你可能感兴趣的文章
Xcode 11 报错,提示libstdc++.6 缺失,解决方案
查看>>
idea的安装以及简单使用
查看>>
Windows mysql 安装
查看>>
python循环语句与C语言的区别
查看>>
vue 项目中图片选择路径位置static 或 assets区别
查看>>
vue项目打包后无法运行报错空白页面
查看>>
Vue 解决部署到服务器后或者build之后Element UI图标不显示问题(404错误)
查看>>
element-ui全局自定义主题
查看>>
facebook库runtime.js
查看>>
vue2.* 中 使用socket.io
查看>>
openlayers安装引用
查看>>
js报错显示subString/subStr is not a function
查看>>
高德地图js API实现鼠标悬浮于点标记时弹出信息窗体显示详情,点击点标记放大地图操作
查看>>
初始化VUE项目报错
查看>>
vue项目使用安装sass
查看>>
HTTP和HttpServletRequest 要点
查看>>
在osg场景中使用GLSL语言——一个例子
查看>>
laravel 修改api返回默认的异常处理
查看>>
laravel事务
查看>>
【JavaScript 教程】浏览器—History 对象
查看>>