网站地图    收藏   

主页 > 后端 > python >

python 常见的反爬虫策略

来源:自学PHP网    时间:2020-09-28 10:17 作者:小飞侠 阅读:

[导读] python 常见的反爬虫策略...

今天带来python 常见的反爬虫策略教程详解

1、判断请求头来进行反爬

这是很早期的网站进行的反爬方式

User-Agent 用户代理
referer 请求来自哪里
cookie 也可以用来做访问凭证
解决办法:请求头里面添加对应的参数(复制浏览器里面的数据)

2、根据用户行为来进行反爬

请求频率过高,服务器设置规定时间之内的请求阈值
解决办法:降低请求频率或者使用代理(IP代理)
网页中设置一些陷阱(正常用户访问不到但是爬虫可以访问到)
解决办法:分析网页,避开这些特殊陷阱
请求间隔太短,返回相同的数据
解决办法:增加请求间隔

3、js加密

反爬方式中较为难处理的一类。
js加密的原理:服务器响应给浏览器的js文件,可以动态的生成一些加密参数,浏览器会根据js的计算 得到这些参数,在请求中带入进来,如果请求中没有这些参数,那么服务器就任务请求无效。

4、字体加密

字体反爬,是一种常见的反爬技术,网站采用了自定义的字体文件,在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符。采用自定义字体文件是CSS3的新特性,熟悉前端的同学可能知道,就是font-face属性。

5、登录验证码

使用Python爬取网页内容时往往会遇到使用验证码登陆才能访问其网站,不同网站的使用的验证码也不同,在最开始使用简单验证码,识别数字,但是随着反爬的不断发展,慢慢设计出了更多复杂的验证码,比如:内容验证码、滑动验证码、图片拼接验证码等等。
网上有很多打码平台,通过注册账号,调用平台接口,进行验证码的验证。


以上就是关于python 常见的反爬虫策略全部内容,感谢大家支持自学php网。

自学PHP网专注网站建设学习,PHP程序学习,平面设计学习,以及操作系统学习

京ICP备14009008号-1@版权所有www.zixuephp.com

网站声明:本站所有视频,教程都由网友上传,站长收集和分享给大家学习使用,如由牵扯版权问题请联系站长邮箱904561283@qq.com

添加评论