请求对象添加随机代理IP—反反爬策略

发布时间：2020-09-05 16:52:05

　　爬虫的目的就是为了模拟点击浏览器操作的行为，在反反爬策略中，最基础的就是更换User-Agent。User-Agent的作用是方便服务器识别，当前请求对象的身份信息。具体更换操作可以翻阅上一篇反反爬策略。

　　无法从身份属性来识别是否是机器操作，网站服务器只能通过其他信息来辨别，区别机器和正常用户。识别IP访问频率，判断cookie信息，添加验证码操作等都是常见的网站反爬操作。

请求对象添加随机代理IP—反反爬策略

　　今天，主要学习的就是突破网站根据IP访问频率的反反爬策略:随机更换请求对象的IP信息。

　　Scrapy中，更换请求对象的IP信息非常的方便，只需要在request对象进入下载器之前，修改request对象的参数信息。

　　所以我们需要在下载器中间件Download_middleware中自定义一个下载器中间件ProxiesMiddleware，在process_request()函数中修改request对象信息。

　　其中PROXIES_LIST是构建的代理列表。

　　process_request的参数分别是request当前请求对象,spider当前的爬虫对象。

　　返回None，Scrapy将继续处理该Request;

　　返回Request对象时，这个Reuqest会重新放到调度队列里，更低优先级的process_reqyest()函数不会执行;

　　返回Response对象时，直接将Response对象发送给Spider来处理。

　　现在每次发送一次请求，请求对象的IP信息就会从配置中的代理IP池中随机挑选一个。不同的IP就会迷惑服务器监控，不会对本次请求做反爬处理了。至此，我们的爬虫就能顺顺当当的获取数据了。好了，本期结束，大家散会吧。

　　NO!NO!NO!这还远远不够，这才只是代理的第一步。没有哪个代理是能保证百分之百成功的。付费代理也好，免费代理也好，即使是高匿代理也只不过是提高了防反爬的几率，并没有说一定会成功的。

　　请求失败的解决方案有两种:

　　1.多试几次，直到请求成功，不成功就报错。

　　2.换一个IP试试，直到换成请求成功的代理。对代理质量要求必须高。如果代理池质量很差，项目就会陷入死循环中。

　　解决逻辑是：设置重试次数，达到指定次数就换IP。

　　幸运的是Scrapy框架中自带了处理失败请求的中间件RetryMiddleware。

　　注释的部分是添加的加入代理的逻辑，需要继承RetryMiddleware之后再重写。

　　在settings中设置最大重试次数以及需要进行重试的异常状态码列表。

　　关闭Scrapy自带的RetryMiddleware中间件，开启自定义的Retry中间件。

　　启动项目测试。遇到失败的请求会重新发送，超过最大重试次数以后返回一个空的数据。

　　这就是我们预期的结果了，剩下的就是提高代理池的质量，就能最大程度的保证爬虫的可用性了。

上一篇：怎么找代理IP 下一篇：怎么选择国内优质HTTP代理IP