更多>>关于我们

西安鲲之鹏网络信息技术有限公司从2010年开始专注于Web(网站)数据抓取领域。致力于为广大中国客户提供准确、快捷的数据采集相关服务。我们采用分布式系统架构,日采集网页数千万。我们拥有海量稳定高匿HTTP代理IP地址池,可以有效绕过各种反采集策略。

您只需告诉我们您想抓取的网站是什么,您感兴趣的字段有哪些,你需要的数据是哪种格式,我们将为您做所有的工作,最后把数据(或程序)交付给你。

数据的格式可以是CSV、JSON、XML、ACCESS、SQLITE、MSSQL、MYSQL等等。

更多>>官方微博

当前位置: 首页 > 技术文章 >
百度指数最新采集方案(201804)演示
发布时间:2018-04-16 来源:未知 浏览:

        先说一下百度指数系统最近又做了什么升级。大概在今年3月底、4月初的时候,百度指数系统又默默的升级策略了,这次UI几乎没变化(实际上2014年6月份以来一直就没变过),用之前的思路(点击查看详情http://www.site-digger.com/html/articles/20141001/82.html)还能绕过加密正常获取到明文数据。做过百度指数系统采集的朋友应该都知道,老版本系统对账号访问频率没有限制,只对IP访问频率有限制(IP访问频繁会出验证码),通过轮换代理IP可以过该限制。本次对账号访问频率做了严格限制,通过我们多次验证,每个账号每天大概只能访问大约300次,超过就会提示“您的访问太频繁了,请稍后再试”(如下图所示)。

百度指数系统访问太多会提示访问太频繁

针对该限制,鲲之鹏的技术人员改进了爬虫的策略:

1. 采用多账号采集,控制每个账号的访问间隔(约5分钟),每天每个账号的使用次数控制在300以内。

2. 如果出现“访问过于频繁”的警告,则标记该账号今日不再使用,并将采集任务重新入队列交由其它账号采集。

3. 同时使用百度指数手机版本采集,我们测试发现两个系统的限制是独立的,不过手机版的UI和加密方式不一样。

最终爬虫得以稳定运行,运行截图如下图所示:

百度指数采集屏幕截图

 

特别说明:该文章为鲲鹏数据原创文章 ,您除了可以发表评论外,还可以转载到别的网站,但是请保留源地址,谢谢!!(尊重他人劳动,我们共同努力)
☹ Disqus被Qiang了,之前的评论内容都没了。现在改用国产的友言。如果您有爬虫相关技术方面的问题,欢迎发到我们的问答平台:http://spider.site-digger.com/
QQ在线客服
欢迎咨询,点击这里给我发送消息。
欢迎咨询,点击这里给我发送消息。