新网创想网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
其实在抓取数据时,如果有大量的离散账号和离散IP的话,抓取数据就问题不大了。但是老猿相信大部分的爬虫选手们都没有这么多的资源,所以就会绞尽脑汁研究和各种尝试对方的访问控制策略,如果始终无法破局,这时就要跳出来想下其他办法,比如多使用一下对方的产品,包括APP,网站,微信等,抓包看看他们之间的URL有没有关联,访问控制策略是否一致等,有时你会找到新的突破口。
成都创新互联是专业的城北网站建设公司,城北接单;提供网站设计、网站制作,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行城北网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!
曾经我想要某职业社交APP里的一些用户详细页的信息用来做分析,但是面临如下问题:
就注册了10个该APP账号,模拟登录后一天只能抓1000千多个,还有好些数据不全(因为没有关注对方), 实在离俺想要的数据量相差较远。
总结上面的问题就是没有足够多的账号,就算账号足够多,每个账号和每个ip也有抓取限制。
于是就把该产品的APP,微信,网页里里外外都翻了一遍,能点的地方都去点一下看看。
有了新的发现:
分析完后,舒缓了很多,得出新的抓取思路,就是:
使用10个账号按一定频次通过APP不停的获取每个用户详细页分享到微信的URL,让另外一个程序模仿微信的user-agent不停的访问这些分享到微信的URL(要使用adsl拨号来解决单个IP访问频率控制问题)。
这样通过app加微信的方式解决了对账号的限制问题,实现了曲线救国。
后来就发现好些抓取问题都有这种解决思路,跟我们在网络爬虫小偏方之一里讲的,有的网站为了SEO流量,而把referer来自百度的访问控制放宽了一样。
有的产品为了微信的流量(分享到微信里的页面可以直接打开,点击其他页面时再提示要注册登录),而对来自微信点击访问控制放宽了。