当前位置

不要误屏蔽百度MIP的爬虫

James Qi 在 2018年12月18日 - 22:03 提交

  我们很早前就开始做百度MIP版本页面了,通过这种方式也获得了流量的增长和比较好的用户体验。但最近流量不太稳定,有的站MIP流量曾经很高,但后来跌落很厉害。还有的站MIP流量下降后,对应的普通WEB版流量上升。

  我们做了各种推测和试验,今天发现了一条重要线索:百度的MIP爬虫曾经被我们屏蔽。

  按照百度官方的说法,其MIP爬虫的User Agent是这样的:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; +  https://www.mipengine.org

  但其IP地址段与baiduspider并不一致,而且IP反查主机名基本上都是没有设置,所以我们在需要屏蔽采集的时候,如果没有很仔细去检查,也把一些MIP爬虫屏蔽了。今天检查出来MIP的一些明显IP地址段有:

115.239.212.*
180.149.133.*
61.135.165.*
180.149.130.*
180.97.106.*
112.34.110.*
123.125.71.*
220.181.108.*
等

  做了一个PHP程序来统计apache日志,发现最近MIP爬虫来得越来越少了,爬成功的更少,连被拒绝的也少了,所以一旦被拒绝后一段时间就不来访问了。而十多天前的apache日志中,MIP爬虫明显要多,爬成功的多,被拒绝的也多。

  难怪在百度站长平台里面的MIP提交里面显示也很多不通过验证,估计很多也是爬虫被拒绝了。还有人工提交的熊掌号链接,也是很多不被收录,理由是无法获取数据,可能都与爬虫被拒有关。

  这两天赶紧检查、修改,看看后面MIP的爬取、收录、展示情况如何。估计恢复起来也需要一段时间。

自由标签:

评论

现在MIP已经取消了闪电标志,好像MIP页面收录也跟普通页面差不多了。我们的页面本身就是自适应页面,还有必要折腾MIP吗?

我还没有注意到MIP是否取消闪电标准,我们已经做了很长时间MIP,多少有些效果,先还是保留吧。我们的页面也是自适应的,但依然做了MIP。百度的一些规则确实变化无常,我们也只有跟着折腾了。

James Qi / 祁劲松

14.215.176.148 - - [24/Apr/2019:15:34:40 +0800] port:443 "***" "GET /*** HTTP/1.1" 200 61551 "-" "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; .mipengine.org)"

---updatebao

添加新评论

Plain text

  • 不允许使用HTML标签。
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。