不要误屏蔽百度MIP的爬虫

由 James Qi, 2018年12月18日

　　我们很早前就开始做百度MIP版本页面了，通过这种方式也获得了流量的增长和比较好的用户体验。但最近流量不太稳定，有的站MIP流量曾经很高，但后来跌落很厉害。还有的站MIP流量下降后，对应的普通WEB版流量上升。

　　我们做了各种推测和试验，今天发现了一条重要线索：百度的MIP爬虫曾经被我们屏蔽。

　　按照百度官方的说法，其MIP爬虫的User Agent是这样的：

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; +  https://www.mipengine.org

　　但其IP地址段与baiduspider并不一致，而且IP反查主机名基本上都是没有设置，所以我们在需要屏蔽采集的时候，如果没有很仔细去检查，也把一些MIP爬虫屏蔽了。今天检查出来MIP的一些明显IP地址段有：

115.239.212.*
180.149.133.*
61.135.165.*
180.149.130.*
180.97.106.*
112.34.110.*
123.125.71.*
220.181.108.*
等

　　做了一个PHP程序来统计apache日志，发现最近MIP爬虫来得越来越少了，爬成功的更少，连被拒绝的也少了，所以一旦被拒绝后一段时间就不来访问了。而十多天前的apache日志中，MIP爬虫明显要多，爬成功的多，被拒绝的也多。

　　难怪在百度站长平台里面的MIP提交里面显示也很多不通过验证，估计很多也是爬虫被拒绝了。还有人工提交的熊掌号链接，也是很多不被收录，理由是无法获取数据，可能都与爬虫被拒有关。

　　这两天赶紧检查、修改，看看后面MIP的爬取、收录、展示情况如何。估计恢复起来也需要一段时间。

自由标签

添加新评论

现在MIP已经取消了闪电标志

现在MIP已经取消了闪电标志，好像MIP页面收录也跟普通页面差不多了。我们的页面本身就是自适应页面，还有必要折腾MIP吗？

我还没有注意到MIP是否取消闪电标准

我还没有注意到MIP是否取消闪电标准，我们已经做了很长时间MIP，多少有些效果，先还是保留吧。我们的页面也是自适应的，但依然做了MIP。百度的一些规则确实变化无常，我们也只有跟着折腾了。

老师说的不错，我这个网站老师能看看，基本不收录，还在减少

老师说的不错，我这个网站老师能看看，基本不收录，还在减少。ｗｗｗ．ｅｃｌｏｕｄａｉ．ｃｏｍ

这个群控系列我其实是不看好的，毕竟这种东西是微信打击的对象

这个群控系列我其实是不看好的，毕竟这种东西是微信打击的对象。不谈群控这个因素，你们这个站弹出、漂浮的内容太多了一些，太多视觉干扰，用户体验不好，可能导致用户很快跳出，这对百度收录很不利，建议减少弹出的代码。

14.215.176.148 - - [24/Apr/2019:15:34:40 +0800] port:443 "***" "GET /*** HTTP/1.1" 200 61551 "-" "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; .mipengine.org)" ---updatebao

您的名字

验证码

此问题用于测试您是否是人类访问者并防止自动提交垃圾信息。

评论5

现在MIP已经取消了闪电标志

我还没有注意到MIP是否取消闪电标准

老师说的不错，我这个网站老师能看看，基本不收录，还在减少

这个群控系列我其实是不看好的，毕竟这种东西是微信打击的对象

14.215.176.148 - - [24/Apr

Plain text

不要误屏蔽百度MIP的爬虫

评论5

现在MIP已经取消了闪电标志

我还没有注意到MIP是否取消闪电标准

老师说的不错，我这个网站老师能看看，基本不收录，还在减少

这个群控系列我其实是不看好的，毕竟这种东西是微信打击的对象

14.215.176.148 - - [24/Apr

Plain text

站内搜索