我们很早前就开始做百度MIP版本页面了,通过这种方式也获得了流量的增长和比较好的用户体验。但最近流量不太稳定,有的站MIP流量曾经很高,但后来跌落很厉害。还有的站MIP流量下降后,对应的普通WEB版流量上升。
我们做了各种推测和试验,今天发现了一条重要线索:百度的MIP爬虫曾经被我们屏蔽。
按照百度官方的说法,其MIP爬虫的User Agent是这样的:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; + https://www.mipengine.org
但其IP地址段与baiduspider并不一致,而且IP反查主机名基本上都是没有设置,所以我们在需要屏蔽采集的时候,如果没有很仔细去检查,也把一些MIP爬虫屏蔽了。今天检查出来MIP的一些明显IP地址段有:
115.239.212.* 180.149.133.* 61.135.165.* 180.149.130.* 180.97.106.* 112.34.110.* 123.125.71.* 220.181.108.* 等
做了一个PHP程序来统计apache日志,发现最近MIP爬虫来得越来越少了,爬成功的更少,连被拒绝的也少了,所以一旦被拒绝后一段时间就不来访问了。而十多天前的apache日志中,MIP爬虫明显要多,爬成功的多,被拒绝的也多。
难怪在百度站长平台里面的MIP提交里面显示也很多不通过验证,估计很多也是爬虫被拒绝了。还有人工提交的熊掌号链接,也是很多不被收录,理由是无法获取数据,可能都与爬虫被拒有关。
这两天赶紧检查、修改,看看后面MIP的爬取、收录、展示情况如何。估计恢复起来也需要一段时间。
评论5
现在MIP已经取消了闪电标志
现在MIP已经取消了闪电标志,好像MIP页面收录也跟普通页面差不多了。我们的页面本身就是自适应页面,还有必要折腾MIP吗?我还没有注意到MIP是否取消闪电标准
我还没有注意到MIP是否取消闪电标准,我们已经做了很长时间MIP,多少有些效果,先还是保留吧。我们的页面也是自适应的,但依然做了MIP。百度的一些规则确实变化无常,我们也只有跟着折腾了。
老师说的不错,我这个网站老师能看看,基本不收录,还在减少
老师说的不错,我这个网站老师能看看,基本不收录,还在减少。www.ecloudai.com这个群控系列我其实是不看好的,毕竟这种东西是微信打击的对象
这个群控系列我其实是不看好的,毕竟这种东西是微信打击的对象。不谈群控这个因素,你们这个站弹出、漂浮的内容太多了一些,太多视觉干扰,用户体验不好,可能导致用户很快跳出,这对百度收录很不利,建议减少弹出的代码。
14.215.176.148 - - [24/Apr
14.215.176.148 - - [24/Apr/2019:15:34:40 +0800] port:443 "***" "GET /*** HTTP/1.1" 200 61551 "-" "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; .mipengine.org)" ---updatebao