我們很早前就開始做百度MIP版本頁面了,通過這種方式也獲得了流量的增長和比較好的用戶體驗。但最近流量不太穩定,有的站MIP流量曾經很高,但後來跌落很厲害。還有的站MIP流量下降後,對應的普通WEB版流量上升。
我們做了各種推測和試驗,今天發現了一條重要線索:百度的MIP爬蟲曾經被我們屏蔽。
按照百度官方的說法,其MIP爬蟲的User Agent是這樣的:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; + https://www.mipengine.org
但其IP地址段與baiduspider并不一緻,而且IP反查主機名基本上都是沒有設置,所以我們在需要屏蔽采集的時候,如果沒有很仔細去檢查,也把一些MIP爬蟲屏蔽了。今天檢查出來MIP的一些明顯IP地址段有:
115.239.212.* 180.149.133.* 61.135.165.* 180.149.130.* 180.97.106.* 112.34.110.* 123.125.71.* 220.181.108.* 等
做了一個PHP程序來統計apache日志,發現最近MIP爬蟲來得越來越少了,爬成功的更少,連被拒絕的也少了,所以一旦被拒絕後一段時間就不來訪問了。而十多天前的apache日志中,MIP爬蟲明顯要多,爬成功的多,被拒絕的也多。
難怪在百度站長平台裡面的MIP提交裡面顯示也很多不通過驗證,估計很多也是爬蟲被拒絕了。還有人工提交的熊掌号鍊接,也是很多不被收錄,理由是無法獲取數據,可能都與爬蟲被拒有關。
這兩天趕緊檢查、修改,看看後面MIP的爬取、收錄、展示情況如何。估計恢複起來也需要一段時間。
评论5
現在MIP已經取消了閃電标志
現在MIP已經取消了閃電标志,好像MIP頁面收錄也跟普通頁面差不多了。我們的頁面本身就是自适應頁面,還有必要折騰MIP嗎?我還沒有注意到MIP是否取消閃電标準
我還沒有注意到MIP是否取消閃電标準,我們已經做了很長時間MIP,多少有些效果,先還是保留吧。我們的頁面也是自适應的,但依然做了MIP。百度的一些規則确實變化無常,我們也隻有跟着折騰了。
老師說的不錯,我這個網站老師能看看,基本不收錄,還在減少
老師說的不錯,我這個網站老師能看看,基本不收錄,還在減少。www.ecloudai.com這個群控系列我其實是不看好的,畢竟這種東西是微信打擊的對象
這個群控系列我其實是不看好的,畢竟這種東西是微信打擊的對象。不談群控這個因素,你們這個站彈出、漂浮的内容太多了一些,太多視覺幹擾,用戶體驗不好,可能導緻用戶很快跳出,這對百度收錄很不利,建議減少彈出的代碼。
14.215.176.148 - - [24/Apr
14.215.176.148 - - [24/Apr/2019:15:34:40 +0800] port:443 "***" "GET /*** HTTP/1.1" 200 61551 "-" "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; .mipengine.org)" ---updatebao