您在這裡

不要誤屏蔽百度MIP的爬蟲

James Qi 在 2018年12月18日 - 22:03 發表

  我們很早前就開始做百度MIP版本頁面了,通過這種方式也獲得了流量的增長和比較好的用戶體驗。但最近流量不太穩定,有的站MIP流量曾經很高,但後來跌落很厲害。還有的站MIP流量下降後,對應的普通WEB版流量上升。

  我們做了各種推測和試驗,今天發現了一條重要線索:百度的MIP爬蟲曾經被我們屏蔽。

  按照百度官方的說法,其MIP爬蟲的User Agent是這樣的:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; +  https://www.mipengine.org

  但其IP地址段與baiduspider并不一緻,而且IP反查主機名基本上都是沒有設置,所以我們在需要屏蔽采集的時候,如果沒有很仔細去檢查,也把一些MIP爬蟲屏蔽了。今天檢查出來MIP的一些明顯IP地址段有:

115.239.212.*
180.149.133.*
61.135.165.*
180.149.130.*
180.97.106.*
112.34.110.*
123.125.71.*
220.181.108.*
等

  做了一個PHP程序來統計apache日志,發現最近MIP爬蟲來得越來越少了,爬成功的更少,連被拒絕的也少了,所以一旦被拒絕後一段時間就不來訪問了。而十多天前的apache日志中,MIP爬蟲明顯要多,爬成功的多,被拒絕的也多。

  難怪在百度站長平台裡面的MIP提交裡面顯示也很多不通過驗證,估計很多也是爬蟲被拒絕了。還有人工提交的熊掌号鍊接,也是很多不被收錄,理由是無法獲取數據,可能都與爬蟲被拒有關。

  這兩天趕緊檢查、修改,看看後面MIP的爬取、收錄、展示情況如何。估計恢複起來也需要一段時間。

自由标簽:

回應

現在MIP已經取消了閃電标志,好像MIP頁面收錄也跟普通頁面差不多了。我們的頁面本身就是自适應頁面,還有必要折騰MIP嗎?

我還沒有注意到MIP是否取消閃電标準,我們已經做了很長時間MIP,多少有些效果,先還是保留吧。我們的頁面也是自适應的,但依然做了MIP。百度的一些規則确實變化無常,我們也隻有跟着折騰了。

James Qi / 祁勁松

14.215.176.148 - - [24/Apr/2019:15:34:40 +0800] port:443 "***" "GET /*** HTTP/1.1" 200 61551 "-" "Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; baidumib;mip; .mipengine.org)"

---updatebao

發表新回應

Plain text

  • 不允許使用 HTML 標籤。
  • 自動將網址與電子郵件地址轉變為連結。
  • 自動斷行和分段。