最近幾天我們有兩個域名下的網站從Google Analytics看流量異常增高,是平時的數十倍,同時在線人數也是以前的幾十倍,從流量來源看主要是直接來源用戶大量增加,這顯然是不正常的。截圖如下:
從相同網站的百度統計、Google AdSense數據來看卻沒有明顯變化,隻是Google Analytics谷歌分析的數據異常增高,真是讓人迷惑不解。🤔
同事從apache日志分析,主要都是百度蜘蛛來爬取得多,不過爬取總量似乎也沒有這麼大的增幅,懷疑原因是爬蟲出了問題,對不應該訪問的Google Analytics的JavaScript代碼進行了執行。
我今天也查了好半天,發現這兩種User Agent的訪問特别多:
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
再去搜索Baiduspider-render發現這篇《百度Spider新增渲染抓取UA公告》,這篇2017年3月的文章中介紹百度渲染蜘蛛的UA正是這兩種。
那麼基本上可以确定是Baiduspider-render的算法出了問題,把不該觸發的Google Analytics的JS代碼執行了,使得GA的統計數據飙升。這樣接下來隻需要讓這種爬蟲爬取不計入Google Analytics就可以,同事采取的辦法是把這些爬蟲的IP段在GA的設置中進行過濾,如下圖:
這樣設置後,過了10分鐘左右Google Analytics的實時統計數據就歸于正常了。
另外,估計遇到這樣情況的很少,因為百度渲染蜘蛛并不是對所有網站爬取,目前依然隻對部分優質網站爬取,而我們有兩個老域名在百度資源平台中顯示VIP的站點受到了這次顯示異常的影響,但其它域名的網站并沒有出現這樣的情況。所以VIP有時也不好當啊😄
我們其實也可以給百度去反饋一下,讓他們注意到這個異常,修複這個問題。
评论1
我之前做下載站,還遇到迅雷的爬蟲的呢
我之前做下載站,還遇到迅雷的爬蟲的呢,訪問量從5000增加到20000,白高興一場。