当前位置

Google Analytics数据异常增高的原因居然是百度渲染爬虫

James Qi 在 2020年9月4日 - 23:43 提交

最近几天我们有两个域名下的网站从Google Analytics看流量异常增高,是平时的数十倍,同时在线人数也是以前的几十倍,从流量来源看主要是直接来源用户大量增加,这显然是不正常的。截图如下:

从相同网站的百度统计、Google AdSense数据来看却没有明显变化,只是Google Analytics谷歌分析的数据异常增高,真是让人迷惑不解。🤔

同事从apache日志分析,主要都是百度蜘蛛来爬取得多,不过爬取总量似乎也没有这么大的增幅,怀疑原因是爬虫出了问题,对不应该访问的Google Analytics的JavaScript代码进行了执行。

我今天也查了好半天,发现这两种User Agent的访问特别多:

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

再去搜索Baiduspider-render发现这篇《百度Spider新增渲染抓取UA公告》,这篇2017年3月的文章中介绍百度渲染蜘蛛的UA正是这两种。

那么基本上可以确定是Baiduspider-render的算法出了问题,把不该触发的Google Analytics的JS代码执行了,使得GA的统计数据飙升。这样接下来只需要让这种爬虫爬取不计入Google Analytics就可以,同事采取的办法是把这些爬虫的IP段在GA的设置中进行过滤,如下图:

这样设置后,过了10分钟左右Google Analytics的实时统计数据就归于正常了。

另外,估计遇到这样情况的很少,因为百度渲染蜘蛛并不是对所有网站爬取,目前依然只对部分优质网站爬取,而我们有两个老域名在百度资源平台中显示VIP的站点受到了这次显示异常的影响,但其它域名的网站并没有出现这样的情况。所以VIP有时也不好当啊😄

我们其实也可以给百度去反馈一下,让他们注意到这个异常,修复这个问题。

评论

添加新评论

Plain text

  • 不允许使用HTML标签。
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。