当前位置

爬虫

这是爬虫分类的页面,点击下面标题查看详细文章内容:

Google Analytics数据异常增高的原因居然是百度渲染爬虫

James Qi 在 2020年9月4日 - 23:43 提交

最近几天我们有两个域名下的网站从Google Analytics看流量异常增高,是平时的数十倍,同时在线人数也是以前的几十倍,从流量来源看主要是直接来源用户大量增加,这显然是不正常的。截图如下:

不要误屏蔽百度MIP的爬虫

James Qi 在 2018年12月18日 - 22:03 提交

  我们很早前就开始做百度MIP版本页面了,通过这种方式也获得了流量的增长和比较好的用户体验。但最近流量不太稳定,有的站MIP流量曾经很高,但后来跌落很厉害。还有的站MIP流量下降后,对应的普通WEB版流量上升。

  我们做了各种推测和试验,今天发现了一条重要线索:百度的MIP爬虫曾经被我们屏蔽。

自由标签:

反查主机域名来屏蔽爬虫采集

James Qi 在 2018年12月14日 - 15:56 提交

  最近新增了一些网站内容,结果正常的访问者还没有开始来,采集的爬虫就来了,真像是嗜血的鲨鱼,发现哪里有美味马上就盯上了😰。

  近期也看了一些关于反采集的文章,世上没有完美、一劳永逸的反采集办法,成了与采集者的对峙,双方不断变换对抗办法,成了一种体力活。

修改Drupal的xmlsitemap模块来控制搜索引擎爬取网站地图速度

James Qi 在 2016年2月2日 - 16:40 提交

  以前托管服务器或者租用的服务器一般都是100M共享的带宽,很少出现机器带宽被占满的情况,去年开始采用阿里云平台后,带宽就是一个不得不考虑的成本因素,我们一般都是每台ECS购买的10M左右带宽,每年费用已经不少了,而投入使用后很轻易就会被占满,关键是网站的流量并没有特别提升,广告收入没有增加,成本却在大幅提高,还导致正常用户访问变慢、困难。

订阅 RSS - 爬虫