AMP广告终于可以在中国大陆显示了
从2017年3月就准备开始使用Google推荐的AMP (Accelerated Mobile Pages) “加速移动网页”,先后把Drupal网站和MediaWiki网站都
这是屏蔽分类的页面,点击下面标题查看详细文章内容:
从2017年3月就准备开始使用Google推荐的AMP (Accelerated Mobile Pages) “加速移动网页”,先后把Drupal网站和MediaWiki网站都
昨天刚写了一篇《不要误屏蔽百度MIP的爬虫》,顺着我们就继续检查其它站是否有被误屏蔽的事情,流量来源主要是百度的国内站可以看百度站长平
我们很早前就开始做百度MIP版本页面了,通过这种方式也获得了流量的增长和比较好的用户体验。但最近流量不太稳定,有的站MIP流量曾经很高,但后来跌落很厉害。还有的站MIP流量下降后,对应的普通WEB版流量上升。
我们做了各种推测和试验,今天发现了一条重要线索:百度的MIP爬虫曾经被我们屏蔽。
最近新增了一些网站内容,结果正常的访问者还没有开始来,采集的爬虫就来了,真像是嗜血的鲨鱼,发现哪里有美味马上就盯上了😰。
近期也看了一些关于反采集的文章,世上没有完美、一劳永逸的反采集办法,成了与采集者的对峙,双方不断变换对抗办法,成了一种体力活。
我们一些大数据量的网站总是沦为爬虫获取信息的对象,导致大量消耗服务器资源。有些爬虫是为了采集整个网页,也有些只来找寻邮箱等联系方式信息。
前段时间发现有一阵爬虫特别多,从apache日志里面看到这样的特征:
只要是建有数据量比较多的网站,几乎不可避免采集的情况,这方面我们已经有多年的对付经验,主要是通过分析Web访问日志,找到采集的规律,相应来设置屏蔽IP地址或者URL网址来解决。