一、问题的发现
去年11月份的时候,我们陆续有几个网站发现流量大幅减少,一开始还以为是正常波动或其它常规原因而没有引起重视,直到几周后来自百度搜索的流量持续大幅下降、好几个网站都情况类似,才去深入检查原因。🕵️
二、问题的检查
结果在百度资源平台中发现"流量与关键词"的热门关键词里面有些明显异常的数据,例如:
红框中的一些关键
这是 搜索引擎 分类的页面,点击下面标题查看详细文章内容:
去年11月份的时候,我们陆续有几个网站发现流量大幅减少,一开始还以为是正常波动或其它常规原因而没有引起重视,直到几周后来自百度搜索的流量持续大幅下降、好几个网站都情况类似,才去深入检查原因。🕵️
结果在百度资源平台中发现"流量与关键词"的热门关键词里面有些明显异常的数据,例如:
红框中的一些关键
最近几天我们国内的两个网站都遇到访问困难,检查发现是百度爬虫抓取量大增,是以前正常情况的很多倍,导致Web服务器CPU、带宽以及数据库服务器都难以应付。Googlebot也曾经出现类似情况。
按照以前的办法,我们是在百度资源平台或者Google Search Console中设置降低爬虫的抓取速率,不过这样设置后需要等待2-3天时间生效,而不能解决当时的问题。
我们邮编库网站提供邮政编码查询的服务有20多年历史了,真的是比所有其它邮编查询网站提供的时间更长、也更专注,这么多年一直不断在这个小小的领域默默改进。即使现在邮政编码的使用频率越来越低,查询邮编的人比以前少了很多,我们却反而推出任意地址邮编查询、微信公众号改进、用IP地址或者手机定位获取用户位置及邮政编码,今年还推出大的改版更新。
很多年前看到百度中搜索邮政编码会出现直接结果,标注来自邮政官方某机构,这种方式当时叫着百度的阿拉丁计划,我们也曾经想去申请,但似乎门槛很高,就没有花力气联系。
今年初接到百度相关人员的联系,主动询问我们是否愿意参加这种合
标明访问者属性的User Agent是可以由软件进行修改的,所以有很多采集者为了防止自己被屏蔽,就把User Agent改为搜索引擎爬虫的特征,例如:
昨天刚写了一篇《不要误屏蔽百度MIP的爬虫》,顺着我们就继续检查其它站是否有被误屏蔽的事情,流量来源主要是百度的国内站可以看百度站长平台(百度搜索资源平台)里面的信息,流量来源主要是Google的国外站可以看Google Webmaster Tools (Google Search Console)。
今天同事发现一个台湾繁体版站的索引情况有异常:
我们在采用《使用Apache模块mod_qos反采集》的办法以后,确实有一些效果,但从apache报错日志中看到也有百度、Google等搜索引擎的IP被屏蔽了,现在来收集整理一下常见搜索引擎的IP地址段,以便加入白名单中:
Googlebot:
Baiduspider:
以前托管服务器或者租用的服务器一般都是100M共享的带宽,很少出现机器带宽被占满的情况,去年开始采用阿里云平台后,带宽就是一个不得不考虑的成本因素,我们一般都是每台ECS购买的10M左右带宽,每年费用已经不少了,而投入使用后很轻易就会被占满,关键是网站的流量并没有特别提升,广告收入没有增加,成本却在大幅提高,还导致正常用户访问变慢、困难。
同事在Linux服务器上安装了一个iftop来查看带宽占用情况,很容易就发现了是搜索引擎的爬虫抓取sitemap.xml这样的网址占用了很大带宽,我们网站系列多、页面多、还有多语言或者手机版,网站地图就特别的多,如果爬虫来得
前些天收到Google Webmaster Tools的提醒邮件:
Googlebot 发现您的网站中包含大量的网址:http://jilin.youbianku.com/
October 24, 2011
Googlebot 在抓取您的网站“http://jilin.youbianku.com/”时遇到问题。
Googlebot 在您的网站上抓取到了非常多的链接。 这可能表示您网站的网址结构存在问题。 这样可能会使 Googleb
前段时间更换服务器后,将各种限制都打开了,让各种爬虫也都自由访问,包括各种搜索引擎或者采集软件。但这两天发现新服务器都不堪重负,同事在Squid的日志中找到大量来自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的访问,查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html),原来是伟大、光荣、正确的“狗搜”来访,虽然有受宠若惊的感觉,但也让我们服务器的鸭梨过大。
2002-2023 v11.7 a-j-e-0