你在这里


搜索引擎

修改Drupal的xmlsitemap模块来控制搜索引擎爬取网站地图速度

James Qi 2016年2月2日 - 16:40 发布

  以前托管服务器或者租用的服务器一般都是100M共享的带宽,很少出现机器带宽被占满的情况,去年开始采用阿里云平台后,带宽就是一个不得不考虑的成本因素,我们一般都是每台ECS购买的10M左右带宽,每年费用已经不少了,而投入使用后很轻易就会被占满,关键是网站的流量并没有特别提升,广告收入没有增加,成本却在大幅提高,还导致正常用户访问变慢、困难。

  同事在Linux服务器上安装了一个iftop来查看带宽占用情况,很容易就发现了是搜索引擎的爬虫抓取sitemap.xml这样的网址占用了很大带宽,我们网站系列多、页面多、还有多语言或者手机版,网站地图就特别的多,如果爬虫来得过于频繁就给我们不小困扰。

  但爬虫这种抓取活动还不宜直接屏蔽以免影响收录,所以考虑限制抓取速度的办法,安装了apache的mod_bw模块,还没有调试好,不过在网上搜索到文章说可以用PHP编程来实现控制下载速度,这个对我启发还比较大,因为我们正好修改过Drupal的xmlsitemap模块xmlsitemap.pages.inc文件来改变网站地图中的内容和格式,只要再把输出方式改一点、增加一点sleep循环就可以,代码如下:

修改Drupal网站的robots.txt来避免搜索引擎蜘蛛直接爬取cache路径的内容

James Qi 2011年10月31日 - 10:31 发布

  前些天收到Google Webmaster Tools的提醒邮件:

Googlebot 发现您的网站中包含大量的网址:http://jilin.youbianku.com/

October 24, 2011

人民网的狗搜蜘蛛Gosospider被我们网站屏蔽

James Qi 2011年4月7日 - 23:20 发布

  前段时间更换服务器后,将各种限制都打开了,让各种爬虫也都自由访问,包括各种搜索引擎或者采集软件。但这两天发现新服务器都不堪重负,同事在Squid的日志中找到大量来自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的访问,查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html),原来是伟大、光荣、正确的“狗搜”来访,虽然有受宠若惊的感觉,但也让我们服务器的鸭梨过大。

  以前Sosospider曾经让我们的服务器负载过高,现在换成这个Goso了,它们都是心急火燎地希望马上把你的网站上的内容全部爬光的那种,放出的大量蜘蛛以极快的速度多路同时抓取,即使把你网站搞瘫痪也全然不顾。没有办法,咱们没有这个福分享受邓亚萍同志领衔的国家级权威服务,还是都屏蔽掉吧。

订阅 RSS - 搜索引擎