由 James Qi, 2011年10月31日 修改Drupal网站的robots.txt来避免搜索引擎蜘蛛直接爬取cache路径的内容 前些天收到Google Webmaster Tools的提醒邮件: Googlebot 发现您的网站中包含大量的网址:http://jilin.youbianku.com/ October 24, 2011 Googlebot 在抓取您的网站“http://jilin.youbianku.com/”时遇到问题。 Googlebot 在您的网站上抓取到了非常多的链接。 这可能表示您网站的网址结构存在问题。 这样可能会使 Googleb
由 James Qi, 2011年4月7日 人民网的狗搜蜘蛛Gosospider被我们网站屏蔽 前段时间更换服务器后,将各种限制都打开了,让各种爬虫也都自由访问,包括各种搜索引擎或者采集软件。但这两天发现新服务器都不堪重负,同事在Squid的日志中找到大量来自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的访问,查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html),原来是伟大、光荣、正确的“狗搜”来访,虽然有受宠若惊的感觉,但也让我们服务器的鸭梨过大。