By James Qi, 2011年10月31日 修改Drupal網站的robots.txt來避免搜索引擎蜘蛛直接爬取cache路徑的内容 前些天收到Google Webmaster Tools的提醒郵件: Googlebot 發現您的網站中包含大量的網址:http://jilin.youbianku.com/ October 24, 2011 Googlebot 在抓取您的網站“http://jilin.youbianku.com/”時遇到問題。 Googlebot 在您的網站上抓取到了非常多的鍊接。 這可能表示您網站的網址結構存在問題。 這樣可能會使 Googleb
By James Qi, 2011年4月7日 人民網的狗搜蜘蛛Gosospider被我們網站屏蔽 前段時間更換服務器後,将各種限制都打開了,讓各種爬蟲也都自由訪問,包括各種搜索引擎或者采集軟件。但這兩天發現新服務器都不堪重負,同事在Squid的日志中找到大量來自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的訪問,查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html),原來是偉大、光榮、正确的“狗搜”來訪,雖然有受寵若驚的感覺,但也讓我們服務器的鴨梨過大。