前些天收到Google Webmaster Tools的提醒郵件:
Googlebot 發現您的網站中包含大量的網址:http://jilin.youbianku.com/
October 24, 2011
Googlebot 在抓取您的網站“http://jilin.youbianku.com/”時遇到問題。
Googlebot 在您的網站上抓取到了非常多的鍊接。 這可能表示您網站的網址結構存在問題。 這樣可能會使 Googlebot 将時間浪費在抓取大量看起來明顯不同但實際上卻指向相同或類似内容的網址,或者抓取您網站中不應讓 Googlebot 抓取的部分。 Googlebot 可能會因此而平白消耗很多不必要的帶寬,也可能無法為您網站的所有内容編制完整索引。
關于此問題的更多信息
以下列表中列出了可能存在問題的網址的示例, 但是該列表中并不包括您站點中所有存在問題的網址。
......
http://jilin.youbianku.com/cache/normal/bra.youbianku.com/taxonomy/term/3316/
http://jilin.youbianku.com/cache/normal/bra.youbianku.com/category/postcode5/05756_.html.gz
http://jilin.youbianku.com/cache/normal/idn.youbianku.com/postcode/62113_4_.html
......
可以看出列出了很多cache目錄下的文件,有下一級子目錄以及.html和.html.gz的壓縮文件,而且還有來自不同于jilin.youbianku.com這個子域名的bra.youbianku.com和idn.youbianku.com的文件,真是奇怪了,不知道這些鍊接是怎麼出現的?這個問題放了好些天沒有管,今天再次進入Google Webmaster Tools的時候又遇到這個提示,就在drupal網站的根目錄下修改了robots.txt來屏蔽抓取cache目錄下的内容,robots.txt設置如下:
# $Id: robots.txt,v 1.9.2.2 2010/09/06 10:37:16 goba Exp $
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html
User-agent: *
Sitemap: http://jamesqi.com/sitemap.xml
Sitemap: http://jamesqi.com/rss.xml
Disallow: /cache/
Allow: /sites/default/files/
Disallow: /boost_stats.php
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
其中加了一條“Disallow: /cache/”,應該可以起到屏蔽作用。以前做MediaWiki網站的時候,也是對robots.txt進行過一些修改來屏蔽不需要搜索引擎來爬取的頁面。Drupal網站前面還對robots.txt修改不多,以後也有必要都進行适當的修改。
评论