前些天收到Google Webmaster Tools的提醒邮件:
Googlebot 发现您的网站中包含大量的网址:http://jilin.youbianku.com/
October 24, 2011
Googlebot 在抓取您的网站“http://jilin.youbianku.com/”时遇到问题。
Googlebot 在您的网站上抓取到了非常多的链接。 这可能表示您网站的网址结构存在问题。 这样可能会使 Googlebot 将时间浪费在抓取大量看起来明显不同但实际上却指向相同或类似内容的网址,或者抓取您网站中不应让 Googlebot 抓取的部分。 Googlebot 可能会因此而平白消耗很多不必要的带宽,也可能无法为您网站的所有内容编制完整索引。
关于此问题的更多信息
以下列表中列出了可能存在问题的网址的示例, 但是该列表中并不包括您站点中所有存在问题的网址。
......
http://jilin.youbianku.com/cache/normal/bra.youbianku.com/taxonomy/term/3316/
http://jilin.youbianku.com/cache/normal/bra.youbianku.com/category/postcode5/05756_.html.gz
http://jilin.youbianku.com/cache/normal/idn.youbianku.com/postcode/62113_4_.html
......
可以看出列出了很多cache目录下的文件,有下一级子目录以及.html和.html.gz的压缩文件,而且还有来自不同于jilin.youbianku.com这个子域名的bra.youbianku.com和idn.youbianku.com的文件,真是奇怪了,不知道这些链接是怎么出现的?这个问题放了好些天没有管,今天再次进入Google Webmaster Tools的时候又遇到这个提示,就在drupal网站的根目录下修改了robots.txt来屏蔽抓取cache目录下的内容,robots.txt设置如下:
# $Id: robots.txt,v 1.9.2.2 2010/09/06 10:37:16 goba Exp $
#
# robots.txt
#
# This file is to prevent the crawling and indexing of certain parts
# of your site by web crawlers and spiders run by sites like Yahoo!
# and Google. By telling these "robots" where not to go on your site,
# you save bandwidth and server resources.
#
# This file will be ignored unless it is at the root of your host:
# Used: http://example.com/robots.txt
# Ignored: http://example.com/site/robots.txt
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/wc/robots.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html
User-agent: *
Sitemap: http://jamesqi.com/sitemap.xml
Sitemap: http://jamesqi.com/rss.xml
Disallow: /cache/
Allow: /sites/default/files/
Disallow: /boost_stats.php
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/
其中加了一条“Disallow: /cache/”,应该可以起到屏蔽作用。以前做MediaWiki网站的时候,也是对robots.txt进行过一些修改来屏蔽不需要搜索引擎来爬取的页面。Drupal网站前面还对robots.txt修改不多,以后也有必要都进行适当的修改。
评论