不要误屏蔽搜索引擎认为需要的资源

由 James Qi, 2018年12月19日

　　昨天刚写了一篇《不要误屏蔽百度MIP的爬虫》，顺着我们就继续检查其它站是否有被误屏蔽的事情，流量来源主要是百度的国内站可以看百度站长平台（百度搜索资源平台）里面的信息，流量来源主要是Google的国外站可以看Google Webmaster Tools (Google Search Console)。

　　今天同事发现一个台湾繁体版站的索引情况有异常：

　　检查发现这个MediaWiki搭建的网站html中包含了load.php?这样的资源，而我们曾经在robots.txt里面禁止搜索引擎抓取load.php?这样的内容，这样的设置应该有好几年了，不知道为什么近期看到上面这样的提示。

　　我马上去修改robots.txt，去掉了对load.php的禁止：#Disallow: /load.php，再在Google Webmaster Tools里面用“Google抓取工具”和“robots.txt 测试工具”检测都没有问题。

　　Google官方说明：“禁止抓取的资源”报告 https://support.google.com/webmasters/answer/6153277

　　这里面说得还是很有道理的：

Googlebot 需要拥有对您网页上诸多资源的访问权限，才能以最佳效果呈现该网页并将其编入索引。例如，Googlebot 应该有权访问 JavaScript、CSS 和图片文件，以便能够像普通用户一样查看网页内容。

如果网站的 robots.txt 文件禁止 Google 抓取这些资源，则可能会影响 Google 对网页的呈现和索引编制效果，进而影响网页在 Google 搜索中的排名。

　　这个道理应该也适用于百度等其它搜索引擎，我再去检查其它MediaWiki以及Drupal网站看看，不仅html网页不能屏蔽搜索引擎，里面的js/css/图片等也不能屏蔽搜索引擎。

　　不可小看了这个问题，如果误屏蔽了搜索引擎，可能会导致流量大幅下降。

　　补充：页面中我们自己站的资源可以控制允许搜索引擎爬虫来抓取，但页面中嵌入的其它站的资源（例如Google AdSense、百度联盟广告等）我们还没有办法控制是否允许搜索引擎爬虫抓取，那暂时还没有办法。

自由标签

屏蔽

搜索引擎

robots.txt

添加新评论

验证码

此问题用于测试您是否是人类访问者并防止自动提交垃圾信息。

不要误屏蔽搜索引擎认为需要的资源

评论3

wsjyj.hhjy.net,蓝金融办卡，这个网站怎么优化

这好像是推广单页类似的吧，我没有做过这种

我禁止了go.php的爬取

Plain text

不要误屏蔽搜索引擎认为需要的资源

评论3

wsjyj.hhjy.net,蓝金融办卡，这个网站怎么优化

这好像是推广单页类似的吧，我没有做过这种

我禁止了go.php的爬取

Plain text

站内搜索