不要誤屏蔽搜索引擎認為需要的資源

By James Qi, 2018年12月19日

　　昨天剛寫了一篇《不要誤屏蔽百度MIP的爬蟲》，順着我們就繼續檢查其它站是否有被誤屏蔽的事情，流量來源主要是百度的國内站可以看百度站長平台（百度搜索資源平台）裡面的信息，流量來源主要是Google的國外站可以看Google Webmaster Tools (Google Search Console)。

　　今天同事發現一個台灣繁體版站的索引情況有異常：

　　檢查發現這個MediaWiki搭建的網站html中包含了load.php?這樣的資源，而我們曾經在robots.txt裡面禁止搜索引擎抓取load.php?這樣的内容，這樣的設置應該有好幾年了，不知道為什麼近期看到上面這樣的提示。

　　我馬上去修改robots.txt，去掉了對load.php的禁止：#Disallow: /load.php，再在Google Webmaster Tools裡面用“Google抓取工具”和“robots.txt 測試工具”檢測都沒有問題。

　　Google官方說明：“禁止抓取的資源”報告 https://support.google.com/webmasters/answer/6153277

　　這裡面說得還是很有道理的：

Googlebot 需要擁有對您網頁上諸多資源的訪問權限，才能以最佳效果呈現該網頁并将其編入索引。例如，Googlebot 應該有權訪問 JavaScript、CSS 和圖片文件，以便能夠像普通用戶一樣查看網頁内容。

如果網站的 robots.txt 文件禁止 Google 抓取這些資源，則可能會影響 Google 對網頁的呈現和索引編制效果，進而影響網頁在 Google 搜索中的排名。

　　這個道理應該也适用于百度等其它搜索引擎，我再去檢查其它MediaWiki以及Drupal網站看看，不僅html網頁不能屏蔽搜索引擎，裡面的js/css/圖片等也不能屏蔽搜索引擎。

　　不可小看了這個問題，如果誤屏蔽了搜索引擎，可能會導緻流量大幅下降。

　　補充：頁面中我們自己站的資源可以控制允許搜索引擎爬蟲來抓取，但頁面中嵌入的其它站的資源（例如Google AdSense、百度聯盟廣告等）我們還沒有辦法控制是否允許搜索引擎爬蟲抓取，那暫時還沒有辦法。

自由标簽

屏蔽

搜索引擎

robots.txt