您在這裡

不要誤屏蔽搜索引擎認為需要的資源

James Qi 在 2018年12月19日 - 10:48 發表

  昨天剛寫了一篇《不要誤屏蔽百度MIP的爬蟲》,順着我們就繼續檢查其它站是否有被誤屏蔽的事情,流量來源主要是百度的國内站可以看百度站長平台(百度搜索資源平台)裡面的信息,流量來源主要是Google的國外站可以看Google Webmaster Tools (Google Search Console)。

  今天同事發現一個台灣繁體版站的索引情況有異常:

  檢查發現這個MediaWiki搭建的網站html中包含了load.php?這樣的資源,而我們曾經在robots.txt裡面禁止搜索引擎抓取load.php?這樣的内容,這樣的設置應該有好幾年了,不知道為什麼近期看到上面這樣的提示。

  我馬上去修改robots.txt,去掉了對load.php的禁止:#Disallow: /load.php,再在Google Webmaster Tools裡面用“Google抓取工具”和“robots.txt 測試工具”檢測都沒有問題。

  Google官方說明:“禁止抓取的資源”報告 https://support.google.com/webmasters/answer/6153277

  這裡面說得還是很有道理的:

Googlebot 需要擁有對您網頁上諸多資源的訪問權限,才能以最佳效果呈現該網頁并将其編入索引。例如,Googlebot 應該有權訪問 JavaScript、CSS 和圖片文件,以便能夠像普通用戶一樣查看網頁内容。

如果網站的 robots.txt 文件禁止 Google 抓取這些資源,則可能會影響 Google 對網頁的呈現和索引編制效果,進而影響網頁在 Google 搜索中的排名。

  這個道理應該也适用于百度等其它搜索引擎,我再去檢查其它MediaWiki以及Drupal網站看看,不僅html網頁不能屏蔽搜索引擎,裡面的js/css/圖片等也不能屏蔽搜索引擎。

  不可小看了這個問題,如果誤屏蔽了搜索引擎,可能會導緻流量大幅下降。


  補充:頁面中我們自己站的資源可以控制允許搜索引擎爬蟲來抓取,但頁面中嵌入的其它站的資源(例如Google AdSense、百度聯盟廣告等)我們還沒有辦法控制是否允許搜索引擎爬蟲抓取,那暫時還沒有辦法。

回應

我禁止了go.php的爬取,因為這個文件僅僅是個外鍊跳轉的時候用的,我發現有人再利用這個跳轉進行惡意的跳轉,所以就給禁止了,具體有啥影響目前還不是很清楚,先觀察一下看看谷歌會不會有錯誤提示!

發表新回應

Plain text

  • 不允許使用 HTML 標籤。
  • 自動將網址與電子郵件地址轉變為連結。
  • 自動斷行和分段。