昨天剛寫了一篇《不要誤屏蔽百度MIP的爬蟲》,順着我們就繼續檢查其它站是否有被誤屏蔽的事情,流量來源主要是百度的國内站可以看百度站長平台(百度搜索資源平台)裡面的信息,流量來源主要是Google的國外站可以看Google Webmaster Tools (Google Search Console)。
今天同事發現一個台灣繁體版站的索引情況有異常:
檢查發現這個MediaWiki搭建的網站html中包含了load.php?這樣的資源,而我們曾經在robots.txt裡面禁止搜索引擎抓取load.php?這樣的内容,這樣的設置應該有好幾年了,不知道為什麼近期看到上面這樣的提示。
我馬上去修改robots.txt,去掉了對load.php的禁止:#Disallow: /load.php,再在Google Webmaster Tools裡面用“Google抓取工具”和“robots.txt 測試工具”檢測都沒有問題。
Google官方說明:“禁止抓取的資源”報告 https://support.google.com/webmasters/answer/6153277
這裡面說得還是很有道理的:
Googlebot 需要擁有對您網頁上諸多資源的訪問權限,才能以最佳效果呈現該網頁并将其編入索引。例如,Googlebot 應該有權訪問 JavaScript、CSS 和圖片文件,以便能夠像普通用戶一樣查看網頁内容。 如果網站的 robots.txt 文件禁止 Google 抓取這些資源,則可能會影響 Google 對網頁的呈現和索引編制效果,進而影響網頁在 Google 搜索中的排名。
這個道理應該也适用于百度等其它搜索引擎,我再去檢查其它MediaWiki以及Drupal網站看看,不僅html網頁不能屏蔽搜索引擎,裡面的js/css/圖片等也不能屏蔽搜索引擎。
不可小看了這個問題,如果誤屏蔽了搜索引擎,可能會導緻流量大幅下降。
補充:頁面中我們自己站的資源可以控制允許搜索引擎爬蟲來抓取,但頁面中嵌入的其它站的資源(例如Google AdSense、百度聯盟廣告等)我們還沒有辦法控制是否允許搜索引擎爬蟲抓取,那暫時還沒有辦法。
评论3
wsjyj.hhjy.net,藍金融辦卡,這個網站怎麼優化
wsjyj.hhjy.net,藍金融辦卡,這個網站怎麼優化這好像是推廣單頁類似的吧,我沒有做過這種
這好像是推廣單頁類似的吧,我沒有做過這種,不過網上講這種操作辦法的文章有很多,你可以搜索看看
我禁止了go.php的爬取
我禁止了go.php的爬取,因為這個文件僅僅是個外鍊跳轉的時候用的,我發現有人再利用這個跳轉進行惡意的跳轉,所以就給禁止了,具體有啥影響目前還不是很清楚,先觀察一下看看谷歌會不會有錯誤提示!