今年2月份開始,我們花了好些時間精力來排查幾個網站在Google中流量下降的問題,我寫了《低質重複頁面排查和處理》的PPT和同事進行了分享,并且在随後的一段時間中以幾個實際網站為例子進行詳細排查和處理。雖然自己以前感覺對SEO的了解很長時間了,算得上是專家了,但實際上還是有些方面沒有搞透徹,這次算是深究到底了,有不少新的收獲。
例如,在Google Search Console的菜單“網頁 - 網頁索引編制 - 改進網頁的呈現效果”中有“已編入索引,盡管遭到 robots.txt 屏蔽”,以前沒有特别關注,現在發現都是我們在robots.txt中屏蔽、不想Google去爬取、收錄的頁面,但現在Google還是收錄了,是因為這些被屏蔽的頁面有内部或者外部的鍊接。雖然這些頁面中大部分html源代碼中都有noindex或者canonical标簽來讓Google不收錄,但因為robots.txt不要Googlebot來爬取網頁内容,所以Google并不能獲得這些頁面的html源代碼,因而也不知道noindex或者canonical标簽,導緻最後還是被收錄了。
這不算一個大問題,但在robots.txt的處理中顯得不夠規範,而且延續了10多年的時間,這次就修改了robots.txt,把以前增加的屏蔽路徑都放開了,讓Googlebot可以爬取html頁面内容,從而知道noindex或者canonical。
參考鍊接:
评论2
我最近也遇到類似的問題
我最近也遇到類似的問題。老一套的robots通常都是靜态資源屏蔽了,比如css,js腳本。這對很多前後端分離動态生成内容的網站其實也是很大的問題,Google本來是可以渲染JavaScript的,如果攔截了就沒法執行。感覺robots現在已經可有可無了。感覺應該完全放開,然後用 noindex 來處理。是的,我們以前對noindex不了解、不重視
是的,我們以前對noindex不了解、不重視,隻是用robots.txt來屏蔽,現在看确實應該在robots.txt中盡量少屏蔽,而是在頁面中采用noindex更正規。