上一篇博客《有人惡意刷百度關鍵詞陷害我們網站》寫的是百度對一些黑帽SEO手段判斷的不準确,導緻我們網站被陷害。百度的作弊識别算法還不夠完善,需要人工去發現、處理。我們覺得Google的作弊識别算法應該更好,但最近我們網站上發生的問題讓我們看到Google的算法也是有漏洞可以鑽的。😒
一、問題的發現:
去年6月我們有一個站在Google的核心算法更新後就遇到流量下降,直到11月核心算法再次更新後流量才恢複,但核心算法的更新為什麼會影響我們網站流量、具體問題出在甚麼地方?這些問題一直沒有搞懂。
今年5月Google的核心算法更新後,我們這個站的流量再次明顯下滑,這次我們就沒有再等半年了,而是仔細分析數據查找原因。
二、問題的分析:
在此之前一段時間,我們就在Drupal日志、Apache日志中發現過一些奇怪的搜索,關鍵詞裡面帶有明顯的黑産内容,例如博彩、代考、色情等,當時沒有引起足夠的重視。
在Google中site搜索我們域名,竟然發現很多帶有這種關鍵詞的搜索頁面網址也被Google收錄了,數量非常龐大!😱
而在Google Search Console中查看外部鍊接,竟然有上千個一看就是垃圾域名的網站指向我們,并且每個網站都是給我們網站提供了很多鍊接,再去打開這些網站看的時候發現基本都打不開了。
我們估計是這種垃圾網站(域名就多達上千)制造的垃圾鍊接太多(十萬、百萬數量級以上),而Google的反作弊算法還無法準确識别,認為是我們網站自己故意這樣做的而遭到降權懲罰。
三、問題的解決:
既然找到了問題,那麼就需要有辦法來解決,下面是一些文章:
- Google Search Console幫助中心:《拒絕指向您網站的鍊接》
- Google Search Console幫助中心:《“移除”工具和“安全搜索”舉報工具》
- Matt Tutt Digital Marketing Blog: “Dealing with Indexed Spam or Injected SEO Spam Content”這篇文章寫得比較詳細
- 維基百科:《HTTP狀态碼#4xx客戶端錯誤》
我們采取了下面幾項措施:
- 對垃圾鍊接進行識别和屏蔽:剛開始用Cloudflare的Web應用防火牆進行屏蔽,狀态為403,後來改為.htaccess中進行設置,狀态使用410,另外對搜索頁面的标題、head中标記、無結果頁面的顯示等地方也做了修改,防範站内搜索被利用;
- 在Google Search Console中提交否認:将上千垃圾域名導出、檢查處理後提交到"拒絕指向您網站的鍊接";
- 在Google Search Console中提交删除:将發現已經收錄的垃圾鍊接提交給Google進行删除(6個月有效)。
另外,也在Google Search Console中填寫了反饋,目前還在等待中。⏳
2022年10月24日補充:我們有個域名受到垃圾鍊接影響很長時間了,而且很難查到具體來源,因為那些垃圾網站的域名可用性很短,等搜索引擎站長平台中顯示這些垃圾外鍊網站的域名時,去訪問這些網站已經打不開或者部分頁面打不開了,現在這種垃圾鍊接已經産業化,新域名有成千上萬個不斷出現,搜索引擎短期内無法辨别,可能導緻誤認為是我們自己在作弊而影響我們網站的權重。還有一個辦法可以嘗試:robots.txt中增加屏蔽,也就是把可能的垃圾鍊接形式收集整理後,按照robots.txt中Disallow屏蔽的寫法寫進去,注意可以用一些robots.txt驗證平台進行驗證,避免誤屏蔽正常網址。
评论