一、問題的發現
去年11月份的時候,我們陸續有幾個網站發現流量大幅減少,一開始還以為是正常波動或其它常規原因而沒有引起重視,直到幾周後來自百度搜索的流量持續大幅下降、好幾個網站都情況類似,才去深入檢查原因。🕵️
二、問題的檢查
結果在百度資源平台中發現"流量與關鍵詞"的熱門關鍵詞裡面有些明顯異常的數據,例如:
紅框中的一些關鍵
這是 搜索引擎 分類的頁面,點擊下面标題查看詳細文章内容:
去年11月份的時候,我們陸續有幾個網站發現流量大幅減少,一開始還以為是正常波動或其它常規原因而沒有引起重視,直到幾周後來自百度搜索的流量持續大幅下降、好幾個網站都情況類似,才去深入檢查原因。🕵️
結果在百度資源平台中發現"流量與關鍵詞"的熱門關鍵詞裡面有些明顯異常的數據,例如:
紅框中的一些關鍵
最近幾天我們國内的兩個網站都遇到訪問困難,檢查發現是百度爬蟲抓取量大增,是以前正常情況的很多倍,導緻Web服務器CPU、帶寬以及數據庫服務器都難以應付。Googlebot也曾經出現類似情況。
按照以前的辦法,我們是在百度資源平台或者Google Search Console中設置降低爬蟲的抓取速率,不過這樣設置後需要等待2-3天時間生效,而不能解決當時的問題。
我們郵編庫網站提供郵政編碼查詢的服務有20多年曆史了,真的是比所有其它郵編查詢網站提供的時間更長、也更專注,這麼多年一直不斷在這個小小的領域默默改進。即使現在郵政編碼的使用頻率越來越低,查詢郵編的人比以前少了很多,我們卻反而推出任意地址郵編查詢、微信公衆号改進、用IP地址或者手機定位獲取用戶位置及郵政編碼,今年還推出大的改版更新。
很多年前看到百度中搜索郵政編碼會出現直接結果,标注來自郵政官方某機構,這種方式當時叫着百度的阿拉丁計劃,我們也曾經想去申請,但似乎門檻很高,就沒有花力氣聯系。
今年初接到百度相關人員的聯系,主動詢問我們是否願意參加這種合
标明訪問者屬性的User Agent是可以由軟件進行修改的,所以有很多采集者為了防止自己被屏蔽,就把User Agent改為搜索引擎爬蟲的特征,例如:
昨天剛寫了一篇《不要誤屏蔽百度MIP的爬蟲》,順着我們就繼續檢查其它站是否有被誤屏蔽的事情,流量來源主要是百度的國内站可以看百度站長平台(百度搜索資源平台)裡面的信息,流量來源主要是Google的國外站可以看Google Webmaster Tools (Google Search Console)。
今天同事發現一個台灣繁體版站的索引情況有異常:
我們在采用《使用Apache模塊mod_qos反采集》的辦法以後,确實有一些效果,但從apache報錯日志中看到也有百度、Google等搜索引擎的IP被屏蔽了,現在來收集整理一下常見搜索引擎的IP地址段,以便加入白名單中:
Googlebot:
Baiduspider:
以前托管服務器或者租用的服務器一般都是100M共享的帶寬,很少出現機器帶寬被占滿的情況,去年開始采用阿裡雲平台後,帶寬就是一個不得不考慮的成本因素,我們一般都是每台ECS購買的10M左右帶寬,每年費用已經不少了,而投入使用後很輕易就會被占滿,關鍵是網站的流量并沒有特别提升,廣告收入沒有增加,成本卻在大幅提高,還導緻正常用戶訪問變慢、困難。
同事在Linux服務器上安裝了一個iftop來查看帶寬占用情況,很容易就發現了是搜索引擎的爬蟲抓取sitemap.xml這樣的網址占用了很大帶寬,我們網站系列多、頁面多、還有多語言或者手機版,網站地圖就特别的多,如果爬蟲來得
前些天收到Google Webmaster Tools的提醒郵件:
Googlebot 發現您的網站中包含大量的網址:http://jilin.youbianku.com/
October 24, 2011
Googlebot 在抓取您的網站“http://jilin.youbianku.com/”時遇到問題。
Googlebot 在您的網站上抓取到了非常多的鍊接。 這可能表示您網站的網址結構存在問題。 這樣可能會使 Googleb
前段時間更換服務器後,将各種限制都打開了,讓各種爬蟲也都自由訪問,包括各種搜索引擎或者采集軟件。但這兩天發現新服務器都不堪重負,同事在Squid的日志中找到大量來自1.202.218.*, 1.202.219.*, 1.202.220.*, 1.202.221.*的訪問,查看User-Agent信息是gosospider Mozilla/5.0 (compatible; GosoSpider; +http://www.goso.cn/aboutus.html),原來是偉大、光榮、正确的“狗搜”來訪,雖然有受寵若驚的感覺,但也讓我們服務器的鴨梨過大。
2002-2023 v11.7 a-j-e-0