緊急降低搜索引擎爬蟲抓取網站速度的辦法
最近幾天我們國内的兩個網站都遇到訪問困難,檢查發現是百度爬蟲抓取量大增,是以前正常情況的很多倍,導緻Web服務器CPU、帶寬以及數據庫服務器都難以應付。Googlebot也曾經出現類似情況。
這是爬蟲分類的頁面,點擊下面标題查看詳細文章内容:
最近幾天我們國内的兩個網站都遇到訪問困難,檢查發現是百度爬蟲抓取量大增,是以前正常情況的很多倍,導緻Web服務器CPU、帶寬以及數據庫服務器都難以應付。Googlebot也曾經出現類似情況。
最近幾天我們有兩個域名下的網站從Google Analytics看流量異常增高,是平時的數十倍,同時在線人數也是以前的幾十倍,從流量來源看主要是直接來源用戶大量增加,這顯然是不正常的。截圖如下:
我們很早前就開始做百度MIP版本頁面了,通過這種方式也獲得了流量的增長和比較好的用戶體驗。但最近流量不太穩定,有的站MIP流量曾經很高,但後來跌落很厲害。還有的站MIP流量下降後,對應的普通WEB版流量上升。
我們做了各種推測和試驗,今天發現了一條重要線索:百度的MIP爬蟲曾經被我們屏蔽。
最近新增了一些網站内容,結果正常的訪問者還沒有開始來,采集的爬蟲就來了,真像是嗜血的鲨魚,發現哪裡有美味馬上就盯上了😰。
近期也看了一些關于反采集的文章,世上沒有完美、一勞永逸的反采集辦法,成了與采集者的對峙,雙方不斷變換對抗辦法,成了一種體力活。
我們在采用《使用Apache模塊mod_qos反采集》的辦法以後,确實有一些效果,但從apache報錯日志中看到也有百度、Google等搜索引擎的IP被屏蔽了,現在來收
我們一些大數據量的網站總是淪為爬蟲獲取信息的對象,導緻大量消耗服務器資源。有些爬蟲是為了采集整個網頁,也有些隻來找尋郵箱等聯系方式信息。
前段時間發現有一陣爬蟲特别多,從apache日志裡面看到這樣的特征:
以前托管服務器或者租用的服務器一般都是100M共享的帶寬,很少出現機器帶寬被占滿的情況,去年開始采用阿裡雲平台後,帶寬就是一個不得不考慮的成本因素,我們一般都是每台ECS購買的10M左右帶寬,每年費用已經不少了,而投入使用後很輕易就會被占滿,關鍵是網站的流量并沒有特别提升,廣告收入沒有增加,成本卻在大幅提高,還導緻正常用戶訪問變慢、困難。