被采集是我們一直遇到的麻煩,2013年我們就自己編寫網站防采集程序,從反采集程序的報告解讀看,這個程序起到了相當的作用,但後來因為下面幾點原因而停用:
- 自身需要使用數據庫,容易在被采集的高峰期引起擁堵;
- 對搜索引擎爬蟲使用host反查DNS有時因為網絡問題失敗,導緻誤判;
- 黑白名單機制不夠完善、靈活;
- 程序邏輯不夠完善、優化,應該采用定時方式的地方采取了每次訪問時運行,負荷過大;
- 采取了其它一些措施來進行反采集,例如:人工查看Apache日志來處理、安裝Apac
這是 采集 分類的頁面,點擊下面标題查看詳細文章内容:
被采集是我們一直遇到的麻煩,2013年我們就自己編寫網站防采集程序,從反采集程序的報告解讀看,這個程序起到了相當的作用,但後來因為下面幾點原因而停用:
最近和采集者杠上了,不斷與這些采集者糾纏,周一一大早就看到網站監控報警,服務器帶寬被占滿,在從iftop -i eth1看到有兩個IP段一直占據前列:
再仔細一查,這兩個IP段是已經被我們在.htaccess裡面屏蔽的,從tail -f access.log看這兩個IP段的地址訪問都是403被拒絕狀态,但不知道是哪家的傻爬蟲(220.243.135.*/220.243
最近新增了一些網站内容,結果正常的訪問者還沒有開始來,采集的爬蟲就來了,真像是嗜血的鲨魚,發現哪裡有美味馬上就盯上了😰。
近期也看了一些關于反采集的文章,世上沒有完美、一勞永逸的反采集辦法,成了與采集者的對峙,雙方不斷變換對抗辦法,成了一種體力活。
我們現在也不得不采取更嚴格的反采集措施,看到很多采集IP都來自amazon雲計算,這就可以用hostname反查來進行屏蔽,以前曾經做過測試,今天再次測試并記錄。
在apache的httpd.conf文件中添加一行:
HostnameLoo
反采集一直都是我們需要進行的工作,特殊是國内互聯網行業抄襲風氣太盛,其實我們不介意這些采集者把我們原創内容采過去,反正采集者也影響不了我們自己多少,但老是導緻我們服務器資源過載就很煩了。
以前一般用“Apache中設置屏蔽IP地址和URL網址來禁止采集”,高級一些的用法記錄在“識别User Agent屏蔽一些Web爬蟲防采集”,中途還專門“自己編寫網站防采集程序”,但用起來也有些不完善。
這兩個月提交百度熊掌号、MIP/AMP後,正常的爬蟲多起來,流量也多一些,跟着
我們的部分中文站點流量比較大,以前做百度聯盟都是黃金、白金會員,也因此被加入了百度官方建的幾個QQ群:“百度站長平台大咖群”、“百度SSP黃金會員⑥群”,我平時不太看群裡的消息,偶爾看一下近年來也多是曬窮、訴苦、抱怨、唱衰的居多。前一陣子看群裡說到“飓風算法”,就去搜索了一下,官方解釋是《百度推出飓風算法,嚴厲打擊惡劣采集》。
我們做了好些中文站點,除了很早期的網站以外,後面一些年做的在百度中表現都不太好,排名不高、流量不多,而在Google中的表現要好很多,我也因此一直覺得百度的技術差、
網站内容抓取采集真是中國互聯網的一大特色,我們做了這麼多年網站,一直都遇到各種各樣對我們内容進行采集、複制的家夥。前一陣子發現一個網站 www.postcodequery.com 具體和我們的 www.postcodebas
10月份在公司進行Drupal内部講座的準備過程中,需要在網上搜索一些資料,正好看到北京亞艾元軟件有限責任公司近期有兩場培訓:
看了一下,還很對我們的胃口,前面一個數據采集我們以前還涉及不多,但可能以後需要用到,後面一個對Drupal的全面介紹以及微信方面的擴展開發也很不錯。我們以前基本上都沒有特别參加外面的培訓,都是自己摸索學習的,有比較系統、深入的培訓肯定好了,所以
最近把自己編寫的網站防采集程序進行了升級,添加了每日郵件報告的功能,各台服務器在每天淩晨将前一天被屏蔽的IP信息彙總發送郵件到指定郵箱。典型的郵件内容摘錄如下:
101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX
#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (
在Drupal網站中使用PHP程序來屏蔽采集者效果還不錯,可以自己任意設定判斷标準。不過我們以前的MediaWiki平台上的網站還沒有使用這套PHP程序來屏蔽,最近發現采集又太多了,搞得服務器負載太高,老是從Apache日志人工排查太麻煩、太慢(以前的辦法見博文《Apache中設置屏蔽IP地址和URL網址來禁止采集》),今天花一些時間編寫了一個小程序來統計日志中的IP訪問數,程序很簡短,如下:
<?php /* * 統計Apache日志文件的IP,找出訪問最多的IP地址,方便發現采集者 * James Qi 2013-11-8 */ //0
對于我們這種數據量很大的網站,面臨的一個麻煩是總有人來采集,以前多使用過人工檢查、屏蔽的辦法,這種辦法有效果但太費精力,前段時間也找了插件來自動限制最大連接數,但存在誤屏蔽搜索引擎的問題,最近老夫下決定親自操刀寫程序,把這些采集者都斬草除根,雖然
2002-2023 v11.7 a-j-e-0