最近把自己編寫的網站防采集程序進行了升級,添加了每日郵件報告的功能,各台服務器在每天淩晨将前一天被屏蔽的IP信息彙總發送郵件到指定郵箱。典型的郵件内容摘錄如下:
101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX
#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
redirect_status=>is not set
request_uri=>/
server_name=>example.com
remote_host=>186-201-198-250.customer.tdatabrasil.net.br
captcha_time=>0
success_time=>0
fail_time=>0
bad=>1#count=39
request_time=>1386714147
remote_addr=>162.243.81.24
http_user_agent=>Mozilla/5.0 (compatible; spbot/4.0.4; +http://www.seoprofiler.com/bot )
redirect_status=>200
request_uri=>/example.html
server_name=>example.com
remote_host=>162.243.81.24
captcha_time=>101
success_time=>0
fail_time=>0
bad=>1
這兩天開始有了報告,今天我把各台服務器反采集的報告都看了一遍,有些規律:
- 國外服務器上采集者比較多,國内服務器上采集者相對較少;
- 被屏蔽的采集者中,多數都是假冒搜索引擎爬蟲的,這個可以第一次來訪就發現、屏蔽,少數不是假冒的,就給出限定次驗證碼後屏蔽;
- 假冒搜索引擎爬蟲的情況,絕大多數都是假冒googlebot,少數假冒youdaobot, bingbot, baiduspider等;
- 假冒googlebot的IP絕大多數是.br,也就是來自巴西的IP(估計是代理服務器IP,實際采集者可能在世界各地),還有少數泰國、墨西哥等地IP;
- 國外服務器上采集者多數都是來自國外的IP(但實際采集者也可能在國内),少數是來自國内的IP,例如北京、福建等地;
- 有些非知名搜索爬蟲,例如YisouSpider、crawler.sistrix.net,被給出驗證碼、屏蔽了多次,可以考慮加入黑名單完全屏蔽。
目前這套程序運行還不錯,應該能夠抵擋絕大多數采集者,以後還可以繼續完善。
评论3
請問你的這份程序可以分享一份給我嗎?我的網站目前被别人采集
請問你的這份程序可以分享一份給我嗎?我的網站目前被别人采集,很是煩心啊,謝謝我的QQ号58978386,謝謝
我的QQ号58978386,謝謝抱歉,這個程序還不成熟
這個程序還不成熟,對數據庫負載有些影響,而且某些情況下還可能誤屏蔽正常訪問者或者搜索引擎爬蟲,另外程序也寫得不規範,僅僅是自己試用,還不宜分享出來,不好意思啊。