最近把自己编写的网站防采集程序进行了升级,添加了每日邮件报告的功能,各台服务器在每天凌晨将前一天被屏蔽的IP信息汇总发送邮件到指定邮箱。典型的邮件内容摘录如下:
101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX
#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
redirect_status=>is not set
request_uri=>/
server_name=>example.com
remote_host=>186-201-198-250.customer.tdatabrasil.net.br
captcha_time=>0
success_time=>0
fail_time=>0
bad=>1#count=39
request_time=>1386714147
remote_addr=>162.243.81.24
http_user_agent=>Mozilla/5.0 (compatible; spbot/4.0.4; +http://www.seoprofiler.com/bot )
redirect_status=>200
request_uri=>/example.html
server_name=>example.com
remote_host=>162.243.81.24
captcha_time=>101
success_time=>0
fail_time=>0
bad=>1
这两天开始有了报告,今天我把各台服务器反采集的报告都看了一遍,有些规律:
- 国外服务器上采集者比较多,国内服务器上采集者相对较少;
- 被屏蔽的采集者中,多数都是假冒搜索引擎爬虫的,这个可以第一次来访就发现、屏蔽,少数不是假冒的,就给出限定次验证码后屏蔽;
- 假冒搜索引擎爬虫的情况,绝大多数都是假冒googlebot,少数假冒youdaobot, bingbot, baiduspider等;
- 假冒googlebot的IP绝大多数是.br,也就是来自巴西的IP(估计是代理服务器IP,实际采集者可能在世界各地),还有少数泰国、墨西哥等地IP;
- 国外服务器上采集者多数都是来自国外的IP(但实际采集者也可能在国内),少数是来自国内的IP,例如北京、福建等地;
- 有些非知名搜索爬虫,例如YisouSpider、crawler.sistrix.net,被给出验证码、屏蔽了多次,可以考虑加入黑名单完全屏蔽。
目前这套程序运行还不错,应该能够抵挡绝大多数采集者,以后还可以继续完善。
评论3
请问你的这份程序可以分享一份给我吗?我的网站目前被别人采集
请问你的这份程序可以分享一份给我吗?我的网站目前被别人采集,很是烦心啊,谢谢我的QQ号58978386,谢谢
我的QQ号58978386,谢谢抱歉,这个程序还不成熟
这个程序还不成熟,对数据库负载有些影响,而且某些情况下还可能误屏蔽正常访问者或者搜索引擎爬虫,另外程序也写得不规范,仅仅是自己试用,还不宜分享出来,不好意思啊。