当前位置

反采集程序的报告解读

James Qi 在 2013年12月10日 - 09:46 提交
内容摘要:最近把自己编写的网站防采集程序进行了升级,添加了每日邮件报告的功能,各台服务器在每天凌晨将前一天被屏蔽的IP信息汇总发送邮件到指定邮箱。典型的邮件内容摘录如下: 101 Bad IPs Fou......

  最近把自己编写的网站防采集程序进行了升级,添加了每日邮件报告的功能,各台服务器在每天凌晨将前一天被屏蔽的IP信息汇总发送邮件到指定邮箱。典型的邮件内容摘录如下:

101 Bad IPs Found on 2013-12-11 from XXX.XXX.XXX.XXX

#count=1
request_time=>1386690568
remote_addr=>186.201.198.250
http_user_agent=>Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
redirect_status=>is not set
request_uri=>/
server_name=>example.com
remote_host=>186-201-198-250.customer.tdatabrasil.net.br
captcha_time=>0
success_time=>0
fail_time=>0
bad=>1

#count=39
request_time=>1386714147
remote_addr=>162.243.81.24
http_user_agent=>Mozilla/5.0 (compatible; spbot/4.0.4; +http://www.seoprofiler.com/bot )
redirect_status=>200
request_uri=>/example.html
server_name=>example.com
remote_host=>162.243.81.24
captcha_time=>101
success_time=>0
fail_time=>0
bad=>1

  这两天开始有了报告,今天我把各台服务器反采集的报告都看了一遍,有些规律:

  1. 国外服务器上采集者比较多,国内服务器上采集者相对较少;
  2. 被屏蔽的采集者中,多数都是假冒搜索引擎爬虫的,这个可以第一次来访就发现、屏蔽,少数不是假冒的,就给出限定次验证码后屏蔽;
  3. 假冒搜索引擎爬虫的情况,绝大多数都是假冒googlebot,少数假冒youdaobot, bingbot, baiduspider等;
  4. 假冒googlebot的IP绝大多数是.br,也就是来自巴西的IP(估计是代理服务器IP,实际采集者可能在世界各地),还有少数泰国、墨西哥等地IP;
  5. 国外服务器上采集者多数都是来自国外的IP(但实际采集者也可能在国内),少数是来自国内的IP,例如北京、福建等地;
  6. 有些非知名搜索爬虫,例如YisouSpider、crawler.sistrix.net,被给出验证码、屏蔽了多次,可以考虑加入黑名单完全屏蔽。

  目前这套程序运行还不错,应该能够抵挡绝大多数采集者,以后还可以继续完善。

自由标签:

评论

-- 发自IP地址: 171.113.230.75 (位置 | 谁是)

这个程序还不成熟,对数据库负载有些影响,而且某些情况下还可能误屏蔽正常访问者或者搜索引擎爬虫,另外程序也写得不规范,仅仅是自己试用,还不宜分享出来,不好意思啊。

James Qi / 祁劲松