屏蔽一种搜索Email的有害爬虫
我们一些大数据量的网站总是沦为爬虫获取信息的对象,导致大量消耗服务器资源。有些爬虫是为了采集整个网页,也有些只来找寻邮箱等联系方式信息。
前段时间发现有一阵爬虫特别多,从apache日志里面看到这样的特征:
这是Email分类的页面,点击下面标题查看详细文章内容:
我们一些大数据量的网站总是沦为爬虫获取信息的对象,导致大量消耗服务器资源。有些爬虫是为了采集整个网页,也有些只来找寻邮箱等联系方式信息。
前段时间发现有一阵爬虫特别多,从apache日志里面看到这样的特征:
7月份搭建了不带Email的美国企业名录数据50个州子网站,虽然数量达到2000万之巨,但导入、处理的速度比预期的2个月提前了1个月,于是多出来的8月份就可以将带有Email的另外一套美国企业名录也做成网站,这批数据也有900万之多,到目前基本上都导入、处理完了,请看: