我们一些大数据量的网站总是沦为爬虫获取信息的对象,导致大量消耗服务器资源。有些爬虫是为了采集整个网页,也有些只来找寻邮箱等联系方式信息。
前段时间发现有一阵爬虫特别多,从apache日志里面看到这样的特征:
115.151.110.238 - - [14/Jul/2018:18:03:01 +0800] port:443 "liaoning.mingluji.com" "GET /%E5%AE%89%E5%BE%BD%E5%A5%BD%E6%80%9D%E5%AE%B6%E6%B6%82%E6%96%9