最近和采集者杠上了,不断与这些采集者纠缠,周一一大早就看到网站监控报警,服务器带宽被占满,在从iftop -i eth1看到有两个IP段一直占据前列:
再仔细一查,这两个IP段是已经被我们在.htaccess里面屏蔽的,从tail -f access.log看这两个IP段的地址访问都是403被拒绝状态,但不知道是哪家的傻爬虫(220.243.135.*/220.243.136.*),被拒绝后也不停,反而继续疯狂爬取,因为被拒绝的速度很快,所以来抓取就更快,导致带宽完全被堵死。
以前我们遇到类似情况就用Linux下的iptable来设置,现在用了阿里云后也可以在阿里云控制后台设置安全组来进行屏蔽,如下图:
C类地址写法:1.2.3/24,B类地址写法:1.2/16,这样设置后,很快带宽就恢复了正常,网站打开超时报警也恢复了。
评论4
看来阿里云安全组还是很重要的,平时关注这个比较少,学习了。
看来阿里云安全组还是很重要的,平时关注这个比较少,学习了。我们网站数据量大,被爬后总是影响服务器,不得不管
我们网站数据量大,被爬后总是影响服务器,不得不管
我也深受这两个ip段的骚扰!
我也深受这两个ip段的骚扰! 还有以下几个IP段,也烦死了: 221.221.(145~169).*嗯,这些爬虫确实让人烦心!
嗯,这些爬虫确实让人烦心!