这段时间我们有个网站不断更新内容,流量在不断增长的同时,也引来了大量采集者,现在的采集者已经非常专业了,IP池不断更换,User Agent也随机变化,甚至Referer也做了不同的伪装,让我们花了很多时间来分析Apache日志,不断修改屏蔽条件,斗智斗勇。先以为是百度爬虫太快,把百度爬虫进行了专门的临时503处理,360爬虫干脆全部屏蔽了,但发现还是不行,非正规搜索引擎的采集者带来的麻烦依然不断。🤔
为了不影响用户访问,下血本把阿里云服务器从8核16G升级为16核32G,基本可以解决ECS负载飙升的问题,但RDS数据库服务器还是会遇到查询语句堆积的情况,我们