被采集是我们一直遇到的麻烦,2013年我们就自己编写网站防采集程序,从反采集程序的报告解读看,这个程序起到了相当的作用,但后来因为下面几点原因而停用:
- 自身需要使用数据库,容易在被采集的高峰期引起拥堵;
- 对搜索引擎爬虫使用host反查DNS有时因为网络问题失败,导致误判;
- 黑白名单机制不够完善、灵活;
- 程序逻辑不够完善、优化,应该采用定时方式的地方采取了每次访问时运行,负荷过大;
- 采取了其它一些措施来进行反采集,例如:人工查看Apache日志来处理、安装Apac
2002-2023 v11.7 a-j-e-0