- 主题:本站内容主要是本人关注的互联网行业及个人爱好方面的主题,包括AdSense💲、MediaWiki👨💻、Drupal💻、马拉松🏃、架子鼓🥁等。
- 书讯:本人新书2018年12月出版《Google AdSense实战宝典 - 第二版📘》,欢迎关注。
被采集是我们一直遇到的麻烦,2013年我们就自己编写网站防采集程序,从反采集程序的报告解读看,这个程序起到了相当的作用,但后来因为下面几点原因而停用:
- 自身需要使用数据库,容易在被采集的高峰期引起拥堵;
- 对搜索引擎爬虫使用host反查DNS有时因为网络问题失败,导致误判;
- 黑白名单机制不够完善、灵活;
- 程序逻辑不够完善、优化,应该采用定时方式的地方采取了每次访问时运行,负荷过大;
- 采取了其它一些措施来进行反采集,例如:人工查看Apache日志来处理、安装Apac