- 主題:本站内容主要是本人關注的互聯網行業及個人愛好方面的主題,包括AdSense💲、MediaWiki👨💻、Drupal💻、馬拉松🏃、架子鼓🥁等。
- 書訊:本人新書2018年12月出版《Google AdSense實戰寶典 - 第二版📘》,歡迎關注。
被采集是我們一直遇到的麻煩,2013年我們就自己編寫網站防采集程序,從反采集程序的報告解讀看,這個程序起到了相當的作用,但後來因為下面幾點原因而停用:
- 自身需要使用數據庫,容易在被采集的高峰期引起擁堵;
- 對搜索引擎爬蟲使用host反查DNS有時因為網絡問題失敗,導緻誤判;
- 黑白名單機制不夠完善、靈活;
- 程序邏輯不夠完善、優化,應該采用定時方式的地方采取了每次訪問時運行,負荷過大;
- 采取了其它一些措施來進行反采集,例如:人工查看Apache日志來處理、安裝Apac