被采集是我們一直遇到的麻煩,2013年我們就自己編寫網站防采集程序,從反采集程序的報告解讀看,這個程序起到了相當的作用,但後來因為下面幾點原因而停用:
- 自身需要使用數據庫,容易在被采集的高峰期引起擁堵;
- 對搜索引擎爬蟲使用host反查DNS有時因為網絡問題失敗,導緻誤判;
- 黑白名單機制不夠完善、靈活;
- 程序邏輯不夠完善、優化,應該采用定時方式的地方采取了每次訪問時運行,負荷過大;
- 采取了其它一些措施來進行反采集,例如:人工查看Apache日志來處理、安裝Apac
2002-2023 v11.7 a-j-e-0