我們一些大數據量的網站總是淪為爬蟲獲取信息的對象,導緻大量消耗服務器資源。有些爬蟲是為了采集整個網頁,也有些隻來找尋郵箱等聯系方式信息。
前段時間發現有一陣爬蟲特别多,從apache日志裡面看到這樣的特征:
115.151.110.238 - - [14/Jul/2018:18:03:01 +0800] port:443 "liaoning.mingluji.com" "GET /%E5%AE%89%E5%BE%BD%E5%A5%BD%E6%80%9D%E5%AE%B6%E6%B6%82%E6%96%9