自從做網站以來,大量自動抓取我們内容的爬蟲一直是個問題,防範采集是個長期任務,這篇是我5年前的博客文章:《Apache中設置屏蔽IP地址和URL網址來禁止采集》,另外,還可以識别User Agent來辨别和屏蔽一些采集者,在Apache中設置的代碼例子如下:
RewriteCond %{HTTP_USER_AGENT} ^(.*)(DTS\sAgent|Creative\sAutoUpdate|HTTrack|YisouSpider|SemrushBot)(.*)$ RewriteRule .* - [F,L]
屏蔽User