我們很多年前開始做網站就一直遇到被采集的問題,很多次都是讓我們服務器不堪負重,需要排除、采取針對性措施來屏蔽,所以我一直對采集這種方式很排斥。另外,國内太多用采集做成的複制網站、山寨網站、垃圾網站了,在搜索引擎中也不會有長期良好表現,違反了SEO的原則,所以我們一直都沒有用采集的方式來獲取數據。
但這兩年也一直有嘗試采集軟件的想法,我們不會去複制網站,但可以用來獲取需要的一些數據,然後再做處理利用,去年也提過但一直沒有實施,今年初再次提到這個想法,我也去看過、比較過一些采集軟件,火車頭采集軟件在這方面比較領先,最近同事去詳細了解、試用,感覺還不錯,我們就幹脆去購買了“旗艦版”,花大幾百元獲得一些比免費版多的額外功能以及技術支持還是值得的。
最近幾周同事嘗試去采集了幾個數據,積累了一些經驗,包括采集規則制定、采集時間安排、頻率合理使用、代理IP使用等,算是基本熟悉了用法,我以後有時間也再去詳細了解。
另外,Flash等形式的頁面還無法使用軟件來采集,我們以前曾經在IE的臨時文件夾中找到相應的xml文件,現在依然可以用這個辦法來人工獲取數據。
评论