我们很多年前开始做网站就一直遇到被采集的问题,很多次都是让我们服务器不堪负重,需要排除、采取针对性措施来屏蔽,所以我一直对采集这种方式很排斥。另外,国内太多用采集做成的复制网站、山寨网站、垃圾网站了,在搜索引擎中也不会有长期良好表现,违反了SEO的原则,所以我们一直都没有用采集的方式来获取数据。
但这两年也一直有尝试采集软件的想法,我们不会去复制网站,但可以用来获取需要的一些数据,然后再做处理利用,去年也提过但一直没有实施,今年初再次提到这个想法,我也去看过、比较过一些采集软件,火车头采集软件在这方面比较领先,最近同事去详细了解、试用,感觉还不错,我们就干脆去购买了“旗舰版”,花大几百元获得一些比免费版多的额外功能以及技术支持还是值得的。
最近几周同事尝试去采集了几个数据,积累了一些经验,包括采集规则制定、采集时间安排、频率合理使用、代理IP使用等,算是基本熟悉了用法,我以后有时间也再去详细了解。
另外,Flash等形式的页面还无法使用软件来采集,我们以前曾经在IE的临时文件夹中找到相应的xml文件,现在依然可以用这个办法来人工获取数据。
评论