我们很多年前开始做网站就一直遇到被采集的问题,很多次都是让我们服务器不堪负重,需要排除、采取针对性措施来屏蔽,所以我一直对采集这种方式很排斥。另外,国内太多用采集做成的复制网站、山寨网站、垃圾网站了,在搜索引擎中也不会有长期良好表现,违反了SEO的原则,所以我们一直都没有用采集的方式来获取数据。
但这两年也一直有尝试采集软件的想法,我们不会去复制网站,但可以用来获取需要的一些数据,然后再做处理利用,去年也提过但一直没有实施,今年初再次提到这个想法,我也去看过、比较过一些采集软件,火车头采集软件在这方面比较领先,最近同事去详细了解、试用,感觉还不错,我们就干脆去购买