前段时间和同事一起看了一些国外开放数据的网站,特别是一些国家/地区政府的开放数据,考虑哪些是适合用来做网站的、哪些不适合、好数据有什么特征等,下面小结几点:
哪些开放数据适合做网站?
- 词典类:这类数据结构清晰,内容实用性强,数据来源官方,适合做成网站长期供网民浏览;
- 名录类:数据来源于各政府机构、行业协会,有用户需求,有部分内容会定期更新;
- 资料类:此类内容可能比较杂,只要是网民会感兴趣的都可以考虑做成网站。
哪些开放数据不适合做网站?
- 统计类:一些纯粹的统计数据,感兴趣的人不多;
- 图片类:大批的图片,不太适合做成网站;
- 地图类:需要做一些地理信息方面的工作,对这些有需求的人可能主要去用几个大公司的地图app去了。
- 地方类:局限在比较小的区域范围内,感兴趣的人少,流量不会太大。
适合做网站的开放数据有些什么样的特征?
- 有明确的用户群体;
- 数据有一定稀缺性;
- 机读格式为佳,例如csv, xml, json, excel等,而html, doc, pdf等效果差一些,需要先转换;
- 数据量大为佳,便于占领长尾空间,我们目标是做海量数据集转为网站页面;
- 时效性都可以,有长期更新来源的更好,如果更新频繁,可以考虑做成自动获取、更新内容。
这些数据只是做了点初步分析,还没有正式开始启动来做,但也很快了,2018年还会招人来加大力度、加快速度。除了数据集直接导入做成网站以外,还需要人工来进行一些编辑,形成一些专题,方便用户浏览。
2018年3月15日补充:这项工作已经开展起来了,这些天我在国外也一直在看国外的开放数据,再补充几点心得体会:
- 编码类:编码类数据集类似词典的结构,比较简单,但基本上没人能够记住编码及含义,都需要查资料,所以这类信息还是有用的,只是可能不经常查,或者只是局限于某个领域的人有需求;
- 复杂性:国外有些数据集相当复杂,由很多表组成,这些表之间还有关联,呈现出来比较麻烦,不过如果能值得多花些时间精力搞懂结构的话,也是可以做出来的,并且有一定难度的工作才能体现我们做得比别人好;
- 专业性:涉及到医疗医药、金融保险、统计分析等方面的数据,有些是相当晦涩难懂的,很多专有名词、缩写、代码,首先要能基本明白数据内容、针对什么样的用户,以便能判断是否采用、如何采用;
- 广告价值:最近还和一位专门做美国生活类网站的朋友聊过,他们是专门挑选高价关键词来做针对性网页内容,页面数量不多、网站流量不算高,但广告点击率、价值和总体收入都不错,我们在做数据集、长尾网站的时候,也可以借鉴,更多选择价值高的领域的数据来做。
评论