前段時間和同事一起看了一些國外開放數據的網站,特别是一些國家/地區政府的開放數據,考慮哪些是适合用來做網站的、哪些不适合、好數據有什麼特征等,下面小結幾點:
哪些開放數據适合做網站?
- 詞典類:這類數據結構清晰,内容實用性強,數據來源官方,适合做成網站長期供網民浏覽;
- 名錄類:數據來源于各政府機構、行業協會,有用戶需求,有部分内容會定期更新;
- 資料類:此類内容可能比較雜,隻要是網民會感興趣的都可以考慮做成網站。
哪些開放數據不适合做網站?
- 統計類:一些純粹的統計數據,感興趣的人不多;
- 圖片類:大批的圖片,不太适合做成網站;
- 地圖類:需要做一些地理信息方面的工作,對這些有需求的人可能主要去用幾個大公司的地圖app去了。
- 地方類:局限在比較小的區域範圍内,感興趣的人少,流量不會太大。
适合做網站的開放數據有些什麼樣的特征?
- 有明确的用戶群體;
- 數據有一定稀缺性;
- 機讀格式為佳,例如csv, xml, json, excel等,而html, doc, pdf等效果差一些,需要先轉換;
- 數據量大為佳,便于占領長尾空間,我們目标是做海量數據集轉為網站頁面;
- 時效性都可以,有長期更新來源的更好,如果更新頻繁,可以考慮做成自動獲取、更新内容。
這些數據隻是做了點初步分析,還沒有正式開始啟動來做,但也很快了,2018年還會招人來加大力度、加快速度。除了數據集直接導入做成網站以外,還需要人工來進行一些編輯,形成一些專題,方便用戶浏覽。
2018年3月15日補充:這項工作已經開展起來了,這些天我在國外也一直在看國外的開放數據,再補充幾點心得體會:
- 編碼類:編碼類數據集類似詞典的結構,比較簡單,但基本上沒人能夠記住編碼及含義,都需要查資料,所以這類信息還是有用的,隻是可能不經常查,或者隻是局限于某個領域的人有需求;
- 複雜性:國外有些數據集相當複雜,由很多表組成,這些表之間還有關聯,呈現出來比較麻煩,不過如果能值得多花些時間精力搞懂結構的話,也是可以做出來的,并且有一定難度的工作才能體現我們做得比别人好;
- 專業性:涉及到醫療醫藥、金融保險、統計分析等方面的數據,有些是相當晦澀難懂的,很多專有名詞、縮寫、代碼,首先要能基本明白數據内容、針對什麼樣的用戶,以便能判斷是否采用、如何采用;
- 廣告價值:最近還和一位專門做美國生活類網站的朋友聊過,他們是專門挑選高價關鍵詞來做針對性網頁内容,頁面數量不多、網站流量不算高,但廣告點擊率、價值和總體收入都不錯,我們在做數據集、長尾網站的時候,也可以借鑒,更多選擇價值高的領域的數據來做。
评论