去年開始就在了解開放數據領域的情況,當時記錄了《各國(地區)政府開放數據網站》、《美國州縣市政府開放數據網站》,後來今年初在考慮把一些數據做成網站形式讓大衆浏覽的時候,還記錄了《什麼樣的開放數據适合做網站?》,2、3月份在美國遠程工作,也嘗試添加了一些内容到U.S. Open Datasets這個新站,還在上面《什麼樣的開放數據适合做網站?》這篇博文後面添加了一些新的想法:
- 編碼類:編碼類數據集類似詞典的結構,比較簡單,但基本上沒人能夠記住編碼及含義,都需要查資料,所以這類信息還是有用的,隻是可能不經常查,或者隻是局限于某個領域的人有需求;
- 複雜性:國外有些數據集相當複雜,由很多表組成,這些表之間還有關聯,呈現出來比較麻煩,不過如果能值得多花些時間精力搞懂結構的話,也是可以做出來的,并且有一定難度的工作才能體現我們做得比别人好;
- 專業性:涉及到醫療醫藥、金融保險、統計分析等方面的數據,有些是相當晦澀難懂的,很多專有名詞、縮寫、代碼,首先要能基本明白數據内容、針對什麼樣的用戶,以便能判斷是否采用、如何采用;
- 廣告價值:最近還和一位專門做美國生活類網站的朋友聊過,他們是專門挑選高價關鍵詞來做針對性網頁内容,頁面數量不多、網站流量不算高,但廣告點擊率、價值和總體收入都不錯,我們在做數據集、長尾網站的時候,也可以借鑒,更多選擇價值高的領域的數據來做。
但因為data.gov裡面的數據量太大,數據集有二十多萬,對全貌掌握還不夠,所以上個星期花了幾天的時間專門來看這個站裡面的内容,并記下來一些紙上,現在幹脆整理成博客文章,把一些過程和要點記錄如下。
前期我按照流行度來查看美國政府開放數據,選擇裡面浏覽者多的内容仔細查看,并把适合的做成網站内容。這次在我首先是進行了一些過濾,20多萬數據中屬于地理信息類的有超過15萬,屬于非地理信息類的大約8萬,因為地理信息類的我們大多數都不太好做成網站所以就把這部分先去掉了,再隻選擇了來自聯邦政府的數據,去掉了來自州、縣、城市的地方性數據,剩下大約7萬,另外就是按照适合做成網站的文件格式,把txt和csv的先看了,其中txt過濾出來大約有350個,csv過濾出來大約有2000個。
這350個txt的數據集花了1天時間來查看,也是按照流行度排序來查看,有些明顯不适合我們用的就不打開看了,有可能用的就打開單獨的頁面看,再需要仔細了解就下載文件到本地打開查看,還有些需要訪問數據來源網站去詳細了解,如果要做成網站,甚至還有需要單獨Google搜索找其它來源了解。
有了一定經驗後再看2000個csv數據集稍微快點,但也是花了1、2天的時間來查看。看英文的有些慢,我就啟動Chrome浏覽器的自動翻譯功能,這樣能比較快一眼就知道大概情況,不感興趣的就快速略過,感興趣的再對照原文仔細看。下載了幾十個文件來查看,最後留下大約20個左右文件覺得是做成網站适合的,例如:
- Demographic Statistics By Zip Code
- North American Industry Classification System (NAICS)
- North American Product Classification System (NAPCS)
- UNSPSC Codes
- Patent and Trademark Practitioners (Intellectual Property (IP) Agent/Attorney/Barrister/Lawyer)
-
等等,我寫在紙上的還有幾十個以後可能補到這裡
上面圖片就是我記錄的一些内容,整理起來有些麻煩,我可能就等下個月回國後直接和同事講算了。
再進一步,我按照大的分類把各個分類的數量記錄下來,數量少的我翻看了前幾頁,也就大約知道了各個領域的數據集數量:
- Agriculture 農業:561
- Climate 氣象:616
- Consumer 消費者:128
- Ecosystems 生态:127
- Education 教育:365
- Energy 能源:249
- Finance 财經:128
- Health 健康:1943
- Local Government 地方政府:16625
- Manufacturing 制造業:38
- Maritime 海事:36
- Ocean 海洋:110
- Public Safety 公共安全:75
- Science & Research 科學研究:33
- AAPI:1109
- BusinessUSA:145
- Disasters:110
- Law:79
- Aging:67
- Opportunity:36
- wwhgd:15
我認識的做AdSense的站長幾乎沒有願意把自己的網站或者想法告訴别人的,好像很防範被别人複制内容或者抄襲了創意,國内确實各種采集、Copy等亂七八糟的情況多,不過我覺得有能力的人做出來的東西是不怕透露、不怕抄襲的,抄襲的永遠跟着後面,隻有深入研究用戶需求、研究新技術才能走在前面。
像這樣真的要了解透徹各種國外網上公開數據可不是一個輕松的事情,語言障礙、文化習慣了解、技術選型實現、後期維護、分析改進都是必須克服的,有難度也才能有門檻有收益。
網上有一些現成的對美國政府公開數據的中文文章,我都看過,基本上都是學術界或者政府角度的分析或者論文。我博客以後還會持續以自己的視角記錄一些了解、分析、采用、結果,歡迎交流。
附圖:我在美國San Diego租住的房間,牆上貼了一些工作相關記錄要點即時貼。
评论