去年在尋找公開數據的時候,就看到過GitHub上的“Awesome Public Datasets”,這是一個手工收集整理的各種公開數據集列表,按照主題可以分為下面這些大類:
- Agriculture 農業
- Biology 生物
- Climate+Weather 氣候+天氣
- ComplexNetworks 複雜網絡
- ComputerNetworks 計算機網絡
- DataChallenges 數據競賽
記錄了《美國政府開放數據了解》、《香港政府開放數據了解》後,繼續在聖疊戈這邊工作,多數是在住處房間裡面上網,也有時跟着兒子去UCSD圖書館去搞我自己的工作,這周又重點了解了英國政府開放數據的情況,現在也記錄一篇博客文章。
這是英國政府開放數據的官方網站:DATA.GOV.UK opening up government
我們已做了幾個數據集内容的網站:United Kingdom Datasets
與美國、香港、台灣一樣,采用的都是開源的CKAN平台,但在具體使用的時候有用很多不同。其中有兩個功能我覺得特别棒:一
Drupal網站有站點聯絡功能,是通過填寫contact表單來發送郵件實現的,我們總是收到一些來自俄羅斯的垃圾郵件,這些俄羅斯黑客有一定技術,可以識别圖片驗證碼,使我們的主要反垃圾措施失效,但垃圾終究是垃圾,這種長期自動騷擾别人的做法,這世界上做得最多的就是俄羅斯人和中國人了,真是為國家丢臉,希望中國人幹這些事的人以後少些吧。
早就想找辦法來屏蔽,本來Drupal還自己帶有“觸發”、“動作”機制的,但好像原來屏蔽關鍵詞就沒有實驗成功,所以這次幹脆找底層API來解決,通過1個小時的摸索,找到了辦法。
去年在記錄《各國(地區)政府開放數據網站》的時候對“香港資料一線通”平台做了初步了解,相對國内各地的政府開放網站,香港的還算與國際接軌一些,不過數據量偏小是硬傷,當時看的隻有大約500個數據集,與台灣的30,000多、英國的20,000多、美國的230,000多差了幾個數量級。
今年初我們已經搭建了“香港數據集”的網站,添加了一個初始例子數據集“香港學校位置數據及相關資料”,并且對香港一線通平台做了初步的數據分析,為了後面繼續添加,現在專門寫一篇博文來記錄相關要點。
去年開始就在了解開放數據領域的情況,當時記錄了《各國(地區)政府開放數據網站》、《美國州縣市政府開放數據網站》,後來今年初在考慮把一些數據做成網站形式讓大衆浏覽的時候,還記錄了《什麼樣的開放數據适合做網站?》,2、3月份在美國遠程工作,也嘗試添加了一些内容到U.S. Open Datasets這個新站,還在上面《什麼樣的開放數據适合做網站?》這篇博文後面添加了一些新的想法:
- 編碼類:編碼類數據集類似詞典的結構,比較簡單,但基本上沒人能夠記住編碼及含義,都需要查資料,所以這類信息還是有用的,隻是可能不經常查,或者隻是
去年就發現我們有的網站在Google Search Console裡面提交的網站地圖一直都是“待定”狀态(英文界面是“Pending”),重新提交也沒有效果,前幾天又和同事一起查看,發現有兩個域名的系列網站全部都是網站地圖處在“待定”狀态,這應該有好多個月了,很是令人郁悶。
先以為是網站地圖本身有問題,但打開都是正常的,用Google Search Console裡面的“用Google方式打開”也可以正常獲取内容,在其它驗證網站地圖的地方也可以通過驗證,肯定不是網站
昨天在一些網站中添加AddThis分享按鈕,主要是針對海外的站點上放置,放置當天就可以看到流量和分享數據。後悔沒有更早放置分享按鈕,不然網站可以有更多外鍊和來自社交媒體的流量。
以前國内的有些站放過百度分享按鈕,所以我又去百度分享後台看了看,卻發現沒有統計數據,不知道是百度分享自己的問題,還是因為我們改https支持引起的問題。
百度搜索前兩年都已經改全站https支持了,但他們的好些服務一直到現在都沒有改https支持,例如百度聯盟、百度統計、百度分享等,這效率實在太低,不知道他們忙什麼去了。我是在網上找的文章,把百度分享的js代碼下
以前使用過“百度分享”按鈕代碼嵌入到網站中,在《Drupal網站改http為https訪問》這篇文章裡面還記錄了baiduShare代碼改為支持https的辦法,但國外站基本都沒有添加。
上個星期和同事一起查看定期網站統計分析的時候,專門去看了百度站長平台、Google Search Consol裡面的一些數據,有部分外部鍊接來自社會化媒體分享,都是用戶自己主動做的,我們網站上連分享按鈕都沒有提供。
所以今天特意在網上搜了一下,國外站用AddThis的比較多,我就注冊了一個帳号,進去可以進行設置、獲取代碼,然後放
對于Google推出的新AdSense廣告形式我都還是願意嘗試的,不過他們推新形式不是很多,感覺慎重一些。前兩年推出網頁級廣告的時候,我感覺這種自動判斷呈現的廣告還不錯,在我們的各個網站系列上基本上實施了。
而百度聯盟的廣告形式更多,以前推出新格式很頻繁,但我往往都沒有去嘗試,懸浮類的對用戶體驗有影響,另外新形式的質量不一定好,也不一定能獲取更好的收益。去年百度又大幅減少了廣告格式,禁止一些以前提倡的懸浮等形式,讓發布商感覺政策搖擺太大。
去年聽Google的Juliana說過今年會推出自動廣告,昨天是春節後上班開工的第二天,在AdSe
很多年前我們就在自建的網站中嵌入了Google Translate代碼來實現翻譯功能,但2011年的時候因為GFW的緣故,隻好暫停了,當時記錄了博客《為了速度去掉Google Translate工具代碼》。
2月份來美國聖地亞哥前在北京參加了think with Google的活動,會上講到互聯網出海的時候,特别又提到Google Translate工具,這些年來谷歌翻譯的準确率應該得到了很大提高,特别是人工智能的發展帶來翻譯質量的提升。
所以我們又想把這個工具用起來,雖然我們自己在多個系列網站上都有自己的翻譯,但還是可以把Google