去年在寻找公开数据的时候,就看到过GitHub上的“Awesome Public Datasets”,这是一个手工收集整理的各种公开数据集列表,按照主题可以分为下面这些大类:
- Agriculture 农业
- Biology 生物
- Climate+Weather 气候+天气
- ComplexNetworks 复杂网络
- ComputerNetworks 计算机网络
- DataChallenges 数据竞赛
记录了《美国政府开放数据了解》、《香港政府开放数据了解》后,继续在圣迭戈这边工作,多数是在住处房间里面上网,也有时跟着儿子去UCSD图书馆去搞我自己的工作,这周又重点了解了英国政府开放数据的情况,现在也记录一篇博客文章。
这是英国政府开放数据的官方网站:DATA.GOV.UK opening up government
我们已做了几个数据集内容的网站:United Kingdom Datasets
与美国、香港、台湾一样,采用的都是开源的CKAN平台,但在具体使用的时候有用很多不同。其中有两个功能我觉得特别棒:一
Drupal网站有站点联络功能,是通过填写contact表单来发送邮件实现的,我们总是收到一些来自俄罗斯的垃圾邮件,这些俄罗斯黑客有一定技术,可以识别图片验证码,使我们的主要反垃圾措施失效,但垃圾终究是垃圾,这种长期自动骚扰别人的做法,这世界上做得最多的就是俄罗斯人和中国人了,真是为国家丢脸,希望中国人干这些事的人以后少些吧。
早就想找办法来屏蔽,本来Drupal还自己带有“触发”、“动作”机制的,但好像原来屏蔽关键词就没有实验成功,所以这次干脆找底层API来解决,通过1个小时的摸索,找到了办法。
去年在记录《各国(地区)政府开放数据网站》的时候对“香港资料一线通”平台做了初步了解,相对国内各地的政府开放网站,香港的还算与国际接轨一些,不过数据量偏小是硬伤,当时看的只有大约500个数据集,与台湾的30,000多、英国的20,000多、美国的230,000多差了几个数量级。
今年初我们已经搭建了“香港数据集”的网站,添加了一个初始例子数据集“香港學校位置数据及相关资料”,并且对香港一线通平台做了初步的数据分析,为了后面继续添加,现在专门写一篇博文来记录相关要点。
去年开始就在了解开放数据领域的情况,当时记录了《各国(地区)政府开放数据网站》、《美国州县市政府开放数据网站》,后来今年初在考虑把一些数据做成网站形式让大众浏览的时候,还记录了《什么样的开放数据适合做网站?》,2、3月份在美国远程工作,也尝试添加了一些内容到U.S. Open Datasets这个新站,还在上面《什么样的开放数据适合做网站?》这篇博文后面添加了一些新的想法:
- 编码类:编码类数据集类似词典的结构,比较简单,但基本上没人能够记住编码及含义,都需要查资料,所以这类信息还是有用的,只是可能不经常查,或者只是
去年就发现我们有的网站在Google Search Console里面提交的网站地图一直都是“待定”状态(英文界面是“Pending”),重新提交也没有效果,前几天又和同事一起查看,发现有两个域名的系列网站全部都是网站地图处在“待定”状态,这应该有好多个月了,很是令人郁闷。
先以为是网站地图本身有问题,但打开都是正常的,用Google Search Console里面的“用Google方式打开”也可以正常获取内容,在其它验证网站地图的地方也可以通过验证,肯定不是网站
昨天在一些网站中添加AddThis分享按钮,主要是针对海外的站点上放置,放置当天就可以看到流量和分享数据。后悔没有更早放置分享按钮,不然网站可以有更多外链和来自社交媒体的流量。
以前国内的有些站放过百度分享按钮,所以我又去百度分享后台看了看,却发现没有统计数据,不知道是百度分享自己的问题,还是因为我们改https支持引起的问题。
百度搜索前两年都已经改全站https支持了,但他们的好些服务一直到现在都没有改https支持,例如百度联盟、百度统计、百度分享等,这效率实在太低,不知道他们忙什么去了。我是在网上找的文章,把百度分享的js代码下
以前使用过“百度分享”按钮代码嵌入到网站中,在《Drupal网站改http为https访问》这篇文章里面还记录了baiduShare代码改为支持https的办法,但国外站基本都没有添加。
上个星期和同事一起查看定期网站统计分析的时候,专门去看了百度站长平台、Google Search Consol里面的一些数据,有部分外部链接来自社会化媒体分享,都是用户自己主动做的,我们网站上连分享按钮都没有提供。
所以今天特意在网上搜了一下,国外站用AddThis的比较多,我就注册了一个帐号,进去可以进行设置、获取代码,然后放
对于Google推出的新AdSense广告形式我都还是愿意尝试的,不过他们推新形式不是很多,感觉慎重一些。前两年推出网页级广告的时候,我感觉这种自动判断呈现的广告还不错,在我们的各个网站系列上基本上实施了。
而百度联盟的广告形式更多,以前推出新格式很频繁,但我往往都没有去尝试,悬浮类的对用户体验有影响,另外新形式的质量不一定好,也不一定能获取更好的收益。去年百度又大幅减少了广告格式,禁止一些以前提倡的悬浮等形式,让发布商感觉政策摇摆太大。
去年听Google的Juliana说过今年会推出自动广告,昨天是春节后上班开工的第二天,在AdSe
很多年前我们就在自建的网站中嵌入了Google Translate代码来实现翻译功能,但2011年的时候因为GFW的缘故,只好暂停了,当时记录了博客《为了速度去掉Google Translate工具代码》。
2月份来美国圣地亚哥前在北京参加了think with Google的活动,会上讲到互联网出海的时候,特别又提到Google Translate工具,这些年来谷歌翻译的准确率应该得到了很大提高,特别是人工智能的发展带来翻译质量的提升。
所以我们又想把这个工具用起来,虽然我们自己在多个系列网站上都有自己的翻译,但还是可以把Google