前一阵子《新推出一个法语网站:法国工商企业》,新站收录、展示都很慢,但我们脚步没有停下,依然一直在做各种语言各国的开放数据集网站。7月份来了一位天津外国语大学的阿拉伯语实习生,一起配合做了第一个阿拉伯语的开放数据集网站 - 阿联酋开放数据集:
上面阿拉伯语和英语版本的网址不一样,与其它站多语言的设置不一样,其它站多语言的网址都是一样的,阿拉伯语/英语分为两个不同的网址,因为阿拉伯语是从右到左阅读的,没法与英语用同一个网址,否则看起来就乱套了。
另外,其它部分站点的多语言是把英文和其它语言混合放在一起,例如香港就把中文、英文放在同一个页面内,但这个站我们把英文、阿文对照的网址进行了一些设置,让英文版基本只显示英文,让阿拉伯文版基本只显示阿拉伯文,使用了Drupal自带的多语言系统翻译功能。
阿拉伯语还有一个字符集编码的问题,我们下载的Excel表格直接另存为csv文件不行,要先另存为UNICODE文件,这时在Linux系统下用file -i查看显示编码格式charset=utf-16le,先用iconv转为utf-8文件,然后再进行后续处理和导入数据库表。
阿拉伯国家很多都有政府开放数据平台,但提供的数据量都偏少,一些统计类的数据也不适合做成网站,后续 还要去找寻更多数据来源。虽然阿拉伯世界的网站远没有英文、中文的丰富,但这也正是机会,我们也可以设法做出满足当地人需求的网站来。
评论