做多语言网站很多年了,翻译的办法以机器翻译+人工校对为主,去年在做EmojiAll这个网站的时候才发现还有个CLDR ,当时记录了一篇博客文章《Unicode的CLDR有Emoji翻译文字,但新版缺少了几十个》。这两天在更新Emoji 13.0的时候再次用到该语言翻译系统,特别记录如下。
CLDR是Common Locale Data Repository的简称,可翻译为通用语言环境数据仓库,该项目提供一些常见信息的标准化翻译,由Unicode Consortium非盈利组织提供的XML格式语言数据,主要用于机器使用,计算机操作系统涉及到的很多信息都包含在内,例如:
- 语言名称的翻译
- 领土和国家名称的翻译
- 货币名称的翻译,包括单/复数
- 完整和缩写形式的工作日、月份、时代、时段的翻译
- 时区和示例城市(或类似城市)的时区翻译
- 日历字段的翻译
- 用于格式化/解析日期或一天中的时间的模式
- 用于编写语言的示例字符集
- 格式化/解析数字的模式
- 适应语言的排序规则
- 在传统数字系统中格式化数字的规则(例如罗马数字、亚美尼亚数字 …)
- 将数字拼写为单词的规则
- 脚本之间音译的规则,其中很多是基于BGN / PCGN罗马化的
官方网址:CLDR - Unicode Common Locale Data Repository
英文维基百科介绍:Common Locale Data Repository
该项目每年提供两次版本更新,一次是4月份,一次是10月份。我这次是急着希望能获取最新Emoji 13.0的翻译,去github找到了最新开发版本:github-unicode-org/cldr,可以下载最新数据。
里面与Emoji有关的annotations数据是已经更新了,但annotationsDerived数据没有更新,还是与去年的一样,只有继续等待了。
除了Emoji网站可以利用其中一些翻译数据以外,还看到有国家下属子区域名称也有各种语言的翻译:subdivisions,可用的区域英文名称和代码:Territory Subdivisions,例如代码cnhb的中文简体(目前在yue_Hans.xml文件中)是“湖北”,可以考虑以后用到需要翻译国家下面一级或者两级子区域的网站,例如邮编库系列网站。
评论