当前位置

通用语言环境数据仓库CLDR简介

James Qi 在 2020年2月18日 - 15:47 提交

  做多语言网站很多年了,翻译的办法以机器翻译+人工校对为主,去年在做EmojiAll这个网站的时候才发现还有个CLDR ,当时记录了一篇博客文章《Unicode的CLDR有Emoji翻译文字,但新版缺少了几十个》。这两天在更新Emoji 13.0的时候再次用到该语言翻译系统,特别记录如下。

  CLDR是Common Locale Data Repository的简称,可翻译为通用语言环境数据仓库,该项目提供一些常见信息的标准化翻译,由Unicode Consortium非盈利组织提供的XML格式语言数据,主要用于机器使用,计算机操作系统涉及到的很多信息都包含在内,例如:

  • 语言名称的翻译
  • 领土和国家名称的翻译
  • 货币名称的翻译,包括单/复数
  • 完整和缩写形式的工作日、月份、时代、时段的翻译
  • 时区和示例城市(或类似城市)的时区翻译
  • 日历字段的翻译
  • 用于格式化/解析日期或一天中的时间的模式
  • 用于编写语言的示例字符集
  • 格式化/解析数字的模式
  • 适应语言的排序规则
  • 在传统数字系统中格式化数字的规则(例如罗马数字、亚美尼亚数字 …)
  • 将数字拼写为单词的规则
  • 脚本之间音译的规则,其中很多是基于BGN / PCGN罗马化的

  官方网址:CLDR - Unicode Common Locale Data Repository

  英文维基百科介绍:Common Locale Data Repository

  该项目每年提供两次版本更新,一次是4月份,一次是10月份。我这次是急着希望能获取最新Emoji 13.0的翻译,去github找到了最新开发版本:github-unicode-org/cldr,可以下载最新数据

  里面与Emoji有关的annotations数据是已经更新了,但annotationsDerived数据没有更新,还是与去年的一样,只有继续等待了。

  除了Emoji网站可以利用其中一些翻译数据以外,还看到有国家下属子区域名称也有各种语言的翻译:subdivisions,可用的区域英文名称和代码:Territory Subdivisions,例如代码cnhb的中文简体(目前在yue_Hans.xml文件中)是“湖北”,可以考虑以后用到需要翻译国家下面一级或者两级子区域的网站,例如邮编库系列网站

自由标签:

添加新评论

Plain text

  • 不允许使用HTML标签。
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。