通用语言环境数据仓库CLDR简介

由 James Qi, 2020年2月18日

　　做多语言网站很多年了，翻译的办法以机器翻译+人工校对为主，去年在做EmojiAll这个网站的时候才发现还有个CLDR ，当时记录了一篇博客文章《Unicode的CLDR有Emoji翻译文字，但新版缺少了几十个》。这两天在更新Emoji 13.0的时候再次用到该语言翻译系统，特别记录如下。

　　CLDR是Common Locale Data Repository的简称，可翻译为通用语言环境数据仓库，该项目提供一些常见信息的标准化翻译，由Unicode Consortium非盈利组织提供的XML格式语言数据，主要用于机器使用，计算机操作系统涉及到的很多信息都包含在内，例如：

语言名称的翻译
领土和国家名称的翻译
货币名称的翻译，包括单/复数
完整和缩写形式的工作日、月份、时代、时段的翻译
时区和示例城市（或类似城市）的时区翻译
日历字段的翻译
用于格式化/解析日期或一天中的时间的模式
用于编写语言的示例字符集
格式化/解析数字的模式
适应语言的排序规则
在传统数字系统中格式化数字的规则（例如罗马数字、亚美尼亚数字 …）
将数字拼写为单词的规则
脚本之间音译的规则，其中很多是基于BGN / PCGN罗马化的

　　官方网址：CLDR - Unicode Common Locale Data Repository

　　英文维基百科介绍：Common Locale Data Repository

　　该项目每年提供两次版本更新，一次是4月份，一次是10月份。我这次是急着希望能获取最新Emoji 13.0的翻译，去github找到了最新开发版本：github-unicode-org/cldr，可以下载最新数据。

　　里面与Emoji有关的annotations数据是已经更新了，但annotationsDerived数据没有更新，还是与去年的一样，只有继续等待了。

　　除了Emoji网站可以利用其中一些翻译数据以外，还看到有国家下属子区域名称也有各种语言的翻译：subdivisions，可用的区域英文名称和代码：Territory Subdivisions，例如代码cnhb的中文简体（目前在yue_Hans.xml文件中）是“湖北”，可以考虑以后用到需要翻译国家下面一级或者两级子区域的网站，例如邮编库系列网站。

自由标签

CLDR

翻译

您的名字

验证码

此问题用于测试您是否是人类访问者并防止自动提交垃圾信息。

评论

Plain text

通用语言环境数据仓库CLDR简介

评论

Plain text

站内搜索