做多語言網站很多年了,翻譯的辦法以機器翻譯+人工校對為主,去年在做EmojiAll這個網站的時候才發現還有個CLDR ,當時記錄了一篇博客文章《Unicode的CLDR有Emoji翻譯文字,但新版缺少了幾十個》。這兩天在更新Emoji 13.0的時候再次用到該語言翻譯系統,特别記錄如下。
CLDR是Common Locale Data Repository的簡稱,可翻譯為通用語言環境數據倉庫,該項目提供一些常見信息的标準化翻譯,由Unicode Consortium非盈利組織提供的XML格式語言數據,主要用于機器使用,計算機操作系統涉及到的很多信息都包含在内,例如:
- 語言名稱的翻譯
- 領土和國家名稱的翻譯
- 貨币名稱的翻譯,包括單/複數
- 完整和縮寫形式的工作日、月份、時代、時段的翻譯
- 時區和示例城市(或類似城市)的時區翻譯
- 日曆字段的翻譯
- 用于格式化/解析日期或一天中的時間的模式
- 用于編寫語言的示例字符集
- 格式化/解析數字的模式
- 适應語言的排序規則
- 在傳統數字系統中格式化數字的規則(例如羅馬數字、亞美尼亞數字 …)
- 将數字拼寫為單詞的規則
- 腳本之間音譯的規則,其中很多是基于BGN / PCGN羅馬化的
官方網址:CLDR - Unicode Common Locale Data Repository
英文維基百科介紹:Common Locale Data Repository
該項目每年提供兩次版本更新,一次是4月份,一次是10月份。我這次是急着希望能獲取最新Emoji 13.0的翻譯,去github找到了最新開發版本:github-unicode-org/cldr,可以下載最新數據。
裡面與Emoji有關的annotations數據是已經更新了,但annotationsDerived數據沒有更新,還是與去年的一樣,隻有繼續等待了。
除了Emoji網站可以利用其中一些翻譯數據以外,還看到有國家下屬子區域名稱也有各種語言的翻譯:subdivisions,可用的區域英文名稱和代碼:Territory Subdivisions,例如代碼cnhb的中文簡體(目前在yue_Hans.xml文件中)是“湖北”,可以考慮以後用到需要翻譯國家下面一級或者兩級子區域的網站,例如郵編庫系列網站。
评论