去年开始启动EmojiAll项目的时候,就在Unicode官方网站上找到权威的Emoji资料,只是有些枯燥难啃。但在去年上半年初步用Emoji V12.0搭建网站、去年底更新到Emoji V12.1、今年初更新到Emoji V13.0的过程中,对Emoji Unicode的标准了解越来越多。
前段时间公司来了各种外语的实习生,我也去准备了Emoji Unicode标准的PPT给他们和同事讲,所以把最难啃的那篇Unicode® Technical Standard #51 UNICODE EMOJI仔细阅读、消化。
这里面内容太多了,虽然看懂了也很难记住,所以这两天在为网站添加各厂商(平台)Emoji图片页面的时候,需要了解Emoji的数量、排序、分类等,又回头看了一些资料,干脆把一些内容记录在博客中:
关于Emoji的数量,各个版本不同,每年都会增加大约100多个,V13.0的确切数字是3304个,如下图:
更多的解释请看页面:Emoji Counts, v13.0。
这3304个Emoji的排序是按照CLDR来进行的,请看文件:Emoji Ordering。我们在emoji_all这个数据库表中专门添加了emoji_ordering字段,有效数字是1至3304。
这里没有考虑是否合格以及加上肤色修饰符后的情况,要查看包含主分类、子分类及非合格序列,请看文件:Emoji Test。该文件结尾的统计:
# Status Counts # fully-qualified : 3295 # minimally-qualified : 614 # unqualified : 250 # component : 9
可以看到3295+9=3304,Emoji的数量还是3304个。
而在官网的Emoji Ordering, v13.0这个页面中,有主分类、子分类及排序的部分Emoji,不包含变体,数量是1814,我们在emoji_all这个数据库表中专门添加了list number字段,有效数字是1至1814。
还有一个Emoji Ordering Rules的文件,我也还没有完全搞懂是什么含义、如何使用,好像是用于机器读取的排序列表。
等以后有更多时间的时候,我再整理记录更多的Emoji相关数据资料。
2020年9月21日补充:Emoji V13.0里的1814个Emoji是3304中的哪些部分呢?我今天统计了一下,专门花了一张图记录:
总结规律,就是把3304个Emoji中与肤色变化相关的Emoji排除后的Emoji,共1814个。
评论