去年開始啟動EmojiAll項目的時候,就在Unicode官方網站上找到權威的Emoji資料,隻是有些枯燥難啃。但在去年上半年初步用Emoji V12.0搭建網站、去年底更新到Emoji V12.1、今年初更新到Emoji V13.0的過程中,對Emoji Unicode的标準了解越來越多。
前段時間公司來了各種外語的實習生,我也去準備了Emoji Unicode标準的PPT給他們和同事講,所以把最難啃的那篇Unicode® Technical Standard #51 UNICODE EMOJI仔細閱讀、消化。
這裡面内容太多了,雖然看懂了也很難記住,所以這兩天在為網站添加各廠商(平台)Emoji圖片頁面的時候,需要了解Emoji的數量、排序、分類等,又回頭看了一些資料,幹脆把一些内容記錄在博客中:
關于Emoji的數量,各個版本不同,每年都會增加大約100多個,V13.0的确切數字是3304個,如下圖:
更多的解釋請看頁面:Emoji Counts, v13.0。
這3304個Emoji的排序是按照CLDR來進行的,請看文件:Emoji Ordering。我們在emoji_all這個數據庫表中專門添加了emoji_ordering字段,有效數字是1至3304。
這裡沒有考慮是否合格以及加上膚色修飾符後的情況,要查看包含主分類、子分類及非合格序列,請看文件:Emoji Test。該文件結尾的統計:
# Status Counts # fully-qualified : 3295 # minimally-qualified : 614 # unqualified : 250 # component : 9
可以看到3295+9=3304,Emoji的數量還是3304個。
而在官網的Emoji Ordering, v13.0這個頁面中,有主分類、子分類及排序的部分Emoji,不包含變體,數量是1814,我們在emoji_all這個數據庫表中專門添加了list number字段,有效數字是1至1814。
還有一個Emoji Ordering Rules的文件,我也還沒有完全搞懂是什麼含義、如何使用,好像是用于機器讀取的排序列表。
等以後有更多時間的時候,我再整理記錄更多的Emoji相關數據資料。
2020年9月21日補充:Emoji V13.0裡的1814個Emoji是3304中的哪些部分呢?我今天統計了一下,專門花了一張圖記錄:
總結規律,就是把3304個Emoji中與膚色變化相關的Emoji排除後的Emoji,共1814個。
评论