您在這裡

Emoji關系圖中運用人工智能進行升級

James Qi 在 2021年9月18日 - 12:16 發表

今年2月份我們就在EmojiAll網站上推出了Emoji關系圖,為每一個Emoji展示與其有關的其它Emoji。如果是人工來為每一個Emoji添加與其有關的其它Emoji将是一個很費力的事情,因此我們當時也使用了一些算法來解決,從多個數據源、不同的角度來分析出相關Emoji及遠近關系,在展示的時候也适當添加了第二級、第三級的關系,如下圖:

Emoji标簽雲的算法類似,我們當時也是通過對大量推特數據進行分析統計後,獲取到Emoji之間的關系數據,不過純粹看這些數據的話,也感覺不是很準确,與人工來标注肯定是比較大質量差距的,因此我們用了多種數據來源綜合展示。

随着我們對人工智能算法的了解越來越多,近期我們用AI對标簽雲的算法進行了升級,随後也用AI算法對關系圖的算法進行了升級,運用機器學習對Emoji的關系進行了重新計算,下面是我用"面包 Emoji 🍞"為例子重新計算關系圖後的數據對比:

新處理出來的數據 以前處理出來的數據

🥖
🥐
🥙
🍳
🥯
🥪
👩‍🍳
🧀
🍕
🥓
🥧
🍪
🥨
🥞
🧁
🍔
😋
🍗
🍴
🍰
🥕
🥗
🥩
🍽
🥛
🍓
🧈
👨‍🍳

🧀
🥞
🌶
🍕
🍳
🍔
🍗
👀
👅
😋
🥓
🍓
🥖
🥐
💤
🍰
🍟
💕
🍫
🍌
🍝
🍪
😂
😊
🍉
🥛
🍍
🔥
🍒
🍣
🍦
🍎
🍯
🐰
🍖
🍱
🍲
🍩
🍋
🍛
🍊
🍇
💯
🍅
🍤
🍚
🍢
🍷
🍄

可以看到,老的數據雖然匹配的數量更多一些,但新數據排在靠前的幾個Emoji明顯相關度更高,也就是說新數據的質量還更高一些。

我們這次改進的算法是把Emoji之間關系問題轉換為Emoji之間相似度的計算,為Emoji貼上标簽(參考《Emoji标簽雲中運用人工智能進行升級》),再根據這些标簽來計算Emoji之間的距離,越近表示相似度越高,也就是關系更緊密,算法流程如下圖所示:

這與以前的簡單統計兩個Emoji出現在同一條推文中的概率來得出的結論更合理、更準确。另外,這次計算的數據量也比以前大很多倍,從而保證數據更有代表性、結論更客觀。👍

另外還有一些加權統計、無效過濾、結果分析、反饋調整等,我們在這方面還是很下了功夫了,收獲應該也很大,以前沒有相關性數據的一些Emoji和Unicode字符,這次也計算出來了結果。✌️

目前隻在英文上使用了這種算法,按道理說,其它語言中Emoji含義會稍有不同,每種語言的關系圖應該都不一樣,但我們目前手頭上事情太多,還沒有來得及做其它語言數據的處理,不過算法上應該都掌握了,等以後有時間再安排。👌

發表新回應

Plain text

  • 不允許使用 HTML 標籤。
  • 自動將網址與電子郵件地址轉變為連結。
  • 自動斷行和分段。