今年2月份我們就在EmojiAll網站上推出了Emoji關系圖,為每一個Emoji展示與其有關的其它Emoji。如果是人工來為每一個Emoji添加與其有關的其它Emoji将是一個很費力的事情,因此我們當時也使用了一些算法來解決,從多個數據源、不同的角度來分析出相關Emoji及遠近關系,在展示的時候也适當添加了第二級、第三級的關系,如下圖:
與Emoji标簽雲的算法類似,我們當時也是通過對大量推特數據進行分析統計後,獲取到Emoji之間的關系數據,不過純粹看這些數據的話,也感覺不是很準确,與人工來标注肯定是比較大質量差距的,因此我們用了多種數據來源綜合展示。
随着我們對人工智能算法的了解越來越多,近期我們用AI對标簽雲的算法進行了升級,随後也用AI算法對關系圖的算法進行了升級,運用機器學習對Emoji的關系進行了重新計算,下面是我用"面包 Emoji 🍞"為例子重新計算關系圖後的數據對比:
新處理出來的數據 | 以前處理出來的數據 |
🥖 |
🧀 |
可以看到,老的數據雖然匹配的數量更多一些,但新數據排在靠前的幾個Emoji明顯相關度更高,也就是說新數據的質量還更高一些。
我們這次改進的算法是把Emoji之間關系問題轉換為Emoji之間相似度的計算,為Emoji貼上标簽(參考《Emoji标簽雲中運用人工智能進行升級》),再根據這些标簽來計算Emoji之間的距離,越近表示相似度越高,也就是關系更緊密,算法流程如下圖所示:
這與以前的簡單統計兩個Emoji出現在同一條推文中的概率來得出的結論更合理、更準确。另外,這次計算的數據量也比以前大很多倍,從而保證數據更有代表性、結論更客觀。👍
另外還有一些加權統計、無效過濾、結果分析、反饋調整等,我們在這方面還是很下了功夫了,收獲應該也很大,以前沒有相關性數據的一些Emoji和Unicode字符,這次也計算出來了結果。✌️
目前隻在英文上使用了這種算法,按道理說,其它語言中Emoji含義會稍有不同,每種語言的關系圖應該都不一樣,但我們目前手頭上事情太多,還沒有來得及做其它語言數據的處理,不過算法上應該都掌握了,等以後有時間再安排。👌
评论