我們從2019年開始做emojiall.com這個網站,我對于漢字和Emoji之間的轉換很感興趣,在網上沒有找到其他人做這項工作,我們就自己來做,雖然工作量很大,這是我2019年8月記錄的《獨創:漢字轉Emoji的功能》,以及後續又記錄了幾篇:
可以看出我們在漢字轉Emoji方面還是投入很大人力物力來做了不少工作的。
不過這隻是每個漢字對應一個Emoji,也算不上很智能,所以我們也曾經考慮過詞組、梗、句子、段落轉Emoji的事情,以及考察過英語等其它語種文字轉Emoji的事情,隻在Github上找到幾個簡易的項目以及幾個功能不太理想的網站,後來看到Yandex有推出他們的Emoji翻譯器,才算是一個看得過去的産品。
Yandex Translate是一個與Google Translate類似的多語種翻譯工具,提供幾十種語言之間的互譯,而且提供了Emoji與這幾十種語言之間的互譯,我們使用中發現雖然遠談不上完美,也還是有些意思的。
我們自己對于是否做一個Emoji翻譯器一直拿不定主意,做個不太完美的覺得意義不大,要做完美的似乎不可能(因為Emoji本來就不能稱為一個完備的語言)。以前搞算法的同事做過一些研究和摸索,今年暑假又安排學計算機的實習同學來繼續做這項工作。
經過一段時間的商議、探索、開發、集成,現在終于是拿出了一個多語言的Emoji翻譯器産品:
- Emoji翻譯器 (将簡體中文翻譯成Emoji)
- Emoji翻譯器 (将Emoji翻譯成簡體中文)
- Emoji Translator (Translate English To Emoji)
- Emoji Translator (Translate Emoji To English)
文字翻譯成Emoji功能支持40多種語言,Emoji翻譯成文字支持20多種語言。
這裡面用到一些機器學習模型、數據整理清洗、網站接口集成等技術,算法方式經曆了從簡單到複雜、再從複雜到簡單的過程,以最終用戶感受為基準,綜合考慮實現難度、時間要求、算力可能等因素,能做出目前的程度也算事不錯了。
關鍵是這也是我們自己原創的産品,可以看看一個翻譯的效果:
談不上完美,但也有點意思,還有更多的例子大家可以按照上面的鍊接自己去體會試一試。
另外,這個功能也還有不少地方可以改進的,我們現在正在人工來處理一部分數據,以及以後根據用戶使用的數據再來進行優化。
评论