我们从2019年开始做emojiall.com这个网站,我对于汉字和Emoji之间的转换很感兴趣,在网上没有找到其他人做这项工作,我们就自己来做,虽然工作量很大,这是我2019年8月记录的《独创:汉字转Emoji的功能》,以及后续又记录了几篇:
可以看出我们在汉字转Emoji方面还是投入很大人力物力来做了不少工作的。
不过这只是每个汉字对应一个Emoji,也算不上很智能,所以我们也曾经考虑过词组、梗、句子、段落转Emoji的事情,以及考察过英语等其它语种文字转Emoji的事情,只在Github上找到几个简易的项目以及几个功能不太理想的网站,后来看到Yandex有推出他们的Emoji翻译器,才算是一个看得过去的产品。
Yandex Translate是一个与Google Translate类似的多语种翻译工具,提供几十种语言之间的互译,而且提供了Emoji与这几十种语言之间的互译,我们使用中发现虽然远谈不上完美,也还是有些意思的。
我们自己对于是否做一个Emoji翻译器一直拿不定主意,做个不太完美的觉得意义不大,要做完美的似乎不可能(因为Emoji本来就不能称为一个完备的语言)。以前搞算法的同事做过一些研究和摸索,今年暑假又安排学计算机的实习同学来继续做这项工作。
经过一段时间的商议、探索、开发、集成,现在终于是拿出了一个多语言的Emoji翻译器产品:
- Emoji翻译器 (将简体中文翻译成Emoji)
- Emoji翻译器 (将Emoji翻译成简体中文)
- Emoji Translator (Translate English To Emoji)
- Emoji Translator (Translate Emoji To English)
文字翻译成Emoji功能支持40多种语言,Emoji翻译成文字支持20多种语言。
这里面用到一些机器学习模型、数据整理清洗、网站接口集成等技术,算法方式经历了从简单到复杂、再从复杂到简单的过程,以最终用户感受为基准,综合考虑实现难度、时间要求、算力可能等因素,能做出目前的程度也算事不错了。
关键是这也是我们自己原创的产品,可以看看一个翻译的效果:
谈不上完美,但也有点意思,还有更多的例子大家可以按照上面的链接自己去体会试一试。
另外,这个功能也还有不少地方可以改进的,我们现在正在人工来处理一部分数据,以及以后根据用户使用的数据再来进行优化。
评论