Emoji是一个“可玩性”很高的领域,我们在几年前招聘了一批计算机专业的实习同学使用人工智能为我们开发了Emoji翻译器、Emoji图像融合两个功能,想法很领先,但说实话效果很一般,Emoji与文字之间的双向翻译很智障,Emoji融合图片也很难看。最近几年生成式AI突飞猛进,技术门槛下降了很多,最近我们对以前的这些项目进行了改进甚至重构。
Emoji翻译器的改进请看《升级以前的Emoji翻译器》这篇博客文章,升级后的双向翻译智能程度解决正常人类的水平。
2年前的老版本Emoji融合
记得2022年夏季做Emoji图像融合的两位实习同学都是CV方向的研究生,在学校跟着导师做医学图像识别方面的项目,而我们的要求是生成图片,两者还是有比较大差异的,我们本来还想着图像、视频方面更多需求(图像渐变融合、文字转图片、图片转图片、二个Emoji合成有创意的图片、视频迁移等),但限于时间和能力,那个暑假就做“二个Emoji合成有创意的图片”这一个项目,也就是我们现在说的Emoji融合。
刚开始他们也进行了好些研究探讨,了解的技术:
前期探索——图像生成领域的另外方法:文字转图片-扩散模型相关、扩散模型其他相关论文、图像生成图像-GAN相关(详细列表这里略去)。
最后他们采取的大致思路是输入两张图片通过训练好的encoder模型转换为latent code,将两张图片的latent code通过插值算法进行融合地址:fusion,再将这个融合好的latent code送入训练好的styleGAN2模型,最终根据两张图“占比权重”输出融合好的9张图片。
公司内PC上的独立显卡GPU比较低端,用于训练速度太慢,我们就在测试和实施过程中购买了阿里云上的GPU算力,经过一段时间的调试、训练,最后出来的图片效果不太好,差一点无法完成上线,后来商议采取一些折中办法(包括人工进行一些挑选)后算是能拿出一些融合的图片来,改版前的截图如下:
Emoji融合输入的Emoji和图片:
Emoji融合的点赞排行榜:
可以看出融合后的图片并不能很好体现各种特点,更难以出现新的创意,图片质量也差,这与我们最初的想法是相差很大的,但限于当时的技术也只好勉强上线,后来看访问数据,这个栏目的访问量也很小。
现在的新版本Emoji融合
所以我们这次在改版的时候选择了彻底放弃以前的内容,除了网址、标题以外,内容进行了全新改造,为了便于与以前做对比,我们第一批使用了原来输入的59个Emoji,这样两两组合下来生成3000多个图片,新的AI技术生成的图片在创意、美观方面与以前有了天壤之别,请看几个例子:
蝎子🦂+小丑🤡 =小丑脸的蝎子 外星人👽+羊🐑 =有着外星人特征的羊 牛油果🥑+南瓜🎃 =牛油果的核变成了南瓜 大熊猫🐼+口罩脸😷 =带口罩的大熊猫
是不是看起来创意十足😄再提供一些小图片给大家看看吧:
我们新版的Emoji融合图片提供了800x800和160x160两种尺寸的下载,图片右上角放上去了对应的两个用于融合的Emoji,方便对照。
以前Google有个Emoji Kitchen项目,人工设计师对一些挑选的Emoji组合绘制创意图片,一部分融合出来的图片还是非常不错的,我们EmojiAll网站中有一篇博客文章《⌨️Emoji合成器的图源竟然是它?! 表情符号新玩法~》介绍有人使用Emoji Kitchen提供的内容来做网站和app的情况。这个Emoji Kitchen的输入Emoji刚开始不多,后面逐步增加,现在我去看有1253x1253之多,但不是所有都可以组合出来,而且有些组合出来的效果明显下降,甚至连最基本的拼凑工作都没有做好。
我们自己算了一下,如果真要计算两两组合的可能性,1900多个基本Emoji最后就要形成数百万种融合图片,人类设计师的成本太昂贵了!不过有了生成式AI以后,再多种组合都成了有可能,我们目前生成了59x59的3000多种,下一步在训练200多x200多的5万多种,这个过程还是很有挑战的,等着我们逐步来实现、放开访问吧。
我们最新改版的Emoji融合页面下方放置了排行榜,按照大家点赞的多少来排列:
欢迎体验
上面写了这么多、摘录了一些图片,不如大家自己来实际用一下:
评论