Emoji是一個“可玩性”很高的領域,我們在幾年前招聘了一批計算機專業的實習同學使用人工智能為我們開發了Emoji翻譯器、Emoji圖像融合兩個功能,想法很領先,但說實話效果很一般,Emoji與文字之間的雙向翻譯很智障,Emoji融合圖片也很難看。最近幾年生成式AI突飛猛進,技術門檻下降了很多,最近我們對以前的這些項目進行了改進甚至重構。
Emoji翻譯器的改進請看《升級以前的Emoji翻譯器》這篇博客文章,升級後的雙向翻譯智能程度解決正常人類的水平。
2年前的老版本Emoji融合
記得2022年夏季做Emoji圖像融合的兩位實習同學都是CV方向的研究生,在學校跟着導師做醫學圖像識别方面的項目,而我們的要求是生成圖片,兩者還是有比較大差異的,我們本來還想着圖像、視頻方面更多需求(圖像漸變融合、文字轉圖片、圖片轉圖片、二個Emoji合成有創意的圖片、視頻遷移等),但限于時間和能力,那個暑假就做“二個Emoji合成有創意的圖片”這一個項目,也就是我們現在說的Emoji融合。
剛開始他們也進行了好些研究探讨,了解的技術:
前期探索——圖像生成領域的另外方法:文字轉圖片-擴散模型相關、擴散模型其他相關論文、圖像生成圖像-GAN相關(詳細列表這裡略去)。
最後他們采取的大緻思路是輸入兩張圖片通過訓練好的encoder模型轉換為latent code,将兩張圖片的latent code通過插值算法進行融合地址:fusion,再将這個融合好的latent code送入訓練好的styleGAN2模型,最終根據兩張圖“占比權重”輸出融合好的9張圖片。
公司内PC上的獨立顯卡GPU比較低端,用于訓練速度太慢,我們就在測試和實施過程中購買了阿裡雲上的GPU算力,經過一段時間的調試、訓練,最後出來的圖片效果不太好,差一點無法完成上線,後來商議采取一些折中辦法(包括人工進行一些挑選)後算是能拿出一些融合的圖片來,改版前的截圖如下:
Emoji融合輸入的Emoji和圖片:
Emoji融合的點贊排行榜:
可以看出融合後的圖片并不能很好體現各種特點,更難以出現新的創意,圖片質量也差,這與我們最初的想法是相差很大的,但限于當時的技術也隻好勉強上線,後來看訪問數據,這個欄目的訪問量也很小。
現在的新版本Emoji融合
所以我們這次在改版的時候選擇了徹底放棄以前的内容,除了網址、标題以外,内容進行了全新改造,為了便于與以前做對比,我們第一批使用了原來輸入的59個Emoji,這樣兩兩組合下來生成3000多個圖片,新的AI技術生成的圖片在創意、美觀方面與以前有了天壤之别,請看幾個例子:
蠍子🦂+小醜🤡 =小醜臉的蠍子 外星人👽+羊🐑 =有着外星人特征的羊 牛油果🥑+南瓜🎃 =牛油果的核變成了南瓜 大熊貓🐼+口罩臉😷 =帶口罩的大熊貓
是不是看起來創意十足😄再提供一些小圖片給大家看看吧:
我們新版的Emoji融合圖片提供了800x800和160x160兩種尺寸的下載,圖片右上角放上去了對應的兩個用于融合的Emoji,方便對照。
以前Google有個Emoji Kitchen項目,人工設計師對一些挑選的Emoji組合繪制創意圖片,一部分融合出來的圖片還是非常不錯的,我們EmojiAll網站中有一篇博客文章《⌨️Emoji合成器的圖源竟然是它?! 表情符号新玩法~》介紹有人使用Emoji Kitchen提供的内容來做網站和app的情況。這個Emoji Kitchen的輸入Emoji剛開始不多,後面逐步增加,現在我去看有1253x1253之多,但不是所有都可以組合出來,而且有些組合出來的效果明顯下降,甚至連最基本的拼湊工作都沒有做好。
我們自己算了一下,如果真要計算兩兩組合的可能性,1900多個基本Emoji最後就要形成數百萬種融合圖片,人類設計師的成本太昂貴了!不過有了生成式AI以後,再多種組合都成了有可能,我們目前生成了59x59的3000多種,下一步在訓練200多x200多的5萬多種,這個過程還是很有挑戰的,等着我們逐步來實現、放開訪問吧。
我們最新改版的Emoji融合頁面下方放置了排行榜,按照大家點贊的多少來排列:
歡迎體驗
上面寫了這麼多、摘錄了一些圖片,不如大家自己來實際用一下:
评论