去年底我們就規劃了EmojiAll網站以後要做數據分析和可視化,2月份我們逐步推出了《Emoji排行榜》、《Emoji關系圖》、《Emoji标簽雲》幾個重要功能,這些在内容、設計等方面都有自己獨特的東西,其中SVG圖形技術運用也是為我們網站增色不少。✌️
而此後還有一項更“高端”的功能:Emoji情緒分析,我們一直在做。去年曾經有一位武漢大學在讀博士生與我們見面交流了Emoji方面的信息,她們是對Emoji的社會應用有研究,發表過相關學術論文。我們通過網上搜到國外一些大學也有類似研究和成果,通過大數據分析、人工智能來對社交媒體中的Emoji進行研究,有新意也有難度。
我們這邊的學統計的同學經過學習、摸索、實踐,網上下載到包含Emoji的Twitter語料庫,幾次修改才确定了算法,通過機器學習的辦法和已有人工标注的數據來對數千萬條推文數據進行訓練,最後得出數千個Emoji每個Emoji的積極情緒、消極情緒、中性情緒的百分比數值,并加上統計學上的置信度等數據,在Emoji的覆蓋數量、新Emoji的研究上超越了我們在網上查看到的類似成果。👍
我們沒有把這些數據簡單羅列,而是在陳列展示方式上也下了大力氣,從産品設計到美工設計經過反複構思、多輪商議、不斷細節完善,終于是在近期推出了Emoji情緒值的研究數據展示,例如在😍意思: 花癡這個頁面有下面的情緒值SVG圖:
情緒分析介紹可以展開文字:
Emoji情緒分析是指該emoji主要表達出的情感類别,它是我們對不少于5000萬條推特的公開樣本語料進行語言學分析和機器學習得出的較為準确的結果,有較高的學術參考意義。歡迎轉發,讨論和參考。版權所有©EmojiAll。用于商業用途,請與我們聯系
- 橙色: 消極情緒
- 黃色: 中性情緒
- 綠色: 積極情緒
- 灰色遊标:它是置信度,是統計學概念。
- 簡單點講,遊标越靠近左邊,該emoji表達出的情緒就越消極;遊标越靠近右邊,該emoji表達出的情緒就越積極。而遊标的寬度越窄就代表這個情緒的判斷越精确。
- 專業解釋: wikipedia
另外,我們還對Emoji出現在句子中的位置進行了分析
位置和頻率介紹可以展開文字:
Emoji位置和頻率是指該emoji經常出現在推文的什麼位置,以及在這些位置上出現的頻率。比如通過對😂的【位置和頻率】進行判斷分析,可以得知大家都喜歡把😂這個emoji用在句子的末尾。這個結論是我們對不少于五千萬條推特的公開樣本進行語言學分析和機器學習得出的較為準确的結果,有較高的學術參考意義。歡迎轉發,讨論和參考。版權所有©EmojiAll。用于商業用途,請與我們聯系
- X軸:表示當前emoji在推文中的位置
- Y軸:表示當前emoji在此位置出現的頻率
更多的可以查看:數千個Emoji 情緒分析列表。
這些内容發布到網上後不久我們就接到國内外幾個大學老師和學生的聯系,詢問是否能引用數據、算法原理及合作意向的。這方面确實還有很多可以擴展和挖掘的地方,我們會持續進行。
這幾天我們同事也專門寫了介紹文章,原文和配圖都是英文的:We Launched Sentiment Analysis of Emoji!,中文的介紹還在編輯校對:我們發布了Emoji情感分析。文章裡面有更多技術方面的解釋。
评论4
這個Emoji的情緒分析比較有意思。
這個Emoji的情緒分析比較有意思。 不過Emoji的情緒分析還是比較複雜的。樣本限制在了Twitter的推文,這是一個範圍,分析其他平台的數據,估計又會是不一樣的結果。 Emoji的使用分析應該屬于社會學方面吧,因平台、年齡、性别、地域、語言等不同,會存在差異,個别的差異會比較明顯。 國内、國外的社交平台都有發表過年度最受歡迎的表情包的數據報告,有共性,但差異也比較大。謝謝小魚的留言
謝謝小魚的留言,我們目前還隻是對英文中Emoji的使用進行了分析,而Twitter的推文是研究英文中Emoji最好的語料庫。中文的研究我們後續也有計劃去做,可能會選用不同平台的數據。這種分析确實屬于社會學、語言學的研究範疇,我們也是誤打誤撞就開始搞了,覺得會受到歡迎所以還是花了很多力氣,現在有了初步的成果出來,後面肯定還會繼續深入。
太厲害了,把表情研究到這個程度,太厲害了,不得不佩服佩服。
太厲害了,把表情研究到這個程度,太厲害了,不得不佩服佩服。 真正的深耕細作啊!現在做網站的門檻降低,同質化競争激烈
現在做網站的門檻降低,同質化競争激烈,隻有做出與衆不同的東西才能吸引用戶啊,另外,人工智能也是未來發展趨勢,在各個領域都可以有深度運用,我們這也是初步嘗試,未來肯定需要繼續精耕細作。