去年底我们就规划了EmojiAll网站以后要做数据分析和可视化,2月份我们逐步推出了《Emoji排行榜》、《Emoji关系图》、《Emoji标签云》几个重要功能,这些在内容、设计等方面都有自己独特的东西,其中SVG图形技术运用也是为我们网站增色不少。✌️
而此后还有一项更“高端”的功能:Emoji情绪分析,我们一直在做。去年曾经有一位武汉大学在读博士生与我们见面交流了Emoji方面的信息,她们是对Emoji的社会应用有研究,发表过相关学术论文。我们通过网上搜到国外一些大学也有类似研究和成果,通过大数据分析、人工智能来对社交媒体中的Emoji进行研究,有新意也有难度。
我们这边的学统计的同学经过学习、摸索、实践,网上下载到包含Emoji的Twitter语料库,几次修改才确定了算法,通过机器学习的办法和已有人工标注的数据来对数千万条推文数据进行训练,最后得出数千个Emoji每个Emoji的积极情绪、消极情绪、中性情绪的百分比数值,并加上统计学上的置信度等数据,在Emoji的覆盖数量、新Emoji的研究上超越了我们在网上查看到的类似成果。👍
我们没有把这些数据简单罗列,而是在陈列展示方式上也下了大力气,从产品设计到美工设计经过反复构思、多轮商议、不断细节完善,终于是在近期推出了Emoji情绪值的研究数据展示,例如在😍意思: 花痴这个页面有下面的情绪值SVG图:
情绪分析介绍可以展开文字:
Emoji情绪分析是指该emoji主要表达出的情感类别,它是我们对不少于5000万条推特的公开样本语料进行语言学分析和机器学习得出的较为准确的结果,有较高的学术参考意义。欢迎转发,讨论和参考。版权所有©EmojiAll。用于商业用途,请与我们联系
- 橙色: 消极情绪
- 黄色: 中性情绪
- 绿色: 积极情绪
- 灰色游标:它是置信度,是统计学概念。
- 简单点讲,游标越靠近左边,该emoji表达出的情绪就越消极;游标越靠近右边,该emoji表达出的情绪就越积极。而游标的宽度越窄就代表这个情绪的判断越精确。
- 专业解释: wikipedia
另外,我们还对Emoji出现在句子中的位置进行了分析
位置和频率介绍可以展开文字:
Emoji位置和频率是指该emoji经常出现在推文的什么位置,以及在这些位置上出现的频率。比如通过对😂的【位置和频率】进行判断分析,可以得知大家都喜欢把😂这个emoji用在句子的末尾。这个结论是我们对不少于五千万条推特的公开样本进行语言学分析和机器学习得出的较为准确的结果,有较高的学术参考意义。欢迎转发,讨论和参考。版权所有©EmojiAll。用于商业用途,请与我们联系
- X轴:表示当前emoji在推文中的位置
- Y轴:表示当前emoji在此位置出现的频率
更多的可以查看:数千个Emoji 情绪分析列表。
这些内容发布到网上后不久我们就接到国内外几个大学老师和学生的联系,询问是否能引用数据、算法原理及合作意向的。这方面确实还有很多可以扩展和挖掘的地方,我们会持续进行。
这几天我们同事也专门写了介绍文章,原文和配图都是英文的:We Launched Sentiment Analysis of Emoji!,中文的介绍还在编辑校对:我们发布了Emoji情感分析。文章里面有更多技术方面的解释。
评论4
这个Emoji的情绪分析比较有意思。
这个Emoji的情绪分析比较有意思。 不过Emoji的情绪分析还是比较复杂的。样本限制在了Twitter的推文,这是一个范围,分析其他平台的数据,估计又会是不一样的结果。 Emoji的使用分析应该属于社会学方面吧,因平台、年龄、性别、地域、语言等不同,会存在差异,个别的差异会比较明显。 国内、国外的社交平台都有发表过年度最受欢迎的表情包的数据报告,有共性,但差异也比较大。谢谢小鱼的留言
谢谢小鱼的留言,我们目前还只是对英文中Emoji的使用进行了分析,而Twitter的推文是研究英文中Emoji最好的语料库。中文的研究我们后续也有计划去做,可能会选用不同平台的数据。这种分析确实属于社会学、语言学的研究范畴,我们也是误打误撞就开始搞了,觉得会受到欢迎所以还是花了很多力气,现在有了初步的成果出来,后面肯定还会继续深入。
太厉害了,把表情研究到这个程度,太厉害了,不得不佩服佩服。
太厉害了,把表情研究到这个程度,太厉害了,不得不佩服佩服。 真正的深耕细作啊!现在做网站的门槛降低,同质化竞争激烈
现在做网站的门槛降低,同质化竞争激烈,只有做出与众不同的东西才能吸引用户啊,另外,人工智能也是未来发展趋势,在各个领域都可以有深度运用,我们这也是初步尝试,未来肯定需要继续精耕细作。