分析:“昆山反杀案”中微博用户的情绪传播

15天0基础极速入门数据分析,掌握一套数据分析流程和方法,学完就能写一份数据报告!了解一下>>

本文笔者将对微博上,“昆山反杀案”事件发展过程中,用户的情感变化进行分析和通过图标可视化,从中分析出舆论传播过程中用户情感传播特征以及寻找出情感传染的规律。

一、摘 要

随着社交平台的发展与普及,微博逐渐成为网民表达态度、发表意见以及进行深入互动的重要平台。

微博用户社会参与程度不断加深,其情绪传染与现实公共事件有关,而情绪积累与传染可能引发大规模群体事件。因此,有必要对微博情感进行分析,判断用户情感类型,分析情感传播特征继而找寻情感传染规律。

本研究对“昆山反杀案”微博进行情感分析与可视化,发现:用户评论的高频情感词,尤其是处于中心位置的情感词集合,反映网络舆情事件的主导情感基调,而高频词呈现出更加主观的态度或观点,能反映用户对整个事件的自身真实情绪与主观性评价。

用户情感与事件基调走势呈一致性,情感传染呈明显聚类现象。微博用户影响力越强其情绪传染效果越明显,在一定程度上主导着网络舆论的发展方向。

二、研究背景与问题的提出

据中国互联网报告(CNNIC)统计:截至2018年6月,我国网民规模达8.02亿,互联网普及率为57.7%;2018年上半年新增网民2968万人,较2017年末增长3.8%;在移动互联网市场,微博用户增长迅速,手机微博用户使用率达40.1%,较2017年末增长2.1个百分点,用户规模半年增长10.2%。

[1]随着社交平台的普及,微博凭借其表达的公共性、即时性、社交化和内容的简短化,已成为网民最常用于进行表达意见、情感的平台。微博内容中的情感元素也开始受到了越来越多研究者的关注。

针对微博的情感分析一般是以微博作为数据来源,挖掘和分析当中的主观信息以判断文本内容显示出的情感倾向。

目前,国内关于微博情感分析分类方法是按其粒度划分为粗粒度和细粒度情感分析两大类。粗粒度的情感分析主要是基于篇章级和句子级,而且在分析过程中仅考虑情感词,并未考虑评价对象及其属性的情感;细粒度的情感分析一般指词汇级情感分析[2],对情感进行分类是细粒度情感分析的重要方面之一。

学者们利用众多角度和方法对微博上的情感进行细粒度地分类,形成了各种“情感词库”。

  • 潘明慧和牛耘基于词典的规则识别微博所表达的喜、哀、怒、惧、恶、惊六种情绪[3];
  • 王志涛等在40万条新浪微博数据中对新词进行挖掘和情感识别,构建了新情感词词典,扩充了已有的情感词资源[4];
  • 张珊等将目光转向其他表达情感的情感元素的词典构建上,利用微博中的表情图片并结合情感词语的方法构建了中文微博情感语料库[5];
  • 无独有偶,王远文等将表情情感词典反作用于对应的微博文本,重新度量其情感词的倾向值,改进现有的情感词典[6];
  • 敦欣卉等在对微博进行细粒度分类时将情感分成八个类别[7],同时还有不少学者以“喜怒哀乐”为基础对情感做了细致分类,不断提高对情感分类的科学性和丰富性。

除此之外,互联网平台的交互性和开放性,使这些情绪大规模传染成为可能。

学者们提供大量的证据说明人类倾向于模仿周围人的面部表情、语言表达、动作及行为,在这一过程中,主体的情绪体验会受到自身面部表情以及其他非语言线索影响[8]。在社交网络上,人们接触带有情感倾向内容时,会对情感产生反馈,如共鸣、强化或者分歧等。

现有的研究表明Facebook、twitter两大国外主流社交平台都存在情绪传染现象:例如Kramer等通过检查Facebook状态更新来研究大规模情绪感染现象,发现在用户发布带有情感倾向的新动态后,他们的朋友更有可能发布带有相同情绪的内容。张少群[9]等对十万多个twitter用户情绪与时间序列进行分析,验证了在twitter平台用户们的情绪既会被熟人的情绪所传染,也会被非熟人的情绪所传染[10]。

快乐、悲伤、抑郁等基本情绪传染现象也受到学者们关注,不同情绪的唤起与传染特征也有所不同。

以“快乐”这一情绪为例,当内外刺激满足个体需要时,个体就会产生积极的情绪[11]。而同性之间更容易察觉出对方的快乐,而在情绪发生传染时,女性的快乐程度比男性要低,而处在其社交网络中心的人快乐程度要比处于社交网络中心边缘的人群要高[12]。

“孤独感”是学者们关注较多的情绪之一,有分析表明:孤独情绪往往产生在集群中,朋友越少的人往往越感到孤独,而女性受到孤独情绪传染比例和程度均比男性要高[13]。

学者对比发现:抑郁、孤独和愤怒等负向情绪比愉快、兴奋等正向情绪更容易传播[14],徐翔等对今日头条帖子及评论进行分析,发现内疚、惊骇、失望、哀痛、遗憾、悲伤等负面情绪传播效果较好,而带有同情、喜爱、赞扬、安心、快乐等情感传染效果较差[15]。

尽管当下关于微博情感分析的研究不少,但大部分研究都将“情感分类模型” 和“情绪传染机制”作为研究目标,旨在提高微博当中情感词的提取效率和准确度,以及对微博情感的时序变化作出描述,在对特定的情感或情绪在公共事件中的唤起、传播机制的研究仍然存在一定的空白。

基于以上研究,我们提出:

  1. 微博用户情感是如何分布的?高频情感词出现的原因?情感词情感基调与事件本身的关系是什么?
  2. 微博用户情绪是如何传播的?是广播式传播还是病毒式传播?
  3. 微博用户情绪传染是否具有某种规律?情绪是否有聚类现象?相同情感是否会收到同样的情感回馈?强影响力微博用户是否具有更强的情感传染力?

三、研究思路与方法

2018年8月27日,刘海龙醉酒驾驶宝马轿车强行闯入非机动车道,与正常骑自行车的于海明险些碰擦,双方遂发生争执。刘海龙持刀砍向于海明,随后被于海明夺刀并追砍,刘海龙经抢救无效死亡。

该事件视频在微博曝光后,引起了全网民的关注与讨论,基于朴素的正义感,多数民众本能地支持于海明,也有一些法律界人士从法理角度论证于海明“杀人”行为的非正当性。

与此同时,有不少网民对刘海龙的涉黑背景却曾被昆山市授予“见义勇为奖”等表达了对政府公信力的质疑,网民复杂情绪不断扩展。9月1日,昆山警方和检察机关相继发出通报,称于海明行为属正当防卫,无需承担刑事责任,网民又形成一致“叫好” 的声音。

“昆山反杀案”发生与审理过程经历了一个完整生命周期,集合了网民“恶”、“喜”、“厌”、“好”等多种情绪,能够真实还原网民的情绪反应。

本研究以 “昆山反杀案”微博为数据基础,基于词典匹配的情感分析方法,即通过匹配情感词典,确定给定文本中积极情感词和消极情感词比例,或对不同情绪类别(如高兴、伤心、愤怒、喜悦等)进行加总,从而判定给定文本的基本情感, 并对情感类型进行判断和识别[16],进而考察情绪传播的特征与规律。

本文主要结合了以下两种研究方法来开展研究工作,具体包括:

  1. 网络科学方法:将微博系统中用户转发关系抽象成网络科学中的节点和连边,进而构建用户情感传染网络以及单条微博的传播级联树,这种方式的好处在于使得我们能够透过显现看本质,通过对具体实际网络的拓扑性质分析来得到情绪传播的规律。
  2. 情感挖掘方法与技术:本文使用Python语言中Pandas框架进行数据的分析和处理,并使用基于情感词典的方法来分析情感,以及使用Matplotlib和Pyecharts这两种绘图库对分析的结果进行可视化,并基于Anaconda软件中的Spyder进行代码的编写和调试。

四、数据处理过程

1. 情感分析流程

本文使用大连理工大学中文情感词汇本体库[17]来进行情感分析。

中文情感词汇本体的情感分类体系是在国外比较有影响力的Ekman的6大类情感分类体系基础上构建。基于Ekman,词汇本体加入情感类别“好”对褒义情感进行更细致的划分。最终词汇本体中的情感共分为7大类21小类(见表1)。

本研究使用 “乐、好、怒、哀、惧、恶、惊”这7类情感作为本研究情感类别。为更准确计算每类情感的强度,我们构建了微博表情符号字典,考虑到否定词和程度副词对情感的影响,也构建了否定词和程度副词字典,为便于情感计算,将其赋予一定的权重。

使用Snownlp对句子进行断句,jieba包对语句进行分词,结合所构建的情感字典,得到微博用户对该事件细粒度情感分析。同时对分词后的数据进行统计,挖掘出对此案件的基本情感倾向和强度。(见图1)

2. 数据处理过程

2.1 数据预处理

首先,通过数据分析,发现原微博用户昵称字段始终显示根节点用户而不是转发用户上家。于是,根据转发微博字段中是否含有表达式“//@用户名:评论内容”来判断是一级转发还是多级转发;若不含有该表达式,则认为是一级转发,即直接从原微博用户转发;若含有或含有多个该表达式,则取第一个表达式中用户作为上级节点用户。

处理数据新增字段:上级用户昵称,上级用户评论内容,转发用户评论内容。

其次,对数据清洗,清洗规则为:删除与目标内容无关微博(含投票机制,格式错误,关键字段有缺失值的微博)。最后,对上级用户评论内容和转发用户评论内容使用Snownlp和jieba进行分句和分词。

2.2 微博细粒度情感计算

对微博数据中上级用户评论内容和转发用户评论内容两字段文本内容进行分句和分词,通过已建立的情感词典、程度副词字典和否定词字典,可快速、精准计算出情感倾向。

本研究每条微博用Item1、Item2、…、Itemn表示,一条微博中往往具有多个情感词和修饰副词,每个情感词得分计算公式:

其中Ei为某类情感词组合的得分,Oi代表情感词前面否定词的个数,ai代表情感组合中程度副词的强度,Pi为情感词的情感强度。最后,我们取最大情感词组合得分的情感类别作为该条微博的情感倾向。

五、研究发现与结果

1. 微博用户情感分布

事件所涉及的情感词数量繁多、分布杂乱,且有些词语呈中性不具有具体情感,也有许多词语表达了同种情感。

因此,本研究按大连理工大学中文情感词汇本体库建立的情感分类体系对情感类型进行统计和整理。与此同时,通过对数据集中上级用户评论内容和转发用户评论内容两字段情感计算,得到情感转发数据集,重点关注转发用户评论内容情感(见图2)。

从图中可以看出在该数据中主要是好(12.63%),恶(3.76%)和乐(3.39%)比例最大,其中好的情感词包括“点赞”、“棒”、“鼓掌”等;恶的情感词包括“活该”、“该死”、“可恶”等;乐的情感词包括“大快人心”、“普天同庆”、“笑cry”等。

78%的数据不具有情感是因为在该数据中用户只产生了转发行为并未进行评论,微博系统将该用户评论内容字段自动设置为“转发微博”,不具有情感成分。此数据显示:微博用户对该事件呈现出好、恶对立的情感,并以好为主要情感基调。

除此之外,情感词在一定程度上能反映事件发展变化,高频词主要来源于对事件描述性文本或单纯新闻性广播,以及政务微博,高频词反映微博用户情绪类型,更能从微观体现用户个人态度[18]。

我们对转发用户评论字段进行高频词统计,图3为“昆山反杀案”事件高频情感词可视化,如“[good]”、“[赞]”、“大快人心”、“[鼓掌]”、“喜大普奔”、“普天同庆”等,其中带有“[]”是微博表情符号。这些高频词更能反映用户自身态度及一些隐藏情绪。

“昆山反杀案”关键争议点是对于海明“杀人”行为性质的认定。多数民众基于朴素正义感,认为于海明行为属正当防卫,于是舆论一边倒认为于海明无罪。昆山警方和检察机关通报于海明行为为正当防卫。至此,民意得到法理的支持,舆情与司法在热点事件上达成了共识。

通过上述分析发现:社交网络用户的高频情感词,尤其是处于中心位置的情感词集合,反映网络舆情主导情感基调,而高频词呈现更加主观态度或观点,能反映用户对整个事件的自身真实情绪与主观评价。

2. 情感传播特征

信息传播方式分为广播式传播和病毒式传播,前者指由单个父节点主导大规模传播,如新闻机构、政府等大众传播。后者指单个父节点引发多层分支传播,其中每个节点仅影响少数节点,如HIV病毒、流感病毒等人际传播(见图4)。

信息传播一般都融合了广播式传播和病毒式传播,不属于任一单一传播方式。

“结构性病毒式传播特征(Structural Virality)”[19]是用来衡量信息传播结构性扩散程度。

该特征指一条信息传递到所有末端节点的平均步数。简而言之,一条信息如果只是被“广播式传播”,则该信息的结构性扩散度很低;如果信息经过了多级转发,则信息的结构性扩散度较高。

为了更好展示结构性病毒式指标,我们对社交网络中的模体进行刻画,x轴从左到右依次是广播式传播至病毒式传播过渡,y轴是模体的数量。发现在昆山反杀案事件中主要是广播式传播,即微博中的新闻性广播用户、政府官方机构用户及微博认证用户等在该事件传播过程中占主导地位(见图5)。

“昆山反杀案”事件是典型的热点司法案件,在以往此类案件中,司法机关为缓解舆论压力,常采用拖延战术,存在着不及时回应舆论,不公开细节等问题,以期能分散舆论注意力,等待舆论热度将下来,再审理案件。

但长时间拖延一方面会给各种猜疑和谣言提供空间,让热点案事件成为谣言的集散地,在舆论持续发酵下,甚至派生出其他社会问题,传播主体的异质性加强,病毒式传播会越加明显。

通过查看微博内容,发现在该案件传播过程中,其主要传播与引导主体为权威新闻机构用户与政府官方微博平台,这主要因为昆山公安、检察机关“短平快”做法,从案件发生到得出结论不过几天时间,既不给舆论过度炒作、发酵的时间,也及时地向社会发布案件细节,其传播的结构性扩散程度被大大降低了。

3. 情感传染规律

3.1 用户情感与事件基调走势呈一致性

通过分析不同时段情感走势,发现在8月28日至8月31日案件判断未公布之前,主导情感为“好”和“恶”。在案件公布当天,好的情感出现了爆发式传播,并占据主导地位,其次是乐的情感,而恶情感逐渐缓慢衰弱(见图6)。这说明用户情感表达与事件发展基调呈一致性。

3.2 情感传染呈明显聚类现象 

在网络科学中,图(Graph)提供了一种用抽象点和线表示各种实际网络的统一方法,也成为目前研究复杂网络的共同语言[20]。

图的类型有四种:无权无向图、无权有向图、加权有向图、加权无向图。

本研究使用加权有向图来构建情感传染网络,其中有向边是指存在一条从顶点指向顶点的边并不意味着存在一条顶点指向顶点的边。对于有向边,顶点是始点,顶点是终点。

边权是指:网络中每条边都附有相应的权值,以表示相应两个节点之间的联系强度。

本研究将上级用户情感和转发用户情感分别作为网络始点和终点,统计不同类型始点和终点构成的节点对数目来做为对应边权重,为清楚表示情感在传播中是否具有聚类现象,我们采用热力图方式进行展示(见图7)。其中y轴是始点,x轴是终点,颜色条表示权重,颜色越深,权重越大。相比其他情感,好、乐和恶的颜色呈现明显聚类现象。

我们重点分析“好”、“恶”和“乐”这三类情感的聚类情况(见图8),发现好的情感倾向聚集好,其次是乐和恶;恶的情感倾向聚集好,其次是恶和乐;乐的情感倾向聚集好,其次是乐和恶。

其中,子节点大小表示传递的倾向性,子节点越大,倾向性越强。社交平台中,情感是对特定话题与情境进行互动的根本动因[21],人们接触带有情感倾向内容时,会对情感产生反馈,如共鸣、强化或者分歧等。

在用户发布带有情感倾向动态后,尤其是强影响力用户,关注他们的用户更有可能发布带有相同情绪内容。社交的选择性使得人们在互联网上产生了相近或者相反的情绪体验与表达,由此就呈现了情感聚类的状态,“昆山反杀案”事件的情感传播特征也恰好印证了情感聚类的规律。

而数据中出现恶的情绪能够带来好回复这一特殊情况,通过查看微博内容,发现网民恶情绪主要对刘海龙涉黑背景及其以强欺弱的厌恶与愤怒,而作为弱者的于海明则得到了网民的广泛同情,在面对刘海龙被反杀这一事件时,大部分网民反馈是“大快人心”的好情绪。

3.3 微博用户影响力越强其情绪传染效果越明显

如果把一个节点看做一个网页,那么节点间信息传播可以看做网页中的连接,很多学者据此提出,对节点影响力测量可以通过PageRank算法来实现。PageRank算法考虑整体网络结构:一个节点的重要性并非只与其连入节点数目决定,还要由这些连入节点在网络结构中的重要性决定。

随机选取一个根微博用户(凤凰网视频),通过该根微博用户旗下转发数据构建转发级联网络,计算该网络中每个节点PageRank值,选取三个不同影响力节点并可视化该网络中以这三个节点为中心的情感级联网络(图9)。

从左到右,根节点(“凤凰网视频”、“投资舆情”和“科技圣斗士”)影响力依次降低,情感聚类效果依次减弱。查看数据,发现:“投资舆情”和“科技圣斗士”等小簇根节点用户属于非新闻政府类且具有一定影响力的小众媒体。

由此可见,在传播情感过程中影响力越强的微博用户对情感传染贡献力越高,情感聚类现象越明显,对于“昆山反杀案”此种突发新闻事件,新闻类微博用户影响力远大于小众媒体用户。

六、讨论与结论

信息传播的直接效果是获取知识,继而产生态度,而对人们态度的测量和分析是预测其后续行为的重要变量[22]。

微博是人们获取信息,发表态度与情感的重要平台。本研究以“昆山反杀案”为例,对微博用户情感进行挖掘及可视化,进而探究其情感分布、传播特征与情感传染规律。

研究发现:微博用户情感词集反映事件情感基调。“昆山反杀案”情感经历了一个完整生命周期,宣判前用户情绪以“恶”和“好”为主;宣判后“好”情感呈爆发式增长,一方面说明网民情感与事件情感基调相一致,另一方面说明用户情感与事件情感走势呈一致性。

除此之外,对高频情感词的统计与分析能从微观体现用户个人态度及一些隐藏情绪。与以往社交网络病毒式情感传播特征不同,“昆山反杀案”主要呈广播式传播。

这与相关部门“短平快”的处理方式密切相关,此种方式减少了事件发酵时间,大大降低了情感传播结构性扩散程度。

1974年,Everitt[22]提出的聚类定义为:数据被划分成许多类簇,同一类簇内实体较相似,不同类簇之间实体不相似。聚类是以某种相似性度量为基础,将拥有相似特征样本元素归为一类的过程或状态。

在该事件中,发现好的情感倾向聚集好,其次是乐和恶;恶的情感倾向聚集好,其次是恶和乐;乐的情感倾向聚集好,其次是乐和恶,情感传染大体呈明显聚类现象。互联网环境下,强影响力微博用户对情感传染贡献力越强,情感聚类现象越明显。

此外,对于突发性新闻事件,新闻类微博用户影响力远高于小众媒体用户。

虽然本研究只分析了“昆山反杀案”单个案例,但仍然具有一定普适性,一方面该事件是典型司法案件,微博平台混合了用户较多情绪,情绪的复杂为研究提供了广泛的数据空间;另一方面,该事件情感周期比较完整,能够较为真实全面反应用户的情感变化。

当然,本研究的情感分析并不全面,未来研究可以细化微博用户的类别,从更多层面详细探讨不同类别社交网络用户情感传播与情绪传染问题,分析不同类别用户情感在不同社交网络特征。

附录一

表1:中文情感词汇本体库的情感分类

图1 微博情感分析流程图

图2 转发用户评论情感分布

图3 转发用户评论内容的高频词可视化

图4 广播式传播和病毒式传播(引用文献[27])

图5 《昆山反杀案》中结构性病毒式指标的分布

图6 各时间段的情感类型分布

图7 情感传染网络的热力图

图8 情感传播中的聚类情况

图9 不同影响力的根节点用户的聚类情

附录二

参考文献:

[1]中国互联网络发展状况统计报告.[EB/OL]

[2]敦欣卉, 张云秋, 杨铠西. 基于微博的细粒度情感分析[J]. 数据分析与知识发现, 2017, 1(7):61-72.

[3]潘明慧, 牛耘. 基于多线索混合词典的微博情绪识别[J]. 计算机技术与发展, 2014(9):28-32.

[4]王志涛, 於志文, 郭斌,等. 基于词典和规则集的中文微博情感分析[J]. 计算机工程与应用唯一官方网站, 2015, 51(8):218-225.

[5]敦欣卉, 张云秋, 杨铠西. 基于微博的细粒度情感分析[J]. 数据分析与知识发现, 2017, 1(7):61-72.

[6]王文远, 王大玲, 冯时, et al. 一种面向情感分析的微博表情情感词典构建及应用[J]. 计算机与数字工程, 2012, 40(11).

[7]敦欣卉, 张云秋, 杨铠西. 基于微博的细粒度情感分析[J]. 数据分析与知识发现, 2017, 1(7):61-72.

[8]王潇, 李文忠, 杜建刚. 情绪感染理论研究述评[J]. 心理科学进展, 2010, 18(8):1236-1245.

[9]Kramer A D I . The spread of emotion via facebook.[C]// Sigchi Conference on Human Factors in Computing Systems. ACM, 2012.

[10]张少群, 魏晶晶, 廖祥文, et al. Twitter中的情绪传染现象[J]. 山东大学学报(理学版), 2016(1):71-76.

[11]孙惠君. 休闲与积极情绪的产生[J]. 黑龙江教育学院学报, 2008, 27(8):78-81.

[12]Fowler J, Christakis N: Dynamic spread of happiness in a large social network: longitudinal analysis over 20 years in the Framingham heart study. BMJ 2008, 337:a2338.

[13]Cacioppo J T , Fowler J H , Christakis N A . Alone in the Crowd: The Structure and Spread of Loneliness in a Large Social Network[J]. Social Science Electronic Publishing, 2009, 97(6):977-91.

[14]熊熙, 乔少杰, 吴涛, et al. 基于时空特征的社交网络情绪传播分析与预测模型[J]. 自动化学报, 2018, 44(12).

[15]徐翔,阳恬. 网络社会中的“情绪逆差”——网络表达与传播中的情绪偏向及其张力结构[J]. 北京邮电大学学报(社会科学版), 2018, 20(2).

[16]张伦,王成军,许小可.计算传播学导论[M].北京:北京师范大学出版社,2018:47-48.

[17] 徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2): 180-185.

[18]纪雪梅. 特定事件情境下中文微博用户情感挖掘与传播研究[D]. 南开大学, 2014.

[19]Goel S, Anderson A, Hofman J, et al. The structural virality of online diffusion[J]. Management Science, 2015, 62(1): 180-196.

[20]蒋晓丽, 何飞. 互动仪式理论视域下网络话题事件的情感传播研究[J]. 湘潭大学学报(哲学社会科学版), 2016, 40(2):120-123.

[21] 汪小帆, 李翔, 陈关荣. 网络科学导论[M]. 高等教育出版社, 2012.

[22](R·A·巴伦,D·伯恩 著,黄敏儿,王飞雪等译.社会心理学:华东师范大学出版社,2004)

[23]Everitt Brian. Cluster Analysis [M]. New York: Wiley, 2011.

文章基础数据来源:新浪微热点大数据研究院

 

本文由 @数据锅 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

给作者打赏,鼓励TA抓紧创作!
评论
欢迎留言讨论~!