文本挖掘：避孕药主题情感分析 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

文本挖掘：避孕药主题情感分析

2017-12-11

1 评论 6715 浏览 16 收藏

大厂导师团亲自授课，超过200小时的精品课程，从0到1为你构建“产品+业务”的复合型知识体系，让你在职场竞争中脱颖而出。

关于舆情分析的实例分析，希望给你带来一些帮助。

前言

距离上次文本挖掘小文章时间已经过了3个月了，北京已经入冬，有人说北京的冬天很冷，但是吃上火锅很暖；也有人说北京的冬天雾霾严重，太干。这两句表达的是对北京冬天的情感，即有正面也有负面。

如果在舆情分析而言，我们在做营销分析，分析产品、活动优劣，或者希望维护品牌PR，我们就需要针对消费者网络发声去分析情感，来帮助我们维护品牌，改善活动产品，来达到监测舆情分析效果。换句话说也就是我们今天分享的主题—sentiment

舆情分析思路

笔者5年前做舆情分析时候一般来说就是人工舆情，并没有加入高级点的分析工具减少人工投入。随着R，python等的流行，同时，随着各种开源包tm，LDA，Rwordseg开发，以及高等概率数学的应用，例如分词算法根据隐性马尔科夫链算法编写而成（有兴趣的同学自己研究），让我们之前的工作量大大减少。因此人工舆情转换成人工纠正舆情大势所趋，即我们使用工具减少读帖子的时间，并且让机器学习，人工后期纠错。

一般而言，舆情分析报告分为以下几个步骤：

前两个可以作为统计分析-统计时间趋势音量，音量份额，后两个可以作为建模分析-主题分析，情感判别。

这里有个小插曲：上次分享的是主题分析，笔者最近又重新梳理了下LDA，发现tm包中文分词形成词频矩阵很不理想，这会导致LDA无法应用，因此，后续笔者会自己写个脚本将词频矩阵实现，这样会方便LDA，会方便聚类分析，以及预测分析。

言回正传，情感分析就是表达发言人对一个主题的看法，有好有坏，或者中立。情感分析应用分类两类，第一是给定正负面词，算分值，高于或者低于baseline则表示正面、负面情绪。第二，根据深度学习，利用神经网络来区分正负情感。本文先实现第一类情感分析。

第一类情感分析：正负面词典（简版）

读入文本，数据清理

本次还是以上次文本为输入项，将content_Full 内容做文本处理

清理原则：

去除特殊字符，空值等，例如☆移动平台☆iOS☆
去除转发的内容，留原作者观点。例如保留红框内的文本，去除后面转发文本

删除文本过长的内容，内容偏向日记和广告，减少文本噪声

去除stopwords

比如中文常规字符，‘的’‘地’‘得’‘我’等

添加词汇

由于本文是医用词汇，需要添加的词汇偏重医用或者品牌，不让分词拆成单个字符

例如：妈富隆，调经

分词&词云图

文本处理后，根据词频出现频次，且过滤掉分词为单个词的中文，绘制词云图，鼠标所过的词可以显示文本出现次数，例如避孕药：767次

载入正负词典

正面词记1；负面词为-1，便于之后算分值划定情感

计算情感得分

将文本中的分词按照中英文词典的正负面词打分，计算分值，若中性词（不出现字典）则记为0。

分值计算原理

公式 (自己编的，有疑问请留言一起讨论)

情感分值=∑i=1（正面+中性）*（-1）t

i 表示第i句话；t表示出现负面词的次数

公式表示一句话中若出现偶数负面词，表示肯定，例如：我其实觉得他没有那么不通情达理。两次否定：不，没有，t=2

结果

正面发声分类结果：

负面发声结果

后续改进：

将词频矩阵脚本改写，重现LDA 或者聚类
对文本先人工预判，将此打分进行 confusion matrix，评估分类器
目测而言负面分类基本正确，正面分类中包含很多中性发声，需要进一步剔除研究
深度学习重现下情感分析

相关阅读

文本挖掘小探索：避孕药内容主题分析

作者：冯大福，微信公众号：说说数据分析那些事儿

本文由 @shangyuan 原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

4篇作品 125789总阅读量

2023零售行业：经销商当死，运营商当立！

08-022030 浏览

2023零售行业：经销商当死，运营商当立！

大厂转行Web3指南：学会这5点，就能成为数字游民！

03-135456 浏览

大厂转行Web3指南：学会这5点，就能成为数字游民！

2023，视频号生态的10大预测

02-016673 浏览

2023，视频号生态的10大预测

曾多次登上下载榜第一，这个上线10年的视频平台停运

06-011418 浏览

曾多次登上下载榜第一，这个上线10年的视频平台停运

为什么我建议B端产品都要掌握UML思维？

10-0910405 浏览

为什么我建议B端产品都要掌握UML思维？

评论

目前还没评论，等你发挥！

从开发转产品，我给你的3个实质性建议

13034人已学习12篇文章

如何搭建私域模型？

现如今，越来越多的企业开始重视私域，很多的企业都对私域的发展进行了布局。本专题的文章分享了如何搭建私域模型。

15144人已学习13篇文章

小红书营销指南

本专题的文章分享了小红书营销指南。

11750人已学习12篇文章

情人节的营销思路

本专题的文章分享了情人节的营销思路。

14022人已学习12篇文章

本专题的文章分享了CRM的入门知识，分享了CRM是什么。

18562人已学习15篇文章

用户激励体系的签到功能设计指南

签到功能是培养用户习惯的好办法。本专题的文章提供了签到功能的设计指南。

88689人已学习12篇文章

产品经理面试指南

世间万物皆有套路，面试更是如此，多拿几个靠谱offer。