数据运营实操 | 如何用聚类分析进行企业公众号的内容优化

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

数据运营实操 | 如何用聚类分析进行企业公众号的内容优化

苏格兰折耳喵

2016-08-02

12 评论 40708 浏览 175 收藏

35 分钟

最近有很多看了《运营实操｜如何利用微信后台数据优化微信运营》的小伙伴，加我微信后都不约而同的问我这样一个问题：嗨，运营小喵，你写的“根据后台数据优化微信文章内容”，似乎只适合在运营时间不长、拥有少量数据的情况下才有用，毕竟你的文章才十几篇文章呢，而我运营的是企业号，运营最少几个月，而且每天都更新的，数据量特别大~所以，能不能有适合数据量大的、企业级的公众号的内容优化分析方法呢？

我抓耳挠腮，苦思冥想了好几天，借助一位好哥们的某公众号的“历史遗留数据”，进行了一番探索…终于，运营喵我终于摸索出一个适合分析企业号、大批量数据的分析方法，好东西不敢独享，特来分享给各位。

文章中的货很干，同时也意味着烧脑无下限，但看完数据运营的功力大增。所以，在开始正文前，先说下本文的布局，让大家有个心理准备：

先讲讲聚类分析的一些基本原理，为接下来的数据分析做好理论储备；

关于微信文章/内容评估体系的建立和数据的抓取，为接下来的数据分析提供上等“原料”；

案例实操，用鲜活的实际案例将方法落地，让大家在一个案例里彻底搞明白聚类分析这一方法；

应用延伸，一通百通—除了微信内容优化可以用，聚类分析还可以用在APP及网站数据分析、用户画像分析上。

二、聚类分析的基本原理

1.什么是聚类分析

聚类分析就是把看得见的实体对象（如桌子、人、树木等）或看不见的抽象对象（如情绪、观念等）进行分组，将它们中具有类似特征的对象划分到一块，形成很多总体特征不同的“小团体”，同时这个过程是人为主观的—最终由我们来给这些分类及其特征下定义，从而在具体的业务场景中应用它们。生活中我们经常讲“物以类聚，类以群分”，说的就是不同的人和事物因特征的相似而归并成一类，形成了很多大大小小的分组/类。

人以群分

聚类分析作为一种多元统计分析方法（研究多个自变量与因变量相互关系的一组统计理论和方法），其目的在于按照个体或样本的特征将其分类，使得同一类别下的个体具有尽可能高的同质性，而不同类别/组别之间则是尽可能高的异质性。举例来讲，有2个不同的爱好者组成的松散组织—球迷协会、摄影协会。球迷协会中清一色的足球狂热者，个个谈起足球来眉飞色舞；摄影协会内的成员个个手握“长枪短炮”，最大的爱好就是对着美女和美景一通“咔咔”。这2个团体中的成员“臭味相投”，有共同的爱好和志趣；而作为集体的球迷协会和摄影协会，因团体各自的偏好不同，毫无共性，小团体和小团体之间的价值观和思想倾向也大相径庭。

在进行聚类分析时，需要在相似的基础上收集数据并对其进行分类，衡量不同数据间的相似性，以及把数据分类到不同的组/类中。下图是存在2个变量的数据聚类的情形，根据二维空间中点的
距离远近来确定分类。

二维维度（2个变量）下的聚类分析图

值得注意的是，聚类分析的用武之地在于探索性分析，得出的结果可以提供许多个可能的“解”，选择哪个“解”取决于分析者对具体业务的判断和自身的知识结构。

2.主要步骤

复杂的原理运营喵就不说了，怕大家看着发晕，这些环节我就一带而过，因为在接下来的分析中小喵会用鲜活的案例让大家好好“反刍”一下。进行聚类分析的工具是SPSS 20.0，用的聚类方法是K-means聚类法，进行分析的步骤分为4个环节，及数据预处理、定义距离函数、聚类或分组及评估结果。

聚类分析的4个步骤

三、文章质量评价体系和数据抓取

运营喵做这个聚类分析的目的在于：在凌乱复杂的各项微信后台数据中，将其中数以百计的文章进行分类，分类的原理是—这些文章合理地按各自的特性来进行合理的分类，具体来说是在若干指标上因指标数值的不同而进行自然分类。所以，我们需要先找出进行聚类的若干指标），然后对这些指标进行有意义的分类，划分成几大维度，便于我们对文章进行质量评估。

分析数据选取—构建微信文章的内容质量评估体系

一般情况下，对于文章质量的分析和评估，我们只关注阅读量、点赞量这样的指标，深层次一些的就是分享转发指标，但很少有全方位的去评价文章质量和分析受众内容偏好的。

因此，我们有必要去多维度的评价一篇文章的质量，而不仅限于阅读量、点赞量之类的“初级指标”，而是要尽量多的去挖掘能反映文章
整体情况的多维度评价指标，为我们的内容运营优化提供指导。

本文中，运营小喵认为：文章质量不是仅仅是文章的阅读量、转发量等情况，还包括文章的传播效率、文章自身对于目标群体的价值，以及能够激起粉丝量的增长等。因此，评价微信文章质量需要有一个完整的指标评价体系，从笼统的粉丝、阅读和转发数据中发掘更细致、更全面“文章画像”指标评估体系，由表及里的从多个维度、多个层次区分析文章的质量情况。

这种多维度分析的目的在于，内容运营是有阶段性的，囿于精力不济和经验不多，每个阶段我们要对内容运营制定出有不同侧重点的策略：初期（粉丝不多）需要迅速涨粉，这时文章的传播力就很重要；成熟期（粉丝量很大，增长快，流失也快）需要沉淀用户，需要创作出有价值的内容，留住粉丝；到平台期或是衰落期（粉丝流失多于增长），竞品出现及用户口味大变，内容需要创新，挽留或是招揽新粉，这时文章的传播力和价值性兼具了。

值得注意的是，文章的传播力和的自身价值没有必然的关系，一篇很好质量很高的文章，可能收藏量、点赞量很多，但阅读量、传播量不一定很大；相反，很多价值不大的文章，因其易读且迎合用户部分心理需求，传播力会大不少，阅读量和转发量“蹭蹭”的上涨。

基于此，有一套完整、全面的文章/内容评估体系至关重要。以下是运营小喵根据研究，归纳出的微信文章/内容质量评估体系，共罗列出了5个维度，即粉丝增长指标、粉丝活跃指标、文章信息指标、文章传播指标和文章价值指标，5类指标下又包含若干类型数据，尽量将分析的“颗粒”细化，详情见下图：

微信文章质量评估体系

粉丝增长指标

粉丝增长指标反映粉丝在某天当中的增长/取关情况，下面涵盖3类数据—新关注人数、取消关注人数和净增关注人数。其中，“新关注人数”和“净增关注人数”是正向指标，也就是越大越好，而“取消关注人数”则是反向指标，越少越好。在不做活动的情况下，这3个指标综合起来看，可以反映出当天总体人群的阅读质量怎样—阅读量足够大，文章足够好的情况下，粉丝的增长会多，取关的人数会少；假使标题党，诱使粉丝阅读或关注，粉丝的取关数量会很多。

粉丝活跃指标

粉丝活跃指标反映了所关注粉丝的活跃度情况，这里包含有图文阅读人数、公众号会话阅读人数和来自历史消息的阅读人数。值得注意的是，这3个指标都是发文后7天内的统计数据，具有一定的时效性，能反映出粉丝对本公众号的关注/重视程度（如果不重视的话，可能过很久甚至从不打开，出现极端的情况是，文章从朋友圈或是好友转发处看到。）其中，“图文阅读人数”是7天内对某篇文章的总阅读用户数。“公众号会话阅读人数”是指从公众号推送的会话里打开的，反映出读者已经养成了在订阅号里查看推文的习惯，有一定忠诚度和活跃性了。从历史消息里看，可能有两种情况：一是粉丝新关注公众号后，会在历史消息里翻阅过往推文，表示ta对公众号的内容很感兴趣；另一种情形是，粉丝忘记查看之前的推送消息，看到目前的这篇后，会兴致盎然的查看过往推送记录，两者都反映出粉丝对公众号的感兴趣，能体现粉丝活跃性。

文章信息指标

文章信息指标是文章发布的基本信息，包含文章标题、文章发布日期和文章发布时间点，这3类数据/信息不能单独进行分析，需要结合其他维度的数据进行关联分析，用以判断文章质量的优劣。

文章传播指标

文章传播指标反映微信推送内容的传播力度/效率，因为在一般情况下，微信推文的生命周期基本维持在一周（绝大部分的阅读量在此期间完成）。该指标下辖4类数据—从公众号分享到朋友圈人数、在朋友圈再次分享人数、在朋友圈阅读人数和来自好友转发的阅读人数，这几个指标都是发文后7天内的统计数据，具有一定的时效性，能反映文章在7天内的传播效果。“从公众号分享到朋友圈人数”指粉丝在公众号会话里查看推送内容后，再转发到朋友圈再次被阅读的人数，也称之为“二次传播率”；“在朋友圈再次分享人数”和“来自好友转发的阅读人数”可以理解成“三次传播率”，它们的传播路径过于复杂，见下图所示：

几种不同的阅读路径

文章价值指标

文章价值指标表示阅读者对文章内容的认同和赞许，认为文章给他们带来了某种价值（如心情放松、获得新知等），该指标下辖4个指标—总阅读数量、分享人数、微信收藏人数和点赞数量。其中，
分享人数、微信收藏人数是发文后7天内数据，而阅读数量和点赞数量是文章从发文之日起至今的总数量。

下表是各指标的说明以及抓取位置：

各指标抓取位置及涵义

数据抓取位置

（1）群发功能-已发送

要注意，这两个数据跟“图文分析”里的数据不同，这两个数据是某一篇文章历史上总的阅读量（次数）和点赞量（次数），且具有实时性、即时性，就是当前看到的数据就是从发布文章到目前所有的阅读量和点赞量。这里的阅读数据跟“图文分析”里的不同，“图文分析”只记录了发文之日起7天内的阅读，且无“点赞”的数据统计。

总阅读量和点赞量的数据抓取位置

（2）用户分析-用户增长

在“用户分析”一栏里，需要抓取的数据为取关数、增长粉丝数、净增粉丝数，这三个数据较容易获得，在“用户分析”下方下载excel表格即可得到。

粉丝增长数据抓取位置

（3）图文分析-单篇图文

在“图文分析”这一栏，文章标题、推送时间、送达人数、图文阅读人数和分享人数皆可在数据概况处获得。值得注意的是，这里的图文阅读人数和分享人数是7日内的统计总数，且分享人数是转发或分享到朋友、朋友圈、微博的去重用户数（包括非粉丝）的总和。

文章基本信息及价值数据抓取位置

在公众号分享到朋友圈和在朋友圈再次分享这两个数据指标可以在图文分析à单篇图文à图文详情里获取。

文章传播指标抓取位置

来自好友转发的阅读人数、来自历史消息的阅读人数和来自其他渠道的阅读人数可从图文分析à单篇图文à图文详情à趋势图这一路径获取，不过这3个数据需要将7天的数据进行加总。

文章传播指标、文章活跃指标抓取位置

从朋友圈打开人数（其实也可以在上图中的“在朋友圈阅读”处获取）、分享转发人数、微信收藏人数可以在图文分析à单篇图文à图文详情的最下方获取，通过excel下载处理可得。

文章价值指标抓取位置

上述处理的获得如果用人工手动操作的话，费时费力，如果要统计一年的数据，那可得把运营喵们累死。。。这里提供一个更简便的做法，那就是用“网络爬虫”（注：爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分）来抓取数据，可以在节省人工的情况下准确无误的获得大量上述提到的原始数据。

以下是上述提到的抓取数据指标的信息汇总表格。

经人工手动/网络爬虫处理，得到以下原始数据，篇幅有限，所以只展示了局部：

微信后台的若干原始数据

四、数据分析实操

1.案例背景

某新媒体培训机构的账号，从今年年初的1月中旬到近期的7月中旬，时间跨度刚好半年。半年时间里，推文近200篇（包含副文，即第二、第三图文）。我们接下来要分析的原材料就是这段期间的文章数据、粉丝数据。

做这个聚类分析的主要目的在于：

发现其中质量较好的文章及质量最差的文章，从数据中发掘出它们，并发现它们身上存在的特征，以便将优良文风（选题、标题、内容、排版设计等）发扬下去，并避免以后再出质量不佳的文章，以期阅读量、转发分享量的提升，最终实现凭借公众号自身内容促进粉丝增长的目的。

注：处于商业保密，部分内容或数据在不影响数据分析的情况下稍加处理~

2.数据预处理和选择聚类方法

按上述抓取数据的方法获得原始数据，需要注意的是，作分析的时候，需要将主副图文分开分析，因为一般情况下越往下所获得的点击量/阅读量就越低，分析只在同一层级的图文中进行，然后再在各类层级中进行总的内容分析。本文接下来的分析以主图文为主，。

主副图文分析要分开

对获取的原始数据中的异常值进行剔除，即除去数据中明显异常大或异常小的数据值，以免对整体分析形成干扰。

将上述Excel原始数据导入SPSS中，检查一下数据的“度量标准”是否有误。“度量标准”下面有四种类型的数据，即名义、序号、度量。其中，名义是对数据分类的数据类型，如姓名、标题等；序号是对数据进行排序得到的变量；度量则是数据进行测量得到的数值型变量。在原始数据中，日期、标题和发文时间点等数据也属于名义型变量（时间点在SPSS中不分析），其他的变量皆为度量变量，是着重分析的变量。

数据预处理后，按“分析à分类àK-均值聚类”的路径选择聚类方法。

选择K-均值聚类（K-means聚类）方法

打开“K-均值聚类”会话框，将其中的变量输入到“变量”框中，在“保存”项里，勾选“聚类成员”“与聚类中心的距离”这两项，以便运算后将得到的分类信息显示在表格里，判断分类。

其中，最重要的一环是选择“聚类数”，这里需要根据经验和数据的数量来确定，有时需要进行“试错”。我依次按2次、3次、5次、6次和7次进行运算，发现输入5次得到的“解”最为理想，分类不多不少，特征很突出，有分析和参考的价值。

进行“聚类分析”选项设置

设置好项目后，进行确定，得到如下图所示的运算结果：

聚类分析运算结果

注意上图中红色虚线框部分的数据，分别是“分类数据”和“距离分类中心距离”的数据，然后将结果另存为“excel2007至2010”格式，得出的数据和spss中所呈现的保持一致。

输出数据

3.处理经聚类分析得到的数据

先将得出的数据进行替换处理，即分类数据中的“1”“2”…“5”替换成“第一类“”第二类”…”第五类“，然后再

进行透视表处理，各个变量在“值字段设置“里皆取平均值，见下表：

运用透视表处理经聚类分析得到的数据

经透视表处理好数据后，将该数据“全选”并“粘贴”“复制”到新的sheet里，以便按之前的评价指标体系将不同类型数据进行分类整理。将各数据进行“热力图示化”，以颜色深浅和冷暖显示数值的高低差异，直观的反映数据的大小变化情况。从而得到下表：

微信文章质量评估体系表

从上表中可以看到，近200篇文章可以分为5类，按照上述提及的微信文章质量评估体系，每一类的特征都不一样（以下各指标的程度由低到高依次分为“非常差-较差-一般-较好-非常好”，这种比较在这5个类别之间进行，具有相对性）：

第一类：传播力非常强，在一周内传播时效性显著，但粉丝增长度低，且文章具有非常高的价值（对目标用户来说很“值”），同时相应的粉丝也非常活跃，；
第二类：文章一周内的传播力较强，粉丝增长量较高，文章的价值度较高，粉丝活跃性良好；
第三类：文章传播效率地，粉丝取关量大，文章价值度低，粉丝活跃性非常差；
第四类：文章传播效率一般，粉丝增长量较大，文章价值度一般，粉丝活跃度一般；
第五类：文章传播效率一般，粉丝增长度一般，文章价值度一般，粉丝活跃度一般。

如果微信运营的经验不足和对数据不敏感，可以进一步将上述指标数据值进行标准化，乘以权重系数（根据过往经验和公司强调的KPI来决定）后相加，从而使多指标合并起来（如粉丝增长指标=-取消关注标准值*权重1+新关注数标准值*权重2+净增粉丝数标准值*权重3），在同一维度的不同分类下的指标值可以进行比较，其大小用“★”和“☆”的五角星来表示，得到这5类文章各指标的量化表：

微信文章质量量化评估表

各个分类的特征明晰之后，我们需要找到各分类对应的文章，查看他们的标题、内容和发文时间点，也就是上文所提及的“文章信息指标”，值得注意的是，此处通过函数“weekday”可以查询出发文日属于“周几”，多添加一个“时间维度”对于我们分析发文时间很有帮助。结果如下表所示：

各分类下的具体图文信息

从中可以看到，其中有些广告性的一篇软文会在不同日期出现很多次，这是为了达到一定的营销转化目的，我们在分析时仅保留最初的一篇。

分析的顺序是这样的：先分析文章质量最佳的和最差的，然后再分析一般性的文章所具有的特点。

第一类文章

从上表可以看出，这篇文章的传播效果和文章价值度、粉丝活跃度都非常好，但粉丝增长量很小。这篇文章发布于支付宝“集五福”的那段时间，很好的借助了外部的热点，且“尴尬”和大家参与的火热形成鲜明的反差，在某种程度上能勾起读者的阅读欲望，这是一个抢点借势、内容区分度较好的文章。

第二类文章

从上表中可以看出，文章质量次优的2篇文章都是关于微信功能方面的文章，对运营公众号的人（本公众号的定位人群）来说，微信功能上的升级或新玩法都会激起他们的强烈关注。第二类文章的各项指标相对均衡，是这五类文章中质量最佳的类型。

第三类文章（局部）

第三类文章在这5个分类中属于“最差”的，其中的营销类（广告）较多，再就是讲座类的内容，缺少“干货性”的内容，不符合目标受众的口味，所以各项指标都不太理想。

第四类和第五类依次类推，同时也不放过某一类别下具体的文章，结合各项指标来进行诊断分析，得出规律性的结论。以下是今后该公众号内容采编的方向，相对来说，这些内容更符合目标受众的口味。

39f2b920-465a-4e4f-a294-0a8fe25b328d

经分析得出偏好度较好的一些内容采编方向

此外，关于发布时间的分析，上一篇文章《如何利用微信后台数据优化微信运营》分析了2种类型的时间分析，即日期和时间段的分析，分别以日和小时为单位，现再介绍一种按周的分析方法，具体做法是在excel中调用“weeknum”函数，重点选取净增粉丝数、总阅读数和（总）分享人数的“总揽性”数据，形成关于周的数据，这种分析适用于数据量很大的时候，找到重点的分析对象，节省分析时间，见下表：

以周为分析单位的净增粉丝数、总阅读数和分享人数热力表

聚类分析在运营中的延伸应用

1．细分市场

市场细分

聚类分析是细分市场的有效工具，可以帮我们在做市场/运营战略决策时找到新的、可行的潜在市场。通过市场调研，我们可以获取本公司和主要竞争者是品牌方面的“第一提及知名度”、“提示前知名度”和“提示后知名度”等指标值，将这些作为聚类分析的变量，将本公司和潜在对手的产品或品牌进行划分。在聚类以后，结合每一产品/品牌的多维度属性研究，可以发现哪些属性组合目前还没有融入所要进行的产品/品牌中，从而找到公司在市场中的机会，不至于身处竞争激烈的市场“红海”中。

2.用户画像

用户画像的主要维度

聚类分析可以用来发现不同的用户群体，并且通过消费者的人口统计学特征、社会属性和消费属性来刻画出不同的用户群体的特征，也就是对不同的用户群体进行“用户画像”分析。我们在网站上、APP上获取了大量的用户数据后，通过分组聚类出具有相似浏览行为的用户，并分析用户的共同特征，可以更好的帮助我们了解自身的产品/服务所面向的顾客，以便我们能及时做出适销对路的产品/服务，或是及时的产品/服务优化。

可用于“用户画像”聚类分析的后台数据（经处理）

结语

通过这个实际案例，大家应该能领略到聚类分析的魅力了吧。但是，运营喵要说的是，聚类分析方法只是“术”，是工具而已，重要的是对运营事务的深刻理解，以及一整套的数据分析流程（也可以称之为“数据分析方法论”）。根据上面的实际案例，运营喵认为数据分析的整个流程应该是这个样子的：

数据分析的一整套流程

最后呢，运营喵再来说说数据之于运营的作用，它们很多时候体现在：

发现运营中存在的若干问题，及时调整运营策略和方法；
根据自身积累的历史数据/信息或行业内一般标准，实时监控数据的变化趋势，及时遏止负面结果的发生；
从数据的背后洞察出用户的行为及心理，从而把自己真正放置在于用户的立场上去看问题，对产品/服务有一个更全面、更准确的理解。

掌握尽可能多的数据分析方法和工具，培养数据分析的方法论，对于我们最大限度的发挥数据分析在运营的作用大有裨益，谁说运营不需要懂数据挖掘？懂得高阶数据分析—数据挖掘的运营喵才更有竞争力，因为通过数据，你能够用数据驱动运营，在做运营的时候知己知彼，收放自如，知道自己的运营的目的地在哪里~

作者：苏格兰折耳喵，微信公众号：运营喵是怎样炼成的，个人微信：g18818233178），数据分析爱好者，擅长数据分析和可视化表达，喜欢研究各种跟数据相关的东东。

本文由 @苏格兰折耳喵原创发布于人人都是产品经理。未经许可，禁止转载。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

苏格兰折耳喵

社交媒体数据挖掘爱好者

29篇作品 1351603总阅读量

01-174568 浏览

01-303269 浏览

02-016323 浏览

11-134353 浏览

6000字超全解读：B端云产品使用体验度量模型

08-0110496 浏览

易周一谈

方法清楚，分析的详细，有很好的实操价值，最近考虑做基于聚类的用户画像，多和老师学习

最近来自江苏回复
林之颐Lilyn

聚类分析的方法讲得好详细~~

最近来自北京回复
运营卫卫

不错，分析较全面，对图文消息粉丝爱好可以做个总结，可以导向更好的匹配粉丝及微信公众号行业的文章，指标体系，数据分析再详细延伸分享讲解

最近来自江苏回复
1. 苏格兰折耳喵作者回复运营卫卫
  
  下一篇我会出一个关于整个公众号运营质量的评估体系，敬请期待~ ❗
  
  最近来自上海回复
RALIOS

😆 感觉大部分的公众号没有走到这一步呢

最近来自北京回复
1. 苏格兰折耳喵作者回复RALIOS
  
  嗯呢，这么做也需要耗费很大精力呢
  
  最近来自上海回复
苏格兰折耳喵作者

另外，需要补充的一点是，这个指标体系阔以作为新媒体微信公众号运营的KPI考核指标~

最近来自上海回复
磊叔

好文~~~要细细消化。

也分享一个理解：
聚类：未知类别下判断信息之间的相似性，好比大家并不知道地球的昆虫有多少种，而是根据每只虫子的特性来判断最合适的昆虫种类。
分类：已知类别下判断信息之间的相似性，好比大家已经知道性别有男和女的情况，来将人群的性别分类。

还请楼主继续分享数据分析的干货

最近来自广东回复
1. 苏格兰折耳喵作者回复磊叔
  
  你的见解很对。这篇文章里其实有体现，文章类型的划分是聚类；指标体系的构建就是分类~
  
  最近来自上海回复
2. 磊叔回复苏格兰折耳喵
  
  赞~~~更加好理解了！后续能否分享关于指标体系和数据分析的一些文章呢？
  
  最近来自广东回复
3. 苏格兰折耳喵作者回复磊叔
  
  假如大家这方面有需求的话，当然阔以，看下面评论咯 😈
  
  最近来自上海回复
4. ，枭回复苏格兰折耳喵
  
  运用控制变量法，变化多量来寻找分类。呵呵。
  
  最近来自广东回复