为什么常见的5星评价系统不靠谱？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

为什么常见的5星评价系统不靠谱？

Sandra

2018-11-25

11 评论 12973 浏览 85 收藏

15 分钟

对于评价系统，你要的又是什么呢？是更多的真实评价（不一定好），还是更多的好评（并不一定真实）？

我经常喝咖啡的一家咖啡馆，它在 Google 的评分系统中，只有3星，尽管它是这个城市当中咖啡做的最好喝的非星巴克咖啡。原因仅仅是因为有过两个差评。

有很多公司只生产某些产品，因为他们的这些产品在10年前曾经在亚马逊上获得了很多5星好评。而我的 Uber 评分仅仅只有4.7分，我唯一的「缺点」是和我的乘客缺乏沟通，因为我全程仅仅只会说「你好，谢谢，再见」，如果有需要，我可能补充几句小贴士。

对于司机而言，如果不小心碰上一位情绪暴躁的乘客，坐在后座猛抽烟，司机一句「请勿吸烟」可能就会带来一个1星差评。然后接下来的一个月，你得花费大量的接单和好评来抹除这个差评带来的负面影响。

滞后效应

我有一个亲戚，将自己的乡间别墅挂在 Airbnb 上面出租。她的第一批客户是一群年轻人，他们租用这个地方希望能够举办派对，但是她不允许，担心躁动的年轻人会把房子给毁了，结果她收到了一个2星差评，这在 Airbnb 的系统中意味着她再也没法把房子租出去了。这使得她不得不重新注册，换个名称重新开始。

这在情况下，如果看评分几乎是没人会来租这房子。这是一种非常典型的滞后效应：当前的系统状态依赖于之前状态和评价。这种模式和信用评级以及银行贷款的运作方式类似，更通俗的讲，就是我们使用过去的行为和状态作为当前的评判指标。同样的，现在所做的事情，最终也只是在未来被窥见，系统反馈的并不是此刻当前的实时状态。

绝大多数的反馈和评论，其实是缺少思考和理智的评价的，这个过程应当花费更多的时间来斟酌和回复，而不是留下一个简单的数字。英剧《黑镜》中每个人之间都互相打分的状况，正在成为现实。或者它已经成为现实了。

见多了这样的事情，稍加反思，我们会意识到，其实很多时候这样的评分所呈现出来的是一种简单粗暴的反馈，它并不适宜每一个人。

为什么？

因为人类原本就是情感驱动、极为非理性的存在。

有这样一个案例，有一个哥们面对Uber 司机，服务再到位也只会给4星。原因是什么呢？根据他的说法：「只有当司机在我的生命面对极端威胁的时候（重大车祸和恐怖袭击），将我拯救出来，才会给我5星好评。所以我会给这些普通的司机4星的评价，因为他们不值得我打5星。」

我们想从包含了大量非理性评论的评价系统当中，寻找一个理性的答案的时候，这个事情原本就是不合理的。

「我们是否应该让用户给我们写评价吗？」

在 Yelp.com 上，有一个 Q&A 的板块，有人提了这样的一个问题：「我们应该要求客户对我们公司撰写评价吗？」对于这个问题，Yelp 上有人这样回复：

「最好不要。那些真正从产品中获得愉悦感并写下一段好评的用户，和那些用用好评换取折扣的用户看起来很相似但是实际压根不是同一个群体。

坦率的讲，绝大多数的企业只是想从那些对他们感到满意的客户征求意见和评价，而不是从不满意的客户那里听取反馈。随着时间的推移，这些经过自我选择的评价会对企业和商业决策产生影响，更直接地说就是偏见。而那些相对精明的用户，在几里以外就能问到偏见的味道。如果你那些从各种非自然渠道求来的好评被 Yelp 给过滤掉了，请不要感到惊讶。」

用户并不总是对的

我们总说，要打造伟大的产品和服务，但是观察用户的行为比听他们说话更有启发性。看他们在做什么，而不是听他们说。问卷调研中也存在类似的问题。面对问卷，很多用户所给的答案简单而直接。

「你是一个慷慨的人吗？」很多用户的回复是「当然是！」，无论问卷的形式是「是/否」选项，还是采用数字1~10 评级，或者5星制，结果大抵如此。用户会很大程度上倾向于高估自己的重要性。

「有一句经典的格言是：用户永远是对的，但是我认为情况恰恰相反，用户很少是对的。」

——Charlie Trotter, 《纽约时报》

那我们为何还要使用评分系统？

既然评分系统存在如此之多的问题，那么我们为什么还要用它们呢？这是一种沟通方式，在我们购物、阅读或者消费的时候，评级系统是一种社会性的参考和证据。同时，很不幸的一点是，这是一种相对原始而开发不完整的沟通形式，其中包含了人类的先天缺憾。

另一方面，我们仍然使用5星制评级系统，因为人类天生的惰性，这种评级方式足够简单，正好迎合需求而已。

「每个人都这样做，我为什么这不这样做？」这是最常见的一种逻辑。而另外一种常见逻辑则是「Facebook、Google和亚马逊这样的大企业都这样，我不认为大企业会出错」。

这让我想起另外一个有趣的故事：

一名警察看到一个醉汉在路等下摸索，于是上前询问他丢了什么东西。醉汉声称他钥匙丢了，于是警察陪着他在路灯下找了好半天。由于钥匙一直没找到，警察忍不住多问了一句：「你确定钥匙是在这里丢的么？」醉汉没多想直接答道：「不是这里。」警察惊讶道：「那你为何要在这里找？」醉汉理所当然道：「因为这里有光。」

这个故事当中所潜藏的含义不止一重。如果你对于问题追索的不够深入，你的决策很大程度上会受到社会和人群的影响，这种影响会非常深入，并且在很多时候你自己都不一定能察觉得到。就像那个跟着醉汉一起在灯下找不存在的钥匙一样。

类似5星评价这样的评价系统，直到今天依然广受欢迎，另外一个原因是，它能够量化，并且似乎能够提供某些可供参考的逻辑。

「您对我们的产品和服务有什么样的看法？」得到的回复是3颗星，这是否意味着产品需要改进？是单个产品还是整个产品线都需要改进？如果是4颗星又意味着什么？它和3颗星的评价，在程度上有多大的差别？

更深入一点来反思这些问题，你真的会认为这样的数字是可靠的吗？数字和数字之间的逻辑关系是可靠的，3+1=4，可是这些数字映射到人类的情绪、情感、逻辑、表达、想法当中之后，你还确定么？我不这么认为。

我们还应该相信这些评分吗？

有个很好的案例，就是 Facebook Messenger。我每次使用它打电话之后，它会非常讨厌地弹出对话框「这次通话您要如何评价？」，我总会给它留个1星评价。首先因为它是Facebook 的产品，其次它每次都会特别烦人地在通话结束之后弹出来，我还得多按两下关闭它。

但是，当人给出1星差评，并且没有留下详细的反馈内容的时候，你会怎么理解这个1星呢？

即使有人留下了反馈和评价，整个系统当中90%以上的内容基本上都是简单的情绪反馈。而在打完电话之后所带来的情感波动，有多少是来自于电话那头的人，又有多少是来自通讯APP本身呢？当这种情绪再更加主观地翻译成一个数字，而这种翻译方式人和人也千差万别。

「将人类情感转化为原始粗糙的数据，比如数字评分和星级，然后希望从这些原始的数据中挖掘出改进产品的合理的答案？也许真实的人类情感比这些数字还要更合理。」

这是一个更加广泛的问题

现在，我们需要坐下来思考一下，也许身为人类的我们应该多做点什么而不是完全指望评分系统。我们被鼓励到处去分享我们的想法和意见，并且似乎大家也有这样的需求。你去过的餐厅会给你发送邮件，询问你体验如何，是否满意，从机场回来，会收到航空公司的调研问卷，询问机场和旅程的体验好坏，等等等等。

如今，每个人都习惯了简单的打分，习惯了用一些迎合需求的评论换取优惠，这让我们在很多时候忘了闭嘴，忘了你手上这杯40块钱的咖啡其实并没有达到你的预期。

现在我们应该做什么？

我们可以改进整个评分体系么？当然可以，但是简单的修改规则又能够走多远？

我们有可能很快就遭遇另外一个源于人性的缺陷。所以，相比于立刻马上修改评分系统，更重要的是了解用户和人性固有的缺陷，最终能够对产品、企业产生破坏性影响的东西，其实往往只有很少的一部分。如果我们能够解决这个问题，并且创建能够正确激励用户行为的系统，也许我们能够让评分系统真正给我们带来更好的生活体验。

另一方面，评分系统有如此之多的缺陷，比如最常见的5星评级系统，为什么大家依然会如此的喜欢它呢？

还是因为它足够简单足够快，不会觉得麻烦。我们可以通过忘了获得一些东西，首先是获得它，至于好坏是另外一个层面的问题。我们希望得到区分，而评分系统，使得我们可以让一部分问题最大化，然后让另一部分问题最小化。简单的评分系统不是最好的办法。

不要让评论如此简单

在没有解释和说明的情况下，5星评价所给出的评分很好用，但是对于阅读这些评价的人而言，是非常糟糕的，因为从这些分数当中无法了解服务的价值。让用户评分，并且强制用户留言，填写评价内容，这似乎会让用户评价本身的评价过程不那么友好。

有一些团队给出了一个比较合理的评价系统，比如：阿迪达斯的多层评价系统，你可有对你所购买的鞋的舒适度，材料质量、设计等不同的方面进行评价。还有一些评价系统，除非用户提供具体图片才能进行更加深入的评价，这使得评价内容的价值相对更高。

我曾经在一家电商公司工作过，有时候我会同客户进行沟通。有一个客户曾经对我们产品给过一个3星评价，原因是快递员很粗鲁。问题在于，快递员压根和我们的公司和产品毫无关系，但是某种意义上你也不能怪客户啊？不过，我们的工作，本质上是尽量规避这些不合理的评价，并且鼓励更多的深思熟虑和具有建设性的评价。

对于评价系统，你要的又是什么呢？

是更多的真实评价（不一定好），还是更多的好评（并不一定真实）？

作者：Eugen Eşanu

译者：陈子木

来源：https://www.uisdc.com/problem-with-online-reviews

本文由 @陈子木授权发布于人人都是产品经理，未经作者许可，禁止转载

题图作者提供

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

Sandra

次饭，碎觉，打豆豆。

707篇作品 12422473总阅读量

写头条赚不到钱，问题出在哪里？

11-132591 浏览

运营策略：影响内容病毒式传播的 8 个维度

06-013495 浏览

微信音频放大招：免费听周杰伦音乐，下一步做播客

04-242815 浏览

8100字！说明白私域用户增长的「底层逻辑」！

08-099516 浏览

马上消费-安逸花产品分析报告

11-093083 浏览

繆繆

文章太长，太碎了。我有几点与你想的不是很一样。
第一点举的例子都很极端，两个差评使咖啡店只有三星，第一次Airbnb就碰到极端租客（你亲戚重新注册Airbnb账号说明这个情况真的很极端了，如果是普遍情况，我觉得他应该直接放弃Airbnb）等，其实有大量数据沉淀以后都不会是问题。
第二点评价主观的问题我觉得并不是五星评价系统的罪，是人评出来的总会带有评估人自己的想法。我们能改变的主要是评价物，产品体验、服务类的这种评价物本来就很主观，比较虚，你最后举的例子其实是把评价物更加的趋于实体化，越实就越真实。我打个比方，一块承重金属板的厚度和重量的评价，大于10CM的五颗星，8CM~10CM的四颗星，重量大于5公斤的五颗星，4~5公斤的四颗星，以此类推，是不是评下来就真实了。
第三点是否要让用户给我们写评价，我觉得很多时候评价系统都是一个自上而下分层级的系统，比如苹果商城是让用户给商城内的APP评价打星，淘宝让买家给卖家评价打分，谷歌的评价系统等等太多太多。我都会用，都会参考这些评价。
第四点不否认有些人会给自己弄一个评价系统，很会自我总结自我批评的那种，我一般称之为吐槽大会，我自己设计的一款ToB端的软件就举办过类似活动，利诱用户来评价，来吐槽的一般是两类人，一种是为了好处来的，另一种是真的在使用软件过程中恶心到他们的。他们提意见，我们总结，选择性的优化其中的一些问题，或是找到新的方向。这不能与5星评价系统混为一谈，目的性和使用场景以及整个体系都是不一样的。
我觉得评价系统虽然在大多数场景中只是个附加功能，但也不是你分析的那样肤浅。淘宝虽然也是简单的评价，但是他的默认好评系统的规则很人性，以至于我现在去淘宝买东西会看好评率以及差评的评价。
虽然只是一个简单的5星评价系统，但是如果你动脑，真的能玩出很多花样。

最近来自上海回复
辛奕2023

评价的算法并不是如文所说的那么的简单粗暴。文中说的很对，每一个用户都是一样的，甚至是评价标准是不一样的。比如我服务最怎么好我也只会给四分，但是四分并不代表我不认可商家的服务，而是我觉得没有完美的服务，就像人无完人一样。但是评价还有另外一个纬度-时间，不同的时间评价在综合评价中应该有不同的权重，其次并不是所有的算法都是在算加权平均值。有一点我们要确定的是：服务很多时候并非是标准化，以及服务的场景是动态的，我们做评价的出发点是提供给用户做消费决策，给商家指明服务优化的方向。这两点是一体的！最后最为产品经理我们要看的是我们的评价体系对于这两个方面的贡献度！

最近来自浙江回复
拔丝男

应该根据产品和用户需求设计评价系统，注意是评价，不是评分，看完文章我知道我们的评价系统怎么做了

最近回复
一点

评价指标不要设置的太粗，这样得到的数据参考价值不大或有失偏颇。指标也不能设置太细，否则用户会放弃评价，体验不好。

最近来自江苏回复
率然

对于评价系统，过于简单的话容易忽略很多外在因素，让查看者做出错误的决定，不管是消费者还是被评价者。解决办法是尽量让评价详细，讲述哪里好哪里不好，但是过于详细的评价又让很多一般评价者难以接受。那么就需要一个折中的方案。既让评价系统足够活跃又让评价有足够的细节。如果想要简单的五星好评，需要足够的评价数量才会有意义，否则很容易出现那些有很强主观意愿的评价，当数量足够多这个星级就会有一定的意义，那么就在数据产生意义之后再展示，当只有三五个人评价时不展示。文末的方法也很好，将一个简单的好评拆分开，让用户能够清楚到底是哪方面做的不足。或者直接忽视那些一般评价者，强制完整的评价，毕竟很多人会跟着别人的观点附和，但是如果能够控制权威发言就很容易误导其它用户。具体用哪个方式要看平台的性质和运营方式了。

最近来自河南回复
Shem

可是评价滞后问题与评论人情绪问题往往是无解的。/摊手

最近来自广东回复
洛风

感觉传统电商的评分功能过于鸡肋，不能作为考量店铺的标准，对于商家而言，需要花费大量的时间和精力去应付拉低评分的恶意评价，对于消费者而言，新店铺的评分普遍高于老店铺，没有参考价值。如果能砍掉评分机制，只保留评论，区分为正面评论、负面评论，甚至不区分，商家便不会花大代价去刷好评提高评分，评论也会变得更加真实

最近来自山东回复
1. 谢十一回复洛风
  
  你错了。你想想如果没有评价体系，面对成千上万的产品，怎么辨别，靠运气吗。评价虽然不能决定全部，但还是有很强的参考性，而且可以督促商家提供更好的服务。如果没有好评差评的督促，跟你沟通时，一言不合就能骂你十八辈祖宗。现在的淘宝店主敢这样骂吗
  
  最近来自上海回复
薪念

用户常常是不以产品为出发点来评价，而通常是以服务角度来反馈，多数的评价只是一时随意为之，三星和四星的区别，或许量化后可以得到某些规律

最近回复
1. 大嘴说回复薪念
  
  服务也是产品的一部分，滴滴在评价系统上做的不错，除了五星评分系统外，增加了选择题评分系统。
  
  最近回复