千万别因选错指标，毁了你的A/B实验 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

千万别因选错指标，毁了你的A/B实验

2024-04-09

0 评论 1998 浏览 13 收藏

B端产品经理两大难题：如何从市场，用户，业务等多个角度分析和设计产品？如何有效地管理和推进项目落地？

选对AB实验指标，可能是你实验成功与否的关键。本文将揭秘如何选择合适的实验指标，帮助你在实验中快速实现目标。

实验设计主要有三个步骤：选择实验指标、确定实验受众和设计实验版本。

其中，选择正确的实验指标至关重要。在设计实验时，真正尝试过的同学都会意识到这里有很多坑。

很多时候实验上线了，但是指标定义的不准确，导致得不出结论，或者甚至得出了错误的结论；有时候实验表面上看起来很成功，但对下游的某一个指标有很大的影响，但是我们压根不知道。

以上问题，应该如何避免？

一、选择正确的实验指标

1. 实验设计的三个步骤

（1）选择实验指标

选择实验指标是实验设计的第一步，我们要回答的最关键问题是：哪些指标能够衡量实验的成功或失败？这一步非常重要，就像做增长要先找到北极星指标一样，做实验也要先找到正确的实验指标。

（2）确定实验受众

确定实验受众是实验设计的第二步。我们需要清晰地定义出实验受众，并估算出所需要的样本量。这样你就可以根据你具体的情况来做一些调整，比如说减少一些实验的版本数，或者加大这个实验版本的改动的程度。

（3）设计实验版本

设计实验版本是实验设计的第三步。如果采用第三方实验工具，整个流程相对简单；如果要自建实验系统进行设计和开发，流程会比较复杂。

本文主题聚焦于如何选择核心指标，未来再逐步分享如何确定实验受众和设计实验版本。

2. 亚马逊中国的实验指标选择

下面通过亚马逊中国的案例，说明为什么选择正确实验指标至关重要。

（1）亚马逊中国购物车AB测试第一次失败

a. 第一次实验指标选择销售额，新版本表现更差

亚马逊中国想做一个购物车的AB测试。中国用户习惯把购物车当收藏夹用，部分选择产品结账，其余产品留在购物车里。但亚马逊全球的购物车设计是全部结账的模式。

亚马逊中国的团队针对这样的发现，就想设计一个 AB 测试来测一下。如果把亚马逊中国也改成可选择部分商品结账，这样的这样一种更受中国用户习惯的方式，是不是效果会更好？

他们第一次选择的实验指标是销售额，实验上线后，结果是跑了一个月的部分结账版本输给了全部结账版本，销售额更低，不得不进行了回滚。

b. 进一步分析发现新用户不熟悉全部结账，导致销售额虚高但长期满意度下降

团队百思不得其解，为什么在中国其他电商网站上成功的版本，在亚马逊中国不适用？进一步分析后有三个发现：

①第一个发现是新用户刚接触全部结账的版本（也就是老版本）还不够熟悉，很多人都会出现一不小心买多了的情况，所以就会推高老版本的销售额。这些一不小心买多了的用户，只有部分会去退货，因此销售额还是比较高的。

②但是买多了的用户长期满意度下降，因为他们过一段时间反应过来了，发现自己不小心买多了。

③在部分结账的版本里面，很多用户其实会把购物车里面保留的产品过一段时间又买回来，所以这些产品其实是有潜在销售的机会的，但是用户的购买时间存在延迟，因此在之前做实验的事后是显示不出来的。

c. 亚马逊中国首次实验指标选择小结

最后，亚马逊中国团队得出结论：如果第一次实验就对比更多指标，可能会发现全部结账版本短期销售额高，但退货率高，长期满意度低；而部分结账版本长期复购率和销售额更高。但第一次实验只关注了短期销售额，没关注其他指标，导致得出老版本更好的错误结论。

（2）亚马逊中国优化实验指标，二次实验成功

基于上述总结认知，亚马逊中国团队重新定义实验指标，进行二次实验。

核心指标从第一版的短期销售额，变成了综合销售额的概念，不仅包括短期直接销售额，还包括对长期销售额的预期。

同时，也加入了一系列辅助指标，如复购率、下单频次、结账转化率等。这些指标虽然不足以直接说明实验的成败，但是可以从各个侧面辅助我们做出决策。

最后，还加入了退货率作为衡量负面结果大小的指标。

做交互设计10年，我为何转岗到产品经理？

真正转岗之后，我发现很多工作还是超出了自己的想象。产品经理的工作确实比较杂。理论上，产品经理的工作包括了产品的方方面面，从市场研究、用户调研、数据分析...

通过全面观察一系列实验指标，部分结账的新版本最终胜出。它不仅带来了综合销售额的提升，还带来了下单频次的提升，终于成功上线。

亚马逊中国团队并没有改变实验版本的任何设计，只是选择了更全面准确的实验指标，就从实验失败变成了成功。

由此可见，AB实验成功的关键在于选择正确指标，包括核心指标、辅助指标和反向指标，以全面、准确地衡量实验成效。

二、准确全面衡量实验成败的三类指标

那么，想要准确全面地衡量实验成败，应该如何选取指标？建议大家考虑选择核心指标、辅助指标和反向指标这三类实验指标。

1. 核心指标：决定实验成败的关键指标

（1）核心指标代表实验的最终北极星指标

核心指标是决定实验成败的关键指标。对于做增长实验来说，我们要找到决定这个实验成败的最关键指标，它是我们后期进行统计显著性计算，决定新老版本哪个更好的指标。

（2）案例：APP首页新手引导板块AB测试

某 APP 做了首页新手引导板块的改版，它的目标是想让新用户了解产品功能，完成初始设置。

实验假设是通过让用户阅读更多的新手介绍文章，告诉他们这个产品怎么用，可以帮助他们完成初始的设置。

A版本是新手文章呈卡片式排列，B版本是文章呈清单式排列。如果关注点击率，就会发现B组清单版本表现更好；但如果关注新手设置完成率，就会发现A组卡片版本表现更好。

这种情况下，核心指标应该选新手设置完成率，而非文章标题点击率。和选择增长北极星指标一样，做实验时也要注意不要选择虚荣指标。

要以实验最终目标为准绳，选择最能代表目标的指标作为核心指标。虽然B组点击率更高，但根据实验最终目标，它的表现更差，最终胜出的是A组卡片版本。

2. 辅助指标：全面了解实验结果

对于绝大多数简单实验，可能只有一个核心指标就够了。但对于比较复杂、涉及长漏斗或对下游指标可能有影响的实验，我们还要选择辅助指标。

（1）影响整个用户漏斗的各个步骤

衡量实验成败的第二类指标是辅助指标，它可以帮助我们全面了解实验结果，确保没有误伤到某些指标。如果实验影响到整个用户漏斗，我们不应只看漏斗的最终步骤，还要监测对整个漏斗所有步骤的影响。

（2）关注下游和其他用户关键指标

如果有一些重要的下游指标，我们要全面观测实验会不会对某个下游指标产生影响，以及对其他用户关键指标的影响。

（3）案例：Airbnb采用关键指标仪表盘全面评估实验影响

事实上，一些硅谷大规模进行增长实验的公司如Airbnb，他们采取的方式是做一个关键指标仪表盘，任何一个增长实验的结果都会放到这个仪表盘上，观察对任何关键指标有无影响。如果有影响都会显示出来，这样就可以避免一不小心误伤到某些指标的情况。

3. 反向指标：提示实验可能的负面影响

（1）为什么需要反向指标

反向指标可以提示实验可能的负面影响。如果负面影响很小或没有，我们就可以宣告实验成功；如果负面影响太高，就算核心指标表现更好，我们也可能直接否决实验结果。一般来说反向指标选取1-2个即可。

（2）常见反向指标

常见的反向指标包括NPS、应用删除率、邮件退订率、push退订率以及页面退出率等。

综上，核心指标衡量关键实验成果，辅助指标全面理解实验作用，反向指标防止忽视负面影响。

4.综合案例：电商网站购物车按钮AB测试指标选择

举例，如果一个电商网站想做加入购物车按钮的AB测试，测试各种购物车按钮哪个表现更好，应该怎么选择指标？因为购物车按钮在产品详情页上，我们可以把整个用户购物漏斗画出来。

（1）核心指标

此案例中，应该选择的核心指标就是加入购物车按钮本身的点击率，因为它是实验想影响的主要的目标。

（2）辅助指标

在这个例子里面，虽然最终的目标是提高销售额，但是加入购物车和提高销售额之间有非常多的步骤，因此我们应该把加入购物车作为核心的指标，而销售额作为一个辅助的指标。

其他的辅助指标还包括加入购物车按钮的点击次数，有多少人访问购物车的页面，或者在购物车下单成功销售额、复购率等等。

（3）反向指标

最终的反向指标可能是退货率。

通过选择合适的三类指标，我们就可以全面衡量这个改动对整个购物漏斗的影响，不会只看到其中一方面而漏掉其他可能的影响。

以上就是如何通过三类实验指标准确全面的衡量实验的结果，后续还会介绍如何通过 AB 测试的系统和工具来确保科学分流和结果的可信性。

所以，不要害怕实验中的失败和挑战，而应该更加聚焦于如何通过科学的方法——正确选择指标、深入了解受众、科学流量划分，来提升我们的实验设计能力。因为每一次实验，都是向成功迈进的一步。

本文由 @小黑哥原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

【增长黑客之道】公号主理人，10年大厂运营专家提供“策略型用户增长”方向求职服务

101篇作品 251407总阅读量

一篇文章搞懂一个系统之ERP

08-1417394 浏览

一篇文章搞懂一个系统之ERP

长视频终局：一场考验资金储备的消耗战

03-141655 浏览

长视频终局：一场考验资金储备的消耗战

AI教育中数据收集和分析的重要性

09-053973 浏览

AI教育中数据收集和分析的重要性

营销能否摆脱忽悠的原罪？！

12-151668 浏览

营销能否摆脱忽悠的原罪？！

100个关键词预测2023年 | 品牌和营销篇（31-40）：元宇宙、大自然董事和无年龄

03-076860 浏览

100个关键词预测2023年 | 品牌和营销篇（31-40）：元宇宙、大自然董事和无年龄

评论

目前还没评论，等你发挥！

从开发转产品，我给你的3个实质性建议

近半年看到的最创新的虚拟社交App，没有之一

10-185142 浏览
自己从0到1探索电商系统搭建——订单业务的正向逻辑梳理

10-304887 浏览
笔记带货、本地团购、AIGC种草，小红书加速“狂飙”

05-192289 浏览

13521人已学习13篇文章

产品异常场景设计指南

产品设计与用户的体验感息息相关，但是很多时候产品经理在产品设计过程中会忽略掉可能影响到用户体验感的一些因素，比如一些异常状态的出现会让用户产品卸载的想法。本专题的文章分享了产品异常场景设计指南。

13528人已学习11篇文章

内容管理系统（CMS）的设计指南

内容管理系统是一种位于WEB 前端（Web 服务器）和后端办公系统或流程（内容创作、编辑）之间的软件系统。本专题的文章分享了内容管理系统（CMS）的设计指南。

53776人已学习15篇文章

一个好的运营体系该如何搭建？

无论是个人运营体系还是公司运营体系的构建，你都能在这里找到。

133949人已学习23篇文章

产品分析报告撰写指南

产品经理，除了会写竞品分析，还要会写产品分析。

14522人已学习12篇文章

产品架构的设计指南

“产品架构能力”是B2B产品经理中泛指设计产品系统架构的能力，这是产品经理非常重要的一个能力。本专题的文章分享了产品架构的设计指南。

31543人已学习11篇文章

如何做好产品优化？

来看看别人家是怎么做产品优化的。