你的 A/B 测试是垃圾测试吗？ | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

{{ userInfo.member ? '查看权益' : '开通会员' }}

发布

注册 | 登录

你的 A/B 测试是垃圾测试吗？

王瑞秋

2019-07-15

1 评论 6235 浏览 31 收藏

11 分钟

本文作者从市场营销的角度出发，结合自己的所思所想，分享了在设计A/B 测试过程中需要注意的五个点，供大家一同参考和学习。

在这个以数字为先的广告世界，许多领导者都渴望将营销、市场作为一门科学来管理。于是，他们用精确、测量、数据这些科学的字眼来说话，他们聘请专业人士，他们教团队用结构化的实验来验证他们的假设……

然而，除了十分专业的产品经理以外，大多数人并不知道如何用科学、正面的方法论去研究A/B测试的问题，尽管他们进行了所有“成功”的A/B测试，但对于具体的业务指标并没有多大改善。

为什么会这样呢？相关人员到底在A/B测试中学到什么？

我认为，从市场营销的角度来谈，在设计一轮A/B测试时，必须要记住以下五个要点：

一、统计显著性

虽然这几个字看上去毫无趣味，但大多数营销人员不能正确定义统计的意义。

当我们开始一个A/B测试：“我正在测试的广告之间没有性能差异。”

然后，我们运行测试并收集数据，我们希望这些数据将反馈给我们信息，并得出相反的结论，即存在性能差异。

但从技术上讲，问题是：“假设最初的假设成立，任何性能上的差异都是由随机因素造成的，那么能观察到实际差异的可能性有多大？”

所以，计算p值很棘手，但需要理解的重要一点是：p值越低，我们就越有信心得出我们测试的广告之间存在真正差异的结论。

具体地说，p值为0.05意味着有5%的可能性，观察到的性能差异将由于纯粹的随机因素而产生。

然而，重要的是，要学会理解这只是一个社会惯例所使用的标签而已，在一个数据匮乏、没有电脑的时代，这可以说是一个合理的标准，但在今天的世界，它可能已经被打破了。

二、统计显著性≠实际显著性

统计显著性分析虽然可以帮助市场人员评估广告之间是否存在性能差异，但它并没有说明这种差异在实际应用中有多大或有多重要。有了足够的数据，无关紧要的差异可被视为“具有统计意义”。

例如，假设你用两个稍微不同的广告运行一个A/B测试。

你为每个广告投放了1,000,000个展示，然后你发现版本A获得1,000个展示，而版本B获得1,100个展示。使用相关的A/B测试计算方法，你将看到这是一个“具有统计意义”的结果—p值为0.01，远远超过通常的0.05阈值。

但这一结果是否具有实际意义？

数字代表着一个进步，但在大多数营销环境中很难改变游戏规则，记住，有时候需要成千上万次的投放才能得出这个结论，而这个结论本身就很费钱。

我对营销领导者的实际建议是：要学会接受这样的事实，市场与产品不同，A/B测试中微小的调整可能很难会产生巨大影响。

要学会重新定义测试在市场营销中所扮演的角色，使你的团队成员将重要性分析理解为一种比较有意义的理念与方法，而不是定义成功。

三、谨防“偏见”

但是，如何理解那些我们读过的、并与我们的团队分享过的、看起来微不足道的A/B测试带来的巨大性能收益的文章呢？比如“如何添加逗号提高30%的收入”“这个表情符号改变了我的生意”等等。

虽然肯定会发生这样的情况，但它们的数量和距离都比互联网搜索所能让你相信的要少得可怜。

在市场营销领域，这个问题被一些因素复杂化了：人们总是很轻易的认为，通过一些A/B测试，轻松取胜就在眼前；所以，他们当然不会公布那些没有产生有趣结果的实验，也就容易造成一种分布偏见。我们不会看到或谈论所有A/B测试的结果，更何况一些测试运行的结果根本就是无关紧要的。

所以，请记住，一些看起来好得令人难以置信的结果很可能是真的。但你需要这样问自己：他们进行了多少次实验才得出如此惊人的结果?

不要因为要复制有价值的结果而感到压力，相反，要把注意力集中在不引人注目但更重要的工作上，测试有意义的不同策略，并寻找具有实际意义的重大结果——这才是真正的价值所在。

四、小心 p-hacking

数据是营销人员最好的朋友，但它同时还带着一个警告标签，因为你拥有的数据维度越多，你就越有可能以某种方式陷入被称为“p-hacking”的反模式。

P-hacking指的是数据分析能够从纯噪声中产生看似“具有统计意义”的结果的某些方式。最明目惊心的p-hacking形式，不过是不断地进行实验，直到得到你想要的结果。

记住，p值为0.05意味着观察到的差异有5%的几率是随机产生的，如果你将同一个实验进行20次，你应该期望仅凭偶然就能得到一个“显著”的结果。如果你有足够的时间和动力，你可以有效地保证在某一时刻取得显著的成果。

众所周知，制药公司为了让一种药物获得FDA的批准会做这样的事情，但这可不是什么好事。大多数营销团队永远不会做这么愚蠢的事情，但有一些更微妙的p-hacking形式需要注意。

例如：你针对受众，运行两个不同的广告；但是，当高层次的结果被证明不显著时，通常会发生的情况是，我们对数据进行更深入的挖掘，以寻找更有趣的发现。

也许如果我们只看女性，我们会发现不同？我们看看不同年龄段的人呢？看看iPhone和Android用户……

这种方式很容易分割数据，但通常被认为是一种很好的实践方法。

在科学领域，这个问题已经通过一种叫做“预注册”的实践得到了解决。在这种实践中，研究人员公布他们的研究计划，包括他们希望进行的数据分析，以便他们研究的消费者能够相信，结果不是在电子表格中合成的。

而在市场营销中，我们通常不会公布我们的结果，但是我们应该应用这些最佳实践。

五、在 ROI 中包含实验成本

生活中一个经常被忽视的事实是A/B是免费的，但其实，它们需要花时间、精力和金钱来设计和执行。

大多数A/B测试关注的是创造性，因为广告性能在很大程度上是由创造性驱动的。大多数写在A/B测试上的东西就像从天上掉下来的创意一样，你所需要做的就是测试，以确定哪种效果最好。

例如：假设你的总营销预算为25,000美元，而你正在尝试决定是在单个广告上花费2千美元，还是在5种不同的变体广告上花费5万美元；如果我们假设你需要在每个广告变体上花费1美元来测试其性能作为A/B测试的一部分，那么你需要获胜的广告比A/B测试的基线性能至少高出20％才是值得的。

20%可能听起来并不多，但是任何做过重要A/B测试的人都知道这样的收益并不容易获得，特别是如果你在一个相对成熟的环境中进行操作。

所以，请记住，你的目标是最大化广告投资回报率，而不仅仅是为了实验而实验。预先运行ROI计算，以确定你需要多大程度的改进才能使你的A/B测试物有所值。

六、写在最后

科学的营销方法对该领域具有不可思议的价值，但营销人员经常使用的一些方法和工具，可能只是肤浅的理解，最终浪费了大量的时间、精力和金钱。

为了避免重复这些错误，并在相关问题上取得一些有价值的进步，相关人员必须学会从复杂或习以为常的错误中，不断吸取教训，改善并提升。

原文作者：NathanLabenz；原文来源：https://martechtoday.com

编译过程中有所删减。

编译：研如玉，神策数据·用户行为洞察研究院公众号（ID：SDResearch）

本文由 @研如玉翻译发布于人人都是产品经理，未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

王瑞秋

神策数据内容营销

37篇作品 474522总阅读量

用户便利与平台运营：探讨App手动签到与自动签到的选择

06-1911452 浏览

用户便利与平台运营：探讨App手动签到与自动签到的选择

腾讯 TDesignFlutter 组件库开源啦🎉🎉🎉

12-079314 浏览

腾讯 TDesignFlutter 组件库开源啦🎉🎉🎉

4万字B端产品拆解丨从0到1拆解小鹅通后台设计（一）

02-2020878 浏览

4万字B端产品拆解丨从0到1拆解小鹅通后台设计（一）

小红书投放成本越来越高？如何管理流量？

07-194617 浏览

小红书投放成本越来越高？如何管理流量？

打造优秀的“人类伙伴”：聊聊用户体验智能感三要素

08-215241 浏览

打造优秀的“人类伙伴”：聊聊用户体验智能感三要素

评论

spike

有没有人觉得翻译有点绕口。。。。。。。。
A/B Test是有P值，是需要大量成本的，是有可能带来偏见的，需要进行ROI评估，A/B Test不是万能的？

最近来自浙江回复

Apple Vision Pro 视觉与动效设计原则拆解

08-086358 浏览
微抖快跑入局，2023互联网大厂终局就是送外卖

03-012466 浏览
AI 五分钟写的直播带货脚本，吊打专业文案

12-2211327 浏览