数据分析方法论之A/B测试

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

FAL-金科应用研院

2023-09-15

0 评论 9768 浏览 31 收藏

11 分钟

在产品日常工作中，A/B测试这一方法的使用十分常见，我们可以结合A/B测试，比较两个或多个不同版本的产品、服务或策略，以得出哪个版本结果相对更优。这篇文章里，作者就对A/B测试的流程进行了拆解分析，一起来看。

AB测试是一种统计方法，用于比较两个或多个不同版本的产品、服务或策略，以确定哪个版本能够产生更好的结果。在AB测试中，将目标人群随机分为两组，一组接触版本A，另一组接触版本B，然后收集和分析数据来评估两个版本的表现差异。

AB测试最核心的原理，基于控制变量法的思想进行假设检验。

控制变量法是一种科学实验设计的方法，旨在减少外部因素对实验结果的影响。通过控制变量，研究人员可以更准确地评估特定因素对实验结果的影响，从而得出可靠的结论。

在使用控制变量法时，研究人员会明确定义并控制可能影响实验结果的各个变量，除了感兴趣的因素之外，其他变量应该保持恒定。这样做的目的是排除其他可能导致观察到的差异的干扰因素。

假设检验是一种统计方法，用于对统计样本数据进行分析以验证关于总体特征的假设。它基于样本数据的观察结果，评估这些观察结果是否支持或反驳某个假设。

在假设检验中，通常有两个假设：

零假设（H0）：表示没有观察到的效应或差异，即不存在真实的关联或差异。通常将其表示为无效果、无影响或随机性。

备择假设（H1或Ha）：表示存在观察到的效应、关联或差异，与零假设相反。它可以是双边备择假设（两组之间存在显著差异）或单边备择假设（一组大于另一组或小于另一组）。

假设检验的步骤，通常包括以下几个方面：

确定问题和研究目标：明确要验证的假设，并确定所需的统计方法和适当的检验类型。
设定显著性水平：选择显著性水平（通常为0.05），表示允许出现错误地拒绝零假设的概率。
收集数据并计算统计量：收集样本数据，并计算适当的统计量，如均值、比例、差异或相关性。
假设检验：根据所选的检验类型，将计算得到的统计量与相应的概率分布进行比较，以确定是否拒绝零假设。
计算p值和做出决策：根据统计分析结果计算出的p值，与事先设定的显著性水平进行比较。如果p值小于显著性水平，则拒绝零假设，否则接受零假设。

AB测试通常用于优化网站设计、广告效果、用户界面、营销策略等方面。通过对比不同版本的指标，如点击率、转化率、销售量等，可以确定哪个版本更有效，并基于这些结果做出决策。

一、AB测试流程

二、明确实验背景

指深入理解组织或产品所面临的挑战和目标，以确定AB测试的关键目的，比如策略效果验证，产品功能验证等

三、选择指标

需要综合考虑实际可测性、敏感度、用户体验、长期影响和业务目标等因素。通过选择合适的指标，可以更好地评估实验结果，并做出有效的决策；

指标选取的关键考虑因素：

目标：根据目标来选择与之相关的指标。
实际可测性：确保所选择的指标是可以被准确测量和收集数据的。指标应该是客观的，能够经过统计分析得出可靠的结论。
敏感度：选择对于变化敏感的指标。如果你希望检测到较小的效果或差异，需要选择一个相对敏感的指标。
用户体验：考虑用户体验指标，如页面加载时间、用户留存率、转化率等。这些指标直接关系到用户对产品或服务的满意度和使用体验。
长期影响：除了即时的指标，还应考虑长期的影响。某个指标在短期可能有所改善，但可能对长期业务结果并无实际影响。
综合性：综合多个指标来全面评估测试结果。单一指标可能无法全面反映问题，因此建议选择多个相关指标进行综合分析。
可比性：确保所选择的指标在不同实验组之间具有可比性，即能够进行有效的统计对比。
业务目标导向：最重要的是将指标与你的业务目标联系起来。选择那些对于实现业务目标有实际意义的指标，而非仅仅追求表面上的差异。

四、制定假设

基于实验目标和背景信息，提出明确的假设。假设应该是可测量的，并明确指出预期的结果差异。

计算样本量

1）数值类计算：需要填写方差

http://powerandsamplesize.com/Calculators/Compare-2-Means/2-Sample-Equality

https://www.stat.ubc.ca/~rollin/stats/ssize/n2.html

2）比值类计算：不需要方差

https://www.evanmiller.org/ab-testing/sample-size.html

五、流量分组

分流是指将参与测试的用户或观察对象随机分配到不同的实验组（通常是A组和B组）的过程。这样可以确保实验组之间的差异仅由测试因素引起，而不受其他因素的干扰。

六、实验周期计算

一种常用的方法是通过在线AB测试样本量计算器，例如”Sample Size Calculator for AB Testing”等，这些工具会根据输入的参数返回所需的样本量和实验持续时间估计。

七、AA实验

也被称为“纯控制组实验”或“双重盲试实验”。在AA实验中，所有参与实验的用户或观察对象都被随机分配到相同的控制组，没有额外的实验组。这意味着在AA实验中，不存在对比组来测试特定变量或功能的效果。

AA实验通常被用作验证实验环境的有效性和稳定性，以确保实验结果可靠和可解释。它可以用于评估实验平台、数据收集方法、测量指标等方面的可靠性，或者作为预实验（pilot study）的一部分。

八、线上验证

一个是验证实验策略是否真的触发。即我们上线的实验组，是否在产品上实际落地了，比如我们优化的文案，看实验组在前端看到的文案是不是优化过的。

另一个是验证同一个用户只能在同一个桶中，要是同时出现在两个桶中，后期数据也会不置信。

九、数据检验

在进行AB测试数据检验时，需要选择适当的方法和假设，并根据样本大小、数据分布和实验设计来确定合适的统计分析方法。

假设检验（Hypothesis Testing）：根据AB组的观测数据，建立一个零假设（Null Hypothesis）和一个备择假设（Alternative Hypothesis）。零假设通常假定A组和B组没有真实差异，备择假设则认为存在差异。通过计算统计量和对应的p值，来评估零假设的可信程度。

t检验（t-test）：适用于比较两个相关或独立样本的平均值差异。如果数据满足正态分布和其他t检验的假设条件，可以使用独立样本t检验或配对样本t检验来比较A组和B组之间的平均值差异。

来源公众号：FAL-金科应用研院（ID：fintechapplab_sz），Make Fintech Easier And Smarter

本文由人人都是产品经理合作媒体 @FAL金科应用研院授权发布，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App