零假设检验
在运行 A/B 测试时,我们实际上应用了一种称为零假设检验 (NHT) 的过程。我们比较两个着陆页的转化率,并检验零假设,即两个转化率之间没有差异(这意味着对照组的 7% 和变体组的 9% 之间 2 个百分点的差异只是偶然发生的)。
在 A/B 测试中,零假设通常表明更改(或您在页面上所做的更改)对转化没有影响。
如果 p 值小于我们设定的显著性水平(下文将详细介绍),我们将 电子邮件数据 拒绝原假设。拒绝原假设意味着我们的测试表明,我们之前看到的 7% 和 9% 转化率之间存在“统计显著”差异。
我们的 A/B 测试得到“具有统计意义”的结果表明,我们对着陆页所做的更改可能对转化率产生了影响。
显著性水平和 p 值
显著性水平是 A/B 测试错误地拒绝实际上为真的零假设的概率(即,当实际上没有影响时,您得出有影响的结论的概率)。换句话说,显著性水平是获得假阳性结果(或 1 类错误)的概率。
使用多少重要性水平由您决定,但通常设置为 5%。5% 的重要性水平意味着您愿意接受 A/B 测试中出现 5% 的假阳性结果的可能性。
一个相关的概念是 p 值。统计学教科书将 p 值定义为假设零假设为真,结果至少与观察到的结果一样极端的概率。
如果您对“假设零假设为真”部分感到困惑,可以将其视为简单地假设您运行了仅由控制组组成的测试(即,您没有做出任何变化)。
假设在我们的着陆页拆分测试示例中,我们得到的 p 值为 3.2% 或 0.032。这意味着,假设变体的转化率与对照组的 7% 转化率相同,则带有绿色按钮的着陆页(变体组)获得至少 9% 转化率的概率为 3.2%。
由于我们将重要性水平设为 5%,因此 p 值位于拒绝阈值内。这意味着假设零假设成立,我们获得 9% 的转化率的可能性非常小。这被视为反对零假设的证据,因此我们拒绝它。
换句话说,p 值只是告诉我们给定结果的令人惊讶程度。如果结果非常令人惊讶(即 p 值小于显著性水平),那么拒绝原假设很可能是安全的。
统计功效
统计功效是指 A/B 测试正确拒绝错误零假设的概率。简单来说,就是当某种影响确实存在时,测试检测到特定影响的概率。
低功效 A/B 测试比高功效测试更不可能找出效果。统计功效越高,测试犯第 2 类错误(无法拒绝错误的零假设或假阴性)的可能性就越低。
根据 ConversionXL,A/B 测试遵循 80% 功效标准。要提高测试的统计功效,您需要增加样本量、增加效果大小或延长测试持续时间。
效果大小
为了使您的 A/B 测试具有可操作性和实用性,您不仅需要确定给定的变体是否有影响,还应该测量影响有多大。显着性水平、p 值和统计功效只是起点。您还需要分析效果大小。
在我们之前的例子中,效果大小是两组转化率的绝对差值(2 个百分点)。我们也可以将效果大小表示为标准差的单位。
在 A/B 测试中,估计和/或计算效应大小非常重要。在测试开始时估计效应大小有助于您确定样本大小和统计功效,而报告测试后的实验效应大小则可让您对所分析的变化做出更明智的决策。
相关:
置信区间
我们之前示例中的 7% 和 9% 转化率称为点估计(即,每个点估计值都对应一个估计数字)。但是,由于这些值只是根据样本估算的,因此它们可能与每个组的真实转化率一致,也可能不一致。
这就是为什么您还需要为估算的转化率建立置信区间。置信区间通过指定可能找到真实转化率的可能值范围来衡量估算的可靠性。
例如,我们最有可能这样报告变体转化率的置信区间:“我们有 95% 的信心认为绿色着陆页的真实转化率为 9% +/- 2%。”
在这个例子中,我们说,根据我们得到的测试结果,我们对调整后的着陆页转化率的最佳估计是 9%,并且我们有 95% 的信心认为真正的转化率在 7% 到 11% 之间。“+/-2%”值称为误差幅度。
由于我们还对对照组的转化率进行了点估计,因此我们需要为其构建一个单独的置信区间。例如,如果我们发现对照组转化率的 95% 置信区间与其他着陆页的置信区间重叠,我们可能需要继续测试才能得出统计上有效的结果。
请记住,一般来说,样本量越大,置信区间越窄(因为样本越多,估计值越可靠)。
更多资源
以下是有关 A/B 测试统计和一般推断统计的有用资源和进一步阅读材料的列表:
A/B 测试精通:从初学者到专业人士的博客文章(ConversionXL)
使用效应量——或者为什么 P 值不够 (NCBI)
寻找意义:统计意义速成课程(InContext)