A/B 测试样本量计算器

通过计算每个变体所需样本量来规划 A/B 测试。输入基准转化率和最小可检测效应,确定进行统计有效实验所需的访客数量。

n = (Zₐ/₂ + Z𝛃)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂ - p₁)²

你想检测到的相对改进幅度(例如 10% 表示检测 5% → 5.5%)

样本量快速参考表

在 95% 置信度、80% 效能下,每个变体所需样本量:

基准转化率5% MDE10% MDE20% MDE
1%637,008163,09242,691
3%207,93653,20813,911
5%122,12131,2318,155
10%57,76014,7493,839
20%25,5806,5071,680

* MDE = 最小可检测效应(相对值)。MDE 越小或基准率越低,所需样本量越大。

常见问题

如何计算 A/B 测试的样本量?

样本量使用以下公式计算:n = (Zα/2 + Zβ)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂-p₁)²,其中 p₁ 为基准转化率,p₂ 为预期改进后的转化率,Zα/2 为置信水平对应的 z 值,Zβ 为所需效能对应的 z 值。

什么是最小可检测效应(MDE)?

MDE 是你希望在测试中能够检测到的最小相对改进。在 5% 基准转化率下,10% 的 MDE 意味着你希望检测到变体是否达到至少 5.5%(绝对提升 0.5 个百分点)。MDE 越小,所需样本量越大。

什么是统计效能?

统计效能(1-β)是正确检测到真实效应的概率。80% 效能意味着你有 80% 的概率检测到真实差异,有 20% 的概率错过它(II 型错误)。效能越高需要越多样本,但可减少假阴性。

为什么 A/B 测试需要这么多访客?

样本量取决于基准转化率、所需 MDE、置信水平和效能。基准转化率越低、MDE 越小、置信度越高、效能越高,所需样本量越大。基准转化率 5%、相对 MDE 5%、95% 置信度、80% 效能时,每个变体需要约 125,000 名访客。

A/B 测试应该运行多长时间?

用总所需样本量除以每日流量。例如,若需要 20,000 名访客,每天获得 2,000,则至少运行 10 天。还应至少运行 1-2 周,以考虑用户行为在一周中不同日期的变化。

应使用什么置信水平和效能?

标准是 95% 置信度和 80% 效能。对于假阳性代价较小的快速迭代,使用 90% 置信度。对于高影响变更,使用 99% 置信度。当错过真实改进代价极大时(如定价测试),将效能提高至 90-95%。

能减少所需样本量吗?

可以:(1) 接受更大的 MDE——只关注大幅改进时,所需样本量更少;(2) 将置信度降低至 90%;(3) 将效能降低至 70-80%;(4) 使用单尾检验(若只关注改进而非恶化,但不推荐用于大多数情况);(5) 将流量集中在测试页面上。

提前停止测试会发生什么?

当看到显著结果就提前停止测试会大幅提高假阳性率——这种现象称为「偷看」。你可能会错误地认为变体更优。请始终在分析结果前完成预先计算的样本量,或使用专为持续监控设计的序贯检验方法。

为什么样本量在 A/B 测试中至关重要

在样本量不足的情况下运行 A/B 测试,就像抛三次硬币就断定它不公平。样本量决定了测试结果的可靠性。访客太少,要么会错过真实改进(假阴性),要么会错误宣布获胜变体(假阳性)。

在实验开始前计算样本量至关重要,原因如下:

  • 告诉你测试需要运行多长时间
  • 防止提前停止测试(否则会大幅提高假阳性率)
  • 确保有足够的统计效能来检测有意义的差异
  • 帮助你判断在现有流量水平下测试是否可行

样本量计算公式

双样本比例检验中每个变体所需样本量公式为:

每变体所需样本量:

n = (Zₐ/₂ + Z𝛃)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂ - p₁)²

其中:

  • n = 每个变体所需样本量
  • Zα/2 = 置信水平对应的 z 值(如 95% 对应 1.96)
  • = 统计效能对应的 z 值(如 80% 对应 0.842)
  • p₁ = 基准转化率
  • p₂ = 预期转化率(p₁ × (1 + MDE))

样本量计算示例

示例一:标准电商测试

基准转化率:3%。希望在 95% 置信度、80% 效能下检测 10% 的相对改进(3% → 3.3%)。

p₁ = 0.03, p₂ = 0.033
Zₐ/₂ = 1.96, Z𝛃 = 0.842
n = (1.96 + 0.842)² × (0.03 × 0.97 + 0.033 × 0.967) / (0.003)²
n ≈ 每变体 44,202(共 88,404)

示例二:高转化落地页

基准转化率:15%。在 95% 置信度、80% 效能下检测 5% 的相对改进。

p₁ = 0.15, p₂ = 0.1575
n ≈ 每变体 41,122 — 每天 10,000 访客时约需 9 天完成

示例三:大幅改动 + 低流量

基准转化率:2%。在 95% 置信度、80% 效能下检测 50% 相对改进(2% → 3%)。

p₁ = 0.02, p₂ = 0.03
n ≈ 每变体 3,682(共 7,364)— 每天 500 访客时约需 15 天

理解关键参数

基准转化率

测试前的当前转化率。基准转化率越低,需要的样本量越多,因为转化事件更稀少。对于相同的相对 MDE,1% 基准率大约需要 5% 基准率五倍的样本量。

最小可检测效应(MDE)

希望检测到的最小相对改进。5% 基准率下 10% 的 MDE 意味着检测是否提升至 5.5%。MDE 越小,所需样本量呈指数增长——MDE 减半,样本量大约增加四倍。

置信水平(1 - α)

不犯 I 型错误(假阳性)的概率。95% 置信度意味着在没有真实差异时,有 5% 的概率错误宣布获胜者。

统计效能(1 - β)

检测到真实效应的概率。80% 效能意味着有 20% 的概率错过真实改进(II 型错误 / 假阴性)。效能越高,所需样本量越多。

错误类型名称控制方式后果
I 型错误(α)假阳性置信水平上线一个无效的改动
II 型错误(β)假阴性统计效能错过真实改进

如何减少所需样本量

  1. 接受更大的 MDE——只测试预期有明显效果的改动。如果只愿意上线 20% 以上的改进,就用 20% 的 MDE。
  2. 降低置信水平——对非关键实验使用 90% 而非 95%,可减少约 20% 的样本量。
  3. 接受较低效能——80% 效能是标准值,但对筛选性测试 70% 也可接受,可减少约 15% 的样本量。
  4. 集中流量——仅在流量最高的页面或细分用户群上运行测试,加快数据收集速度。
  5. 使用复合指标——使用转化率更高的指标(如点击率 vs. 购买率)可减少所需样本量。

样本量规划常见误区

  • 设定不切实际的 MDE——50% 的改进听起来很诱人,但极少能实现。大多数真实改进在 5-15% 之间,要据此规划。
  • 忽视测试时长——即使总流量足够,也需要至少运行 1-2 整周,以覆盖用户行为的星期效应。
  • 忽略多重比较——用一个对照组测试 5 个变体时,需要 Bonferroni 校正或类似调整。
  • 忽略季节性——在季节性高峰期间运行的测试结果,可能无法推广到其他时期。
  • 偷看结果——在达到预计样本量前检查显著性,会大幅提高假阳性率。

相关计算器