A/B 测试样本量计算器
通过计算每个变体所需样本量来规划 A/B 测试。输入基准转化率和最小可检测效应,确定进行统计有效实验所需的访客数量。
n = (Zₐ/₂ + Z𝛃)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂ - p₁)²
你想检测到的相对改进幅度(例如 10% 表示检测 5% → 5.5%)
样本量快速参考表
在 95% 置信度、80% 效能下,每个变体所需样本量:
| 基准转化率 | 5% MDE | 10% MDE | 20% MDE |
|---|---|---|---|
| 1% | 637,008 | 163,092 | 42,691 |
| 3% | 207,936 | 53,208 | 13,911 |
| 5% | 122,121 | 31,231 | 8,155 |
| 10% | 57,760 | 14,749 | 3,839 |
| 20% | 25,580 | 6,507 | 1,680 |
* MDE = 最小可检测效应(相对值)。MDE 越小或基准率越低,所需样本量越大。
常见问题
如何计算 A/B 测试的样本量?
样本量使用以下公式计算:n = (Zα/2 + Zβ)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂-p₁)²,其中 p₁ 为基准转化率,p₂ 为预期改进后的转化率,Zα/2 为置信水平对应的 z 值,Zβ 为所需效能对应的 z 值。
什么是最小可检测效应(MDE)?
MDE 是你希望在测试中能够检测到的最小相对改进。在 5% 基准转化率下,10% 的 MDE 意味着你希望检测到变体是否达到至少 5.5%(绝对提升 0.5 个百分点)。MDE 越小,所需样本量越大。
什么是统计效能?
统计效能(1-β)是正确检测到真实效应的概率。80% 效能意味着你有 80% 的概率检测到真实差异,有 20% 的概率错过它(II 型错误)。效能越高需要越多样本,但可减少假阴性。
为什么 A/B 测试需要这么多访客?
样本量取决于基准转化率、所需 MDE、置信水平和效能。基准转化率越低、MDE 越小、置信度越高、效能越高,所需样本量越大。基准转化率 5%、相对 MDE 5%、95% 置信度、80% 效能时,每个变体需要约 125,000 名访客。
A/B 测试应该运行多长时间?
用总所需样本量除以每日流量。例如,若需要 20,000 名访客,每天获得 2,000,则至少运行 10 天。还应至少运行 1-2 周,以考虑用户行为在一周中不同日期的变化。
应使用什么置信水平和效能?
标准是 95% 置信度和 80% 效能。对于假阳性代价较小的快速迭代,使用 90% 置信度。对于高影响变更,使用 99% 置信度。当错过真实改进代价极大时(如定价测试),将效能提高至 90-95%。
能减少所需样本量吗?
可以:(1) 接受更大的 MDE——只关注大幅改进时,所需样本量更少;(2) 将置信度降低至 90%;(3) 将效能降低至 70-80%;(4) 使用单尾检验(若只关注改进而非恶化,但不推荐用于大多数情况);(5) 将流量集中在测试页面上。
提前停止测试会发生什么?
当看到显著结果就提前停止测试会大幅提高假阳性率——这种现象称为「偷看」。你可能会错误地认为变体更优。请始终在分析结果前完成预先计算的样本量,或使用专为持续监控设计的序贯检验方法。
为什么样本量在 A/B 测试中至关重要
在样本量不足的情况下运行 A/B 测试,就像抛三次硬币就断定它不公平。样本量决定了测试结果的可靠性。访客太少,要么会错过真实改进(假阴性),要么会错误宣布获胜变体(假阳性)。
在实验开始前计算样本量至关重要,原因如下:
- 告诉你测试需要运行多长时间
- 防止提前停止测试(否则会大幅提高假阳性率)
- 确保有足够的统计效能来检测有意义的差异
- 帮助你判断在现有流量水平下测试是否可行
样本量计算公式
双样本比例检验中每个变体所需样本量公式为:
每变体所需样本量:
n = (Zₐ/₂ + Z𝛃)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂ - p₁)²
其中:
- n = 每个变体所需样本量
- Zα/2 = 置信水平对应的 z 值(如 95% 对应 1.96)
- Zβ = 统计效能对应的 z 值(如 80% 对应 0.842)
- p₁ = 基准转化率
- p₂ = 预期转化率(p₁ × (1 + MDE))
样本量计算示例
示例一:标准电商测试
基准转化率:3%。希望在 95% 置信度、80% 效能下检测 10% 的相对改进(3% → 3.3%)。
p₁ = 0.03, p₂ = 0.033
Zₐ/₂ = 1.96, Z𝛃 = 0.842
n = (1.96 + 0.842)² × (0.03 × 0.97 + 0.033 × 0.967) / (0.003)²
n ≈ 每变体 44,202(共 88,404)
示例二:高转化落地页
基准转化率:15%。在 95% 置信度、80% 效能下检测 5% 的相对改进。
p₁ = 0.15, p₂ = 0.1575
n ≈ 每变体 41,122 — 每天 10,000 访客时约需 9 天完成
示例三:大幅改动 + 低流量
基准转化率:2%。在 95% 置信度、80% 效能下检测 50% 相对改进(2% → 3%)。
p₁ = 0.02, p₂ = 0.03
n ≈ 每变体 3,682(共 7,364)— 每天 500 访客时约需 15 天
理解关键参数
基准转化率
测试前的当前转化率。基准转化率越低,需要的样本量越多,因为转化事件更稀少。对于相同的相对 MDE,1% 基准率大约需要 5% 基准率五倍的样本量。
最小可检测效应(MDE)
希望检测到的最小相对改进。5% 基准率下 10% 的 MDE 意味着检测是否提升至 5.5%。MDE 越小,所需样本量呈指数增长——MDE 减半,样本量大约增加四倍。
置信水平(1 - α)
不犯 I 型错误(假阳性)的概率。95% 置信度意味着在没有真实差异时,有 5% 的概率错误宣布获胜者。
统计效能(1 - β)
检测到真实效应的概率。80% 效能意味着有 20% 的概率错过真实改进(II 型错误 / 假阴性)。效能越高,所需样本量越多。
| 错误类型 | 名称 | 控制方式 | 后果 |
|---|---|---|---|
| I 型错误(α) | 假阳性 | 置信水平 | 上线一个无效的改动 |
| II 型错误(β) | 假阴性 | 统计效能 | 错过真实改进 |
如何减少所需样本量
- 接受更大的 MDE——只测试预期有明显效果的改动。如果只愿意上线 20% 以上的改进,就用 20% 的 MDE。
- 降低置信水平——对非关键实验使用 90% 而非 95%,可减少约 20% 的样本量。
- 接受较低效能——80% 效能是标准值,但对筛选性测试 70% 也可接受,可减少约 15% 的样本量。
- 集中流量——仅在流量最高的页面或细分用户群上运行测试,加快数据收集速度。
- 使用复合指标——使用转化率更高的指标(如点击率 vs. 购买率)可减少所需样本量。
样本量规划常见误区
- 设定不切实际的 MDE——50% 的改进听起来很诱人,但极少能实现。大多数真实改进在 5-15% 之间,要据此规划。
- 忽视测试时长——即使总流量足够,也需要至少运行 1-2 整周,以覆盖用户行为的星期效应。
- 忽略多重比较——用一个对照组测试 5 个变体时,需要 Bonferroni 校正或类似调整。
- 忽略季节性——在季节性高峰期间运行的测试结果,可能无法推广到其他时期。
- 偷看结果——在达到预计样本量前检查显著性,会大幅提高假阳性率。