Question 1

如何计算 A/B 测试的样本量？

Accepted Answer

样本量使用以下公式计算：n = (Zα/2 + Zβ)² × (p₁(1-p₁) + p₂(1-p₂)) / (p₂-p₁)²，其中 p₁ 为基准转化率，p₂ 为预期改进后的转化率，Zα/2 为置信水平对应的 z 值，Zβ 为所需效能对应的 z 值。

Question 2

什么是最小可检测效应（MDE）？

Accepted Answer

MDE 是你希望在测试中能够检测到的最小相对改进。在 5% 基准转化率下，10% 的 MDE 意味着你希望检测到变体是否达到至少 5.5%（绝对提升 0.5 个百分点）。MDE 越小，所需样本量越大。

Question 3

什么是统计效能？

Accepted Answer

统计效能（1-β）是正确检测到真实效应的概率。80% 效能意味着你有 80% 的概率检测到真实差异，有 20% 的概率错过它（II 型错误）。效能越高需要越多样本，但可减少假阴性。

Question 4

为什么 A/B 测试需要这么多访客？

Accepted Answer

样本量取决于基准转化率、所需 MDE、置信水平和效能。基准转化率越低、MDE 越小、置信度越高、效能越高，所需样本量越大。基准转化率 5%、相对 MDE 5%、95% 置信度、80% 效能时，每个变体需要约 125,000 名访客。

Question 5

A/B 测试应该运行多长时间？

Accepted Answer

用总所需样本量除以每日流量。例如，若需要 20,000 名访客，每天获得 2,000，则至少运行 10 天。还应至少运行 1-2 周，以考虑用户行为在一周中不同日期的变化。

Question 6

应使用什么置信水平和效能？

Accepted Answer

标准是 95% 置信度和 80% 效能。对于假阳性代价较小的快速迭代，使用 90% 置信度。对于高影响变更，使用 99% 置信度。当错过真实改进代价极大时（如定价测试），将效能提高至 90-95%。

Question 7

能减少所需样本量吗？

Accepted Answer

可以：(1) 接受更大的 MDE——只关注大幅改进时，所需样本量更少；(2) 将置信度降低至 90%；(3) 将效能降低至 70-80%；(4) 使用单尾检验（若只关注改进而非恶化，但不推荐用于大多数情况）；(5) 将流量集中在测试页面上。

Question 8

提前停止测试会发生什么？

Accepted Answer

当看到显著结果就提前停止测试会大幅提高假阳性率——这种现象称为「偷看」。你可能会错误地认为变体更优。请始终在分析结果前完成预先计算的样本量，或使用专为持续监控设计的序贯检验方法。

基准转化率	5% MDE	10% MDE	20% MDE
1%	637,008	163,092	42,691
3%	207,936	53,208	13,911
5%	122,121	31,231	8,155
10%	57,760	14,749	3,839
20%	25,580	6,507	1,680

错误类型	名称	控制方式	后果
I 型错误（α）	假阳性	置信水平	上线一个无效的改动
II 型错误（β）	假阴性	统计功效	错过真实改进

A/B 测试样本量计算器

常见问题