Question 1

什么是 A/B 测试？

Accepted Answer

A/B 测试（也称为分割测试）是一种对照实验，用于比较某个内容的两个版本（如网页、电子邮件或广告），以确定哪个表现更好。版本 A 为对照组（原版），版本 B 为变体（修改版）。用户被随机分配到各组，并测量其行为（转化、点击等）。

Question 2

A/B 测试中的统计显著性是什么？

Accepted Answer

统计显著性意味着对照组和变体之间的差异不太可能是随机产生的。通常，结果在 95% 置信度下被认为是显著的，即观察到的差异有不到 5% 的概率是偶然发生的。p 值量化了这一概率。

Question 3

如何计算 A/B 测试的 p 值？

Accepted Answer

p 值使用双比例 z 检验计算。首先计算 z 分数：Z = (p₂ - p₁) / √(p̂ × (1 - p̂) × (1/n₁ + 1/n₂))，其中 p̂ 是合并比例。然后使用标准正态分布将 z 分数转换为双尾 p 值。

Question 4

应该使用什么置信水平？

Accepted Answer

95% 置信度是大多数 A/B 测试的行业标准。对于方向性决策或速度比确定性更重要的快节奏实验，使用 90%。对于高风险决策（定价变更、重大改版），使用 99%，因为假阳性代价极大。

Question 5

什么是统计效能？

Accepted Answer

统计效能是在真实效应存在时检测到它的概率。80% 的效能意味着如果变体之间确实存在差异，你有 80% 的概率检测到它。效能低意味着你可能会错过真实的改进（假阴性）。大多数实验应以至少 80% 的效能为目标。

Question 6

A/B 测试应该运行多长时间？

Accepted Answer

测试应运行到达到所需样本量为止（使用样本量计算器确定）。不要仅因为结果看起来显著就提前停止测试——这会使假阳性率虚高。还应至少运行 1-2 个完整的业务周期（通常为 1-2 周），以考虑一周中不同日期的影响。

Question 7

提升百分比意味着什么？

Accepted Answer

提升（或增益）是变体相对于对照组的相对改进。计算公式为：提升 = (变体转化率 - 对照转化率) / 对照转化率 × 100。例如，对照组转化率为 5%，变体为 6%，提升率为 20%——意味着变体比对照组表现好 20%。

Question 8

小样本量的 A/B 测试结果可信吗？

Accepted Answer

小样本量会导致结果不可靠，置信区间较宽。即使小样本中出现「显著」的 p 值，观察到的效应量也可能被夸大。在得出结论之前，请确保样本量充足。使用 A/B 测试样本量计算器规划实验。

置信度	Alpha（α）	临界 Z 值	适用场景
90%	0.10	1.645	快速迭代、低风险变更
95%	0.05	1.960	行业标准，适用于大多数 A/B 测试
99%	0.01	2.576	高风险决策、定价变更

A/B 测试计算器

常见问题