A/B 测试计算器

判断您的 A/B 测试结果是否具有统计显著性。输入对照组和变体组的访客数及转化数,即时获得包含 p 值、z 分数、提升率和统计效能的统计分析。

双比例 z 检验:Z = (p₂ - p₁) / √(p̂ × (1 - p̂) × (1/n₁ + 1/n₂))

对照组

变体组

常见问题

什么是 A/B 测试?

A/B 测试(也称为分割测试)是一种对照实验,用于比较某个内容的两个版本(如网页、电子邮件或广告),以确定哪个表现更好。版本 A 为对照组(原版),版本 B 为变体(修改版)。用户被随机分配到各组,并测量其行为(转化、点击等)。

A/B 测试中的统计显著性是什么?

统计显著性意味着对照组和变体之间的差异不太可能是随机产生的。通常,结果在 95% 置信度下被认为是显著的,即观察到的差异有不到 5% 的概率是偶然发生的。p 值量化了这一概率。

如何计算 A/B 测试的 p 值?

p 值使用双比例 z 检验计算。首先计算 z 分数:Z = (p₂ - p₁) / √(p̂ × (1 - p̂) × (1/n₁ + 1/n₂)),其中 p̂ 是合并比例。然后使用标准正态分布将 z 分数转换为双尾 p 值。

应该使用什么置信水平?

95% 置信度是大多数 A/B 测试的行业标准。对于方向性决策或速度比确定性更重要的快节奏实验,使用 90%。对于高风险决策(定价变更、重大改版),使用 99%,因为假阳性代价极大。

什么是统计效能?

统计效能是在真实效应存在时检测到它的概率。80% 的效能意味着如果变体之间确实存在差异,你有 80% 的概率检测到它。效能低意味着你可能会错过真实的改进(假阴性)。大多数实验应以至少 80% 的效能为目标。

A/B 测试应该运行多长时间?

测试应运行到达到所需样本量为止(使用样本量计算器确定)。不要仅因为结果看起来显著就提前停止测试——这会使假阳性率虚高。还应至少运行 1-2 个完整的业务周期(通常为 1-2 周),以考虑一周中不同日期的影响。

提升百分比意味着什么?

提升(或增益)是变体相对于对照组的相对改进。计算公式为:提升 = (变体转化率 - 对照转化率) / 对照转化率 × 100。例如,对照组转化率为 5%,变体为 6%,提升率为 20%——意味着变体比对照组表现好 20%。

小样本量的 A/B 测试结果可信吗?

小样本量会导致结果不可靠,置信区间较宽。即使小样本中出现「显著」的 p 值,观察到的效应量也可能被夸大。在得出结论之前,请确保样本量充足。使用 A/B 测试样本量计算器规划实验。

什么是 A/B 测试?

A/B 测试(又称分割测试)是一种比较网页、邮件、广告或其他内容两个版本的方法,用于判断哪个版本表现更好。用户被随机分为两组:对照组(A)看原始版本,变体组(B)看修改后的版本。

A/B 测试要回答的核心问题是:「A 和 B 之间的性能差异是真实的,还是随机误差?」这就是统计显著性的意义所在。本计算器使用双比例 z 检验判断观察到的差异是否具有统计显著性。

A/B 测试是市场营销、产品开发、用户体验设计和增长工程中数据驱动决策的基础方法。Google、Amazon、Netflix、Booking.com 等公司每年运行数千次 A/B 测试以优化其产品。

统计公式与计算原理

本计算器使用双比例 z 检验比较两个独立组的转化率:

第一步:计算转化率

p₁ = Conversions₁ / Visitors₁
p₂ = Conversions₂ / Visitors₂

第二步:计算合并比例

p̂ = (C₁ + C₂) / (n₁ + n₂)

第三步:计算 z 分数

Z = (p₂ - p₁) / √(p̂ × (1 - p̂) × (1/n₁ + 1/n₂))

第四步:转换为 p 值(双尾)

p-value = 2 × (1 - Φ(|Z|))

p 值小于 alpha(alpha = 1 - 置信水平),则结果具有统计显著性。在 95% 置信度下,alpha = 0.05,即 p 值低于 0.05 表示结果显著。

A/B 测试计算示例

示例一:显著结果

一家电商网站测试新结算页面。对照组:10,000 名访客,300 次购买。变体组:10,000 名访客,380 次购买

对照转化率:300/10,000 = 3.00% 变体转化率:380/10,000 = 3.80% 提升率:(3.80 - 3.00) / 3.00 = +26.67% 合并比例:680/20,000 = 3.40% SE = √(0.034 × 0.966 × 0.0002) = 0.00256 Z = 0.008 / 0.00256 = 3.125 P 值 = 0.0018 结果:在 95% 置信度下具有统计显著性

示例二:不显著结果

一家 SaaS 公司测试新定价页面。对照组:500 名访客,25 次注册。变体组:500 名访客,30 次注册

对照转化率:25/500 = 5.00% 变体转化率:30/500 = 6.00% 提升率:+20.00% Z = 0.668 P 值 = 0.504 结果:不显著——需要更多数据

示例三:变体表现更差

一次邮件营销测试。对照组:5,000 名收件人,250 次点击。变体组:5,000 名收件人,200 次点击

对照转化率:250/5,000 = 5.00% 变体转化率:200/5,000 = 4.00% 提升率:-20.00% Z = -2.356 P 值 = 0.0185 结果:具有统计显著性——变体表现更差

选择显著性水平

置信度Alpha(α)临界 Z 值适用场景
90%0.101.645快速迭代、低风险变更
95%0.051.960行业标准,适用于大多数 A/B 测试
99%0.012.576高风险决策、定价变更

A/B 测试常见错误

  1. 过早停止测试——在达到所需样本量之前查看结果会导致假阳性率虚高。开始前请确定样本量并坚持到底。
  2. 测试过多变体——每增加一个变体都需要更大的样本量,并增加假阳性的概率(多重比较问题)。
  3. 忽视统计效能——低效能测试容易错过真实效果。规划测试时应以至少 80% 的效能为目标。
  4. 未涵盖完整业务周期——用户行为因星期几、时间段和季节而异。测试至少应运行 1-2 个完整周。
  5. 在小样本上测试微小变化——小效果需要大样本才能检测到。提前使用样本量计算器规划。
  6. 事后挑选指标——在运行测试前就确定要追踪的指标。事后查看多个指标会增加误发现率。

何时使用 A/B 测试

  • 落地页优化——标题、行动号召、图片、表单字段、页面布局
  • 邮件营销——主题行、发送时间、内容、个性化
  • 定价页面——价格层级、功能展示、社会证明
  • 广告活动——广告文案、素材、定向、出价策略
  • 产品功能——引导流程、界面改版、功能位置
  • 结算流程——表单设计、支付方式、信任信号

A/B 测试最佳实践

  1. 测试前明确假设——写下你预期会发生什么以及原因,防止事后合理化。
  2. 提前计算样本量——使用 A/B 测试样本量计算器确定开始前需要多少访客。
  3. 每次只测试一个变量——同时改变多个元素会导致无法判断是哪个改动产生了效果。
  4. 确保随机分配——用户应以相等概率随机分配到对照组或变体组。
  5. 运行完整时长——不要提前停止,也不要因为结果不显著就延长测试。
  6. 考虑实际显著性——统计显著的 0.1% 提升未必值得开发投入,要考量业务影响。
  7. 记录完整信息——记录假设、样本量计算过程、测试时长和结果,积累经验。

相关计算器