P 值计算器
p 值衡量在零假设成立的条件下,获得与观测数据一样极端结果的概率。输入 z 分数或样本统计量(均值、总体均值、标准差、样本量),即时计算 p 值并判断统计显著性。
p = 2 × (1 − Φ(|z|))
常见问题
什么是 p 值?
p 值是在零假设为真的前提下,观察到当前结果或更极端结果的概率。p 值越小,说明在零假设下获得当前数据的概率越低,为拒绝零假设提供更强的证据。p 值不是「结果为真的概率」,也不是「研究重要性」的度量。
如何从 Z 分数计算 p 值?
双尾检验:p = 2 × (1 − Φ(|Z|)),其中 Φ 为标准正态分布的累积分布函数。左尾检验:p = Φ(Z)。右尾检验:p = 1 − Φ(Z)。若使用样本统计量,先用 Z = (x̄ − μ₀) / (σ / √n) 计算 Z 分数,再代入上述公式。
p < 0.05 意味着什么?
p < 0.05 表示结果在 5% 显著性水平(95% 置信度)下具有统计显著性。这意味着若零假设为真,随机出现如此极端数据的概率低于 5%,可以拒绝零假设。
应该选单尾检验还是双尾检验?
若假设均值可能在任意方向偏离(H₁: μ ≠ μ₀),使用双尾检验。仅当有充分的先验理由预期特定方向时,才使用单尾检验——左尾(H₁: μ < μ₀)或右尾(H₁: μ > μ₀)。检验类型必须在数据收集前确定。
应该选择哪个显著性水平(α)?
α = 0.05 是大多数研究的通用标准。探索性研究可使用 α = 0.10,允许一定比例的假阳性。高风险决策(如临床试验、政策决定)应使用 α = 0.01 或更低,以减少假阳性代价。
p 值与置信区间有什么区别?
p 值在给定 α 下给出「是否显著」的二元判断;置信区间给出真实效应量的可信范围,直接传达不确定性。两者互补——95% 置信区间不含零,对应双尾 p 值 < 0.05。
p 值能告诉我零假设为真的概率吗?
不能——这是常见误解。p 值是「假设零假设为真时,观测数据(或更极端数据)出现的概率」,而不是「零假设本身为真的概率」。要估计后者,需要使用贝叶斯方法。
Z 检验和 T 检验有什么区别?
Z 检验适用于已知总体标准差(σ)且样本量较大(n ≥ 30)的情况。T 检验用于 σ 未知、需要从样本估计的情况,常见于小样本。样本量较大时,两种检验结果趋于一致。
什么是 p 值?
p 值(概率值)是在零假设为真的前提下,获得与观测结果同样极端或更极端结果的概率。换句话说,p 值回答的问题是:「如果不存在真实效应,随机情况下出现这么极端的数据的可能性有多大?」
小 p 值(通常 < 0.05)说明在零假设下观测数据出现的概率很低,为拒绝零假设提供证据。大 p 值说明数据与零假设一致,无法拒绝零假设。
p 值是统计学、医学、心理学、经济学和数据科学中假设检验的核心工具。它衡量的是「在零假设成立的条件下,观测数据出现的概率」,而不是「零假设为真的概率」。
从 Z 分数计算 p 值的公式
本计算器使用**标准正态分布(Z 检验)**计算 p 值。Z 分数衡量样本均值偏离总体均值的标准误数量:
从样本统计量计算 Z 分数
Z = (x̄ − μ₀) / (σ / √n)
其中:x̄ = 样本均值 | μ₀ = 总体均值 | σ = 标准差 | n = 样本量
双尾 p 值
p = 2 × (1 − Φ(|Z|))
左尾 p 值
p = Φ(Z)
右尾 p 值
p = 1 − Φ(Z)
其中 Φ(Z) 为标准正态分布的累积分布函数。本计算器使用 Abramowitz & Stegun 近似公式(7.1.26)进行快速、精确的累积分布函数计算。
常用显著性水平(α)
显著性水平(alpha,α)是拒绝零假设的概率阈值。在收集数据前选定 α,对于避免 p 值操纵(p-hacking)至关重要。
| Alpha (α) | 置信度 | Z 临界值(双尾) | 典型用途 |
|---|---|---|---|
| 0.10 | 90% | ±1.645 | 探索性研究、低风险决策 |
| 0.05 | 95% | ±1.960 | 行业标准、大多数假设检验 |
| 0.01 | 99% | ±2.576 | 临床试验、高风险研究 |
| 0.001 | 99.9% | ±3.291 | 粒子物理(发现新粒子)、全基因组研究 |
当 p < α 时,结果具有统计显著性。在 α = 0.05 时,你接受 5% 的假阳性(一类错误)风险——即错误拒绝真实零假设的概率。
单尾检验与双尾检验
单尾还是双尾检验的选择,取决于你在看到数据之前建立的假设。
双尾检验
H₀: μ = μ₀ H₁: μ ≠ μ₀
当你检验均值是否在任意方向上不同于总体均值时使用。这是最常见、最保守的选择。
左尾检验
H₀: μ ≥ μ₀ H₁: μ < μ₀
当你有充分理由预期均值小于总体值时使用。拒绝域位于左尾。
右尾检验
H₀: μ ≤ μ₀ H₁: μ > μ₀
当你有充分理由预期均值大于总体值时使用。拒绝域位于右尾。
双尾 p 值恰好是同一 Z 分数下单尾 p 值的两倍。在看到结果偏向预期方向后才改用单尾检验,属于 p 值操纵,会导致假阳性率虚高。
p 值计算示例
示例 1:双尾 Z 检验(显著)
研究者检验新药是否改变血压。观测 Z = 2.50,α = 0.05(双尾)。
Z = 2.50
p = 2 × (1 − Φ(2.50)) = 2 × 0.00621 = 0.0124
p (0.0124) < α (0.05)
结论:具有统计显著性——拒绝 H₀
示例 2:从样本统计量计算
质量检验:样本均值 = 105,总体均值 = 100,σ = 15,n = 36(双尾,α = 0.05)。
SE = 15 / √36 = 2.5
Z = (105 − 100) / 2.5 = 2.0
p = 2 × (1 − Φ(2.0)) ≈ 0.0455
p (0.0455) < α (0.05)
结论:具有统计显著性——样本均值与总体均值存在显著差异
示例 3:右尾检验(不显著)
检验新教学方法是否提高了成绩。Z = 1.20,α = 0.05(右尾)。
Z = 1.20
p = 1 − Φ(1.20) ≈ 0.1151
p (0.1151) ≥ α (0.05)
结论:不显著——无法拒绝 H₀
p 值常见误区
- 误解 p 值含义 — p 值不是零假设为真的概率,而是假设零假设为真时观测数据出现的概率。
- p 值操纵(p-hacking) — 进行多次检验并只报告显著结果,会累积假阳性率。应在收集数据前预先注册假设和校正方法。
- 看到结果后改用单尾检验 — 这会使 p 值减半,属于 p 值操纵的一种形式。
- 混淆统计显著性与实践意义 — 大样本下极小的 p 值可能对应微不足道的效应量。应同时报告效应量。
- 忽视检验假设 — Z 检验要求已知总体标准差且数据近似正态分布。小样本且 σ 未知时,应使用 T 检验。
- 把 p = 0.049 和 p = 0.051 视为截然不同 — 0.05 阈值是约定俗成,不是硬性规则。应报告实际 p 值和置信区间。
相关工具
- A/B 测试计算器 — 用于 A/B 实验的双比例 Z 检验。
- A/B 测试样本量计算器 — 在测试前确定所需样本量。
- 五数概括计算器 — 最小值、Q1、中位数、Q3、最大值及标准差。
- 转化率计算器 — 计算和比较转化率。