P 值计算器

p 值衡量在零假设成立的条件下,获得与观测数据一样极端结果的概率。输入 z 分数或样本统计量(均值、总体均值、标准差、样本量),即时计算 p 值并判断统计显著性。

p = 2 × (1 − Φ(|z|))

常见问题

什么是 p 值?

p 值是在零假设为真的前提下,观察到当前结果或更极端结果的概率。p 值越小,说明在零假设下获得当前数据的概率越低,为拒绝零假设提供更强的证据。p 值不是「结果为真的概率」,也不是「研究重要性」的度量。

如何从 Z 分数计算 p 值?

双尾检验:p = 2 × (1 − Φ(|Z|)),其中 Φ 为标准正态分布的累积分布函数。左尾检验:p = Φ(Z)。右尾检验:p = 1 − Φ(Z)。若使用样本统计量,先用 Z = (x̄ − μ₀) / (σ / √n) 计算 Z 分数,再代入上述公式。

p < 0.05 意味着什么?

p < 0.05 表示结果在 5% 显著性水平(95% 置信度)下具有统计显著性。这意味着若零假设为真,随机出现如此极端数据的概率低于 5%,可以拒绝零假设。

应该选单尾检验还是双尾检验?

若假设均值可能在任意方向偏离(H₁: μ ≠ μ₀),使用双尾检验。仅当有充分的先验理由预期特定方向时,才使用单尾检验——左尾(H₁: μ < μ₀)或右尾(H₁: μ > μ₀)。检验类型必须在数据收集前确定。

应该选择哪个显著性水平(α)?

α = 0.05 是大多数研究的通用标准。探索性研究可使用 α = 0.10,允许一定比例的假阳性。高风险决策(如临床试验、政策决定)应使用 α = 0.01 或更低,以减少假阳性代价。

p 值与置信区间有什么区别?

p 值在给定 α 下给出「是否显著」的二元判断;置信区间给出真实效应量的可信范围,直接传达不确定性。两者互补——95% 置信区间不含零,对应双尾 p 值 < 0.05。

p 值能告诉我零假设为真的概率吗?

不能——这是常见误解。p 值是「假设零假设为真时,观测数据(或更极端数据)出现的概率」,而不是「零假设本身为真的概率」。要估计后者,需要使用贝叶斯方法。

Z 检验和 T 检验有什么区别?

Z 检验适用于已知总体标准差(σ)且样本量较大(n ≥ 30)的情况。T 检验用于 σ 未知、需要从样本估计的情况,常见于小样本。样本量较大时,两种检验结果趋于一致。

什么是 p 值?

p 值(概率值)是在零假设为真的前提下,获得与观测结果同样极端或更极端结果的概率。换句话说,p 值回答的问题是:「如果不存在真实效应,随机情况下出现这么极端的数据的可能性有多大?」

小 p 值(通常 < 0.05)说明在零假设下观测数据出现的概率很低,为拒绝零假设提供证据。大 p 值说明数据与零假设一致,无法拒绝零假设。

p 值是统计学、医学、心理学、经济学和数据科学中假设检验的核心工具。它衡量的是「在零假设成立的条件下,观测数据出现的概率」,而不是「零假设为真的概率」。

从 Z 分数计算 p 值的公式

本计算器使用**标准正态分布(Z 检验)**计算 p 值。Z 分数衡量样本均值偏离总体均值的标准误数量:

从样本统计量计算 Z 分数
Z = (x̄ − μ₀) / (σ / √n)

其中:x̄ = 样本均值 | μ₀ = 总体均值 | σ = 标准差 | n = 样本量

双尾 p 值
p = 2 × (1 − Φ(|Z|))

左尾 p 值
p = Φ(Z)

右尾 p 值
p = 1 − Φ(Z)

其中 Φ(Z) 为标准正态分布的累积分布函数。本计算器使用 Abramowitz & Stegun 近似公式(7.1.26)进行快速、精确的累积分布函数计算。

常用显著性水平(α)

显著性水平(alpha,α)是拒绝零假设的概率阈值。在收集数据前选定 α,对于避免 p 值操纵(p-hacking)至关重要。

Alpha (α)置信度Z 临界值(双尾)典型用途
0.1090%±1.645探索性研究、低风险决策
0.0595%±1.960行业标准、大多数假设检验
0.0199%±2.576临床试验、高风险研究
0.00199.9%±3.291粒子物理(发现新粒子)、全基因组研究

当 p < α 时,结果具有统计显著性。在 α = 0.05 时,你接受 5% 的假阳性(一类错误)风险——即错误拒绝真实零假设的概率。

单尾检验与双尾检验

单尾还是双尾检验的选择,取决于你在看到数据之前建立的假设。

双尾检验

H₀: μ = μ₀    H₁: μ ≠ μ₀

当你检验均值是否在任意方向上不同于总体均值时使用。这是最常见、最保守的选择。

左尾检验

H₀: μ ≥ μ₀    H₁: μ < μ₀

当你有充分理由预期均值小于总体值时使用。拒绝域位于左尾。

右尾检验

H₀: μ ≤ μ₀    H₁: μ > μ₀

当你有充分理由预期均值大于总体值时使用。拒绝域位于右尾。

双尾 p 值恰好是同一 Z 分数下单尾 p 值的两倍。在看到结果偏向预期方向后才改用单尾检验,属于 p 值操纵,会导致假阳性率虚高。

p 值计算示例

示例 1:双尾 Z 检验(显著)

研究者检验新药是否改变血压。观测 Z = 2.50,α = 0.05(双尾)。

Z = 2.50
p = 2 × (1 − Φ(2.50)) = 2 × 0.00621 = 0.0124
p (0.0124) < α (0.05)
结论:具有统计显著性——拒绝 H₀

示例 2:从样本统计量计算

质量检验:样本均值 = 105,总体均值 = 100,σ = 15,n = 36(双尾,α = 0.05)。

SE = 15 / √36 = 2.5
Z = (105 − 100) / 2.5 = 2.0
p = 2 × (1 − Φ(2.0)) ≈ 0.0455
p (0.0455) < α (0.05)
结论:具有统计显著性——样本均值与总体均值存在显著差异

示例 3:右尾检验(不显著)

检验新教学方法是否提高了成绩。Z = 1.20,α = 0.05(右尾)。

Z = 1.20
p = 1 − Φ(1.20) ≈ 0.1151
p (0.1151) ≥ α (0.05)
结论:不显著——无法拒绝 H₀

p 值常见误区

  1. 误解 p 值含义 — p 值不是零假设为真的概率,而是假设零假设为真时观测数据出现的概率。
  2. p 值操纵(p-hacking) — 进行多次检验并只报告显著结果,会累积假阳性率。应在收集数据前预先注册假设和校正方法。
  3. 看到结果后改用单尾检验 — 这会使 p 值减半,属于 p 值操纵的一种形式。
  4. 混淆统计显著性与实践意义 — 大样本下极小的 p 值可能对应微不足道的效应量。应同时报告效应量。
  5. 忽视检验假设 — Z 检验要求已知总体标准差且数据近似正态分布。小样本且 σ 未知时,应使用 T 检验。
  6. 把 p = 0.049 和 p = 0.051 视为截然不同 — 0.05 阈值是约定俗成,不是硬性规则。应报告实际 p 值和置信区间。

相关工具