P 值计算器

p 值衡量在零假设成立的条件下，获得与观测数据一样极端结果的概率。输入 z 分数或样本统计量（均值、总体均值、标准差、样本量），即时计算 p 值并判断统计显著性。

输入模式

检验类型

显著性水平 (α)

Z 分数

p = 2 × (1 − Φ(|z|))

常见问题

什么是 p 值？

p 值是在零假设为真的前提下，观察到当前结果或更极端结果的概率。p 值越小，说明在零假设下获得当前数据的概率越低，为拒绝零假设提供更强的证据。p 值不是「结果为真的概率」，也不是「研究重要性」的度量。

如何从 Z 分数计算 p 值？

双尾检验：p = 2 × (1 − Φ(|Z|))，其中 Φ 为标准正态分布的累积分布函数。左尾检验：p = Φ(Z)。右尾检验：p = 1 − Φ(Z)。若使用样本统计量，先用 Z = (x̄ − μ₀) / (σ / √n) 计算 Z 分数，再代入上述公式。

p < 0.05 意味着什么？

p < 0.05 表示结果在 5% 显著性水平（95% 置信度）下具有统计显著性。这意味着若零假设为真，随机出现如此极端数据的概率低于 5%，可以拒绝零假设。

应该选单尾检验还是双尾检验？

若假设均值可能在任意方向偏离（H₁: μ ≠ μ₀），使用双尾检验。仅当有充分的先验理由预期特定方向时，才使用单尾检验——左尾（H₁: μ < μ₀）或右尾（H₁: μ > μ₀）。检验类型必须在数据收集前确定。

应该选择哪个显著性水平（α）？

α = 0.05 是大多数研究的通用标准。探索性研究可使用 α = 0.10，允许一定比例的假阳性。高风险决策（如临床试验、政策决定）应使用 α = 0.01 或更低，以减少假阳性代价。

p 值与置信区间有什么区别？

p 值在给定 α 下给出「是否显著」的二元判断；置信区间给出真实效应量的可信范围，直接传达不确定性。两者互补——95% 置信区间不含零，对应双尾 p 值 < 0.05。

p 值能告诉我零假设为真的概率吗？

不能——这是常见误解。p 值是「假设零假设为真时，观测数据（或更极端数据）出现的概率」，而不是「零假设本身为真的概率」。要估计后者，需要使用贝叶斯方法。

Z 检验和 T 检验有什么区别？

Z 检验适用于已知总体标准差（σ）且样本量较大（n ≥ 30）的情况。T 检验用于 σ 未知、需要从样本估计的情况，常见于小样本。样本量较大时，两种检验结果趋于一致。

什么是 p 值？

p 值（概率值）是在零假设为真的前提下，获得与观测结果同样极端或更极端结果的概率。换句话说，p 值回答的问题是：「如果不存在真实效应，随机情况下出现这么极端的数据的可能性有多大？」

小 p 值（通常 < 0.05）说明在零假设下观测数据出现的概率很低，为拒绝零假设提供证据。大 p 值说明数据与零假设一致，无法拒绝零假设。

p 值是统计学、医学、心理学、经济学和数据科学中假设检验的核心工具。它衡量的是「在零假设成立的条件下，观测数据出现的概率」，而不是「零假设为真的概率」。

从 Z 分数计算 p 值的公式

本计算器使用**标准正态分布（Z 检验）**计算 p 值。Z 分数衡量样本均值偏离总体均值的标准误数量：

从样本统计量计算 Z 分数
Z = (x̄ − μ₀) / (σ / √n)

其中：x̄ = 样本均值 | μ₀ = 总体均值 | σ = 标准差 | n = 样本量

双尾 p 值
p = 2 × (1 − Φ(|Z|))

左尾 p 值
p = Φ(Z)

右尾 p 值
p = 1 − Φ(Z)

其中 Φ(Z) 为标准正态分布的累积分布函数。本计算器使用 Abramowitz & Stegun 近似公式（7.1.26）进行快速、精确的累积分布函数计算。

常用显著性水平（α）

显著性水平（alpha，α）是拒绝零假设的概率阈值。在收集数据前选定 α，对于避免 p 值操纵（p-hacking）至关重要。

Alpha (α)	置信度	Z 临界值（双尾）	典型用途
0.10	90%	±1.645	探索性研究、低风险决策
0.05	95%	±1.960	行业标准、大多数假设检验
0.01	99%	±2.576	临床试验、高风险研究
0.001	99.9%	±3.291	粒子物理（发现新粒子）、全基因组研究

当 p < α 时，结果具有统计显著性。在 α = 0.05 时，你接受 5% 的假阳性（一类错误）风险——即错误拒绝真实零假设的概率。

单尾检验与双尾检验

单尾还是双尾检验的选择，取决于你在看到数据之前建立的假设。

双尾检验

H₀: μ = μ₀ H₁: μ ≠ μ₀

当你检验均值是否在任意方向上不同于总体均值时使用。这是最常见、最保守的选择。

左尾检验

H₀: μ ≥ μ₀ H₁: μ < μ₀

当你有充分理由预期均值小于总体值时使用。拒绝域位于左尾。

右尾检验

H₀: μ ≤ μ₀ H₁: μ > μ₀

当你有充分理由预期均值大于总体值时使用。拒绝域位于右尾。

双尾 p 值恰好是同一 Z 分数下单尾 p 值的两倍。在看到结果偏向预期方向后才改用单尾检验，属于 p 值操纵，会导致假阳性率虚高。

p 值计算示例

示例 1：双尾 Z 检验（显著）

研究者检验新药是否改变血压。观测 Z = 2.50，α = 0.05（双尾）。

Z = 2.50
p = 2 × (1 − Φ(2.50)) = 2 × 0.00621 = 0.0124
p (0.0124) < α (0.05)
结论：具有统计显著性——拒绝 H₀

示例 2：从样本统计量计算

质量检验：样本均值 = 105，总体均值 = 100，σ = 15，n = 36（双尾，α = 0.05）。

SE = 15 / √36 = 2.5
Z = (105 − 100) / 2.5 = 2.0
p = 2 × (1 − Φ(2.0)) ≈ 0.0455
p (0.0455) < α (0.05)
结论：具有统计显著性——样本均值与总体均值存在显著差异

示例 3：右尾检验（不显著）

检验新教学方法是否提高了成绩。Z = 1.20，α = 0.05（右尾）。

Z = 1.20
p = 1 − Φ(1.20) ≈ 0.1151
p (0.1151) ≥ α (0.05)
结论：不显著——无法拒绝 H₀

p 值常见误区

误解 p 值含义 — p 值不是零假设为真的概率，而是假设零假设为真时观测数据出现的概率。
p 值操纵（p-hacking） — 进行多次检验并只报告显著结果，会累积假阳性率。应在收集数据前预先注册假设和校正方法。
看到结果后改用单尾检验 — 这会使 p 值减半，属于 p 值操纵的一种形式。
混淆统计显著性与实践意义 — 大样本下极小的 p 值可能对应微不足道的效应量。应同时报告效应量。
忽视检验假设 — Z 检验要求已知总体标准差且数据近似正态分布。小样本且 σ 未知时，应使用 T 检验。
把 p = 0.049 和 p = 0.051 视为截然不同 — 0.05 阈值是约定俗成，不是硬性规则。应报告实际 p 值和置信区间。

P 值计算器

相关计算器

常见问题

什么是 p 值？

如何从 Z 分数计算 p 值？

p < 0.05 意味着什么？

应该选单尾检验还是双尾检验？

应该选择哪个显著性水平（α）？

p 值与置信区间有什么区别？

p 值能告诉我零假设为真的概率吗？

Z 检验和 T 检验有什么区别？

什么是 p 值？

从 Z 分数计算 p 值的公式

常用显著性水平（α）

单尾检验与双尾检验

双尾检验

左尾检验

右尾检验

p 值计算示例

示例 1：双尾 Z 检验（显著）

示例 2：从样本统计量计算

示例 3：右尾检验（不显著）

p 值常见误区

相关工具