scipy.stats.

ttest_1samp#

scipy.stats.ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided', *, keepdims=False)[源代码][源代码]#

计算一组分数的均值的T检验。

这是对零假设的一个测试,即独立观测样本 a 的期望值(均值)等于给定的总体均值 popmean

参数:
aarray_like

样本观察。

popmean浮点数或类似数组的对象

零假设中的期望值。如果为数组类,则其沿 axis 的长度必须等于 1,并且它必须能够与 a 进行广播。

int 或 None, 默认值: 0

如果是一个整数,表示输入数据中要计算统计量的轴。输入数据的每个轴切片(例如行)的统计量将出现在输出的相应元素中。如果为 None,则在计算统计量之前会将输入数据展平。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入的 NaN。

  • propagate: 如果在计算统计量的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit: 在执行计算时,NaN 将被省略。如果在计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise: 如果存在 NaN,将引发 ValueError

替代方案{‘双侧’, ‘小于’, ‘大于’}, 可选

定义备择假设。以下选项可用(默认是’双侧’):

  • ‘双侧’: 样本基础分布的平均值与给定的总体平均值 (popmean) 不同

  • ‘less’: 样本基础分布的平均值小于给定的总体平均值 (popmean)

  • ‘greater’: 样本基础分布的平均值大于给定的总体平均值 (popmean)

keepdimsbool, 默认值: False

如果设置为True,被减少的轴将作为尺寸为1的维度保留在结果中。通过此选项,结果将正确地与输入数组进行广播。

返回:
结果 : TtestResultTtest结果

一个具有以下属性的对象:

统计浮点数或数组

t-统计量。

p值浮点数或数组

与给定备择假设相关的p值。

df浮点数或数组

用于计算 t 统计量的自由度数量;这比样本大小少一个(a.shape[axis])。

Added in version 1.10.0.

该对象还具有以下方法:

confidence_interval(confidence_level=0.95)

计算给定置信水平下总体均值的置信区间。置信区间以 namedtuple 形式返回,字段为 lowhigh

Added in version 1.10.0.

注释

该统计量计算为 (np.mean(a) - popmean)/se,其中 se 是标准误差。因此,当样本均值大于总体均值时,统计量为正;当样本均值小于总体均值时,统计量为负。

从 SciPy 1.9 开始,np.matrix 输入(不推荐用于新代码)在计算执行前被转换为 np.ndarray。在这种情况下,输出将是一个标量或适当形状的 np.ndarray,而不是一个 2D 的 np.matrix。同样,虽然掩码数组的掩码元素被忽略,但输出将是一个标量或 np.ndarray,而不是一个 mask=False 的掩码数组。

示例

假设我们希望检验零假设,即总体均值等于0.5。我们选择99%的置信水平;也就是说,如果p值小于0.01,我们将拒绝零假设,支持备择假设。

在测试来自标准均匀分布的随机变量时,该分布的均值为0.5,我们期望数据在大多数情况下与零假设一致。

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()
>>> rvs = stats.uniform.rvs(size=50, random_state=rng)
>>> stats.ttest_1samp(rvs, popmean=0.5)
TtestResult(statistic=2.456308468440, pvalue=0.017628209047638, df=49)

正如预期,p值0.017 不小于我们的阈值0.01,因此我们不能拒绝零假设。

在测试来自标准 正态 分布的数据时,该分布的均值为 0,我们预计会拒绝原假设。

>>> rvs = stats.norm.rvs(size=50, random_state=rng)
>>> stats.ttest_1samp(rvs, popmean=0.5)
TtestResult(statistic=-7.433605518875, pvalue=1.416760157221e-09, df=49)

确实,p值低于我们0.01的阈值,因此我们拒绝原假设,支持默认的“双侧”备择假设:总体均值*不*等于0.5。

然而,假设我们要在备择假设下测试零假设,即总体均值大于0.5。由于标准正态分布的均值小于0.5,我们不会期望零假设被拒绝。

>>> stats.ttest_1samp(rvs, popmean=0.5, alternative='greater')
TtestResult(statistic=-7.433605518875, pvalue=0.99999999929, df=49)

不出所料,由于p值大于我们的阈值,我们不会拒绝原假设。

请注意,当使用99%的置信水平时,真实的零假设大约有1%的概率被错误地拒绝。

>>> rvs = stats.uniform.rvs(size=(100, 50), random_state=rng)
>>> res = stats.ttest_1samp(rvs, popmean=0.5, axis=1)
>>> np.sum(res.pvalue < 0.01)
1

确实,尽管上述所有100个样本都来自标准均匀分布,该分布的总体均值确实为0.5,但我们仍会错误地拒绝其中一个样本的零假设。

ttest_1samp 还可以计算总体均值的置信区间。

>>> rvs = stats.norm.rvs(size=50, random_state=rng)
>>> res = stats.ttest_1samp(rvs, popmean=0)
>>> ci = res.confidence_interval(confidence_level=0.95)
>>> ci
ConfidenceInterval(low=-0.3193887540880017, high=0.2898583388980972)

95% 置信区间的界限是参数 popmean 的最小值和最大值,在这些值下,检验的 p 值为 0.05。

>>> res = stats.ttest_1samp(rvs, popmean=ci.low)
>>> np.testing.assert_allclose(res.pvalue, 0.05)
>>> res = stats.ttest_1samp(rvs, popmean=ci.high)
>>> np.testing.assert_allclose(res.pvalue, 0.05)

在关于样本所来自的总体的某些假设下,置信水平为95%的置信区间预计在95%的样本复制中包含真实的总体均值。

>>> rvs = stats.norm.rvs(size=(50, 1000), loc=1, random_state=rng)
>>> res = stats.ttest_1samp(rvs, popmean=0)
>>> ci = res.confidence_interval()
>>> contains_pop_mean = (ci.low < 1) & (ci.high > 1)
>>> contains_pop_mean.sum()
953