scipy.stats.

ttest_ind#

scipy.stats.ttest_ind(a, b, axis=0, equal_var=True, nan_policy='propagate', permutations=None, random_state=None, alternative='two-sided', trim=0, *, keepdims=False)[源代码][源代码]#

计算 两个独立 样本分数均值的 T 检验。

这是一个检验两个独立样本是否具有相同平均值(期望值)的零假设的测试。该测试默认假设总体具有相同的方差。

参数:
a, barray_like

数组必须具有相同的形状,除了对应于 axis 的维度(默认情况下为第一个)。

int 或 None, 默认值: 0

如果是一个整数,表示输入数据中要计算统计量的轴。输入数据的每个轴切片(例如行)的统计量将出现在输出的相应元素中。如果为 None,则在计算统计量之前会将输入数据展平。

equal_varbool, 可选

如果为True(默认),执行一个标准的独立两样本检验,假设总体方差相等 [1]。如果为False,执行Welch的t检验,该检验不假设总体方差相等 [2]

Added in version 0.11.0.

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入的 NaN。

  • propagate: 如果在计算统计量的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit: 在执行计算时,NaN 将被省略。如果在计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise: 如果存在 NaN,将引发 ValueError

排列非负整数、np.inf 或 None(默认),可选

如果为 0 或 None(默认),使用 t 分布来计算 p 值。否则,permutations 是用于通过排列检验估计 p 值的随机排列次数。如果 permutations 等于或超过合并数据的不同分区的数量,则改为执行精确检验(即每个不同的分区仅使用一次)。详见注释。

Added in version 1.7.0.

random_state{None, int,}

如果 seed 是 None(或 np.random),则使用 numpy.random.RandomState 单例。如果 seed 是 int,则使用新的 RandomState 实例,并以 seed 为种子。如果 seed 已经是 GeneratorRandomState 实例,则使用该实例。

用于生成排列的伪随机数生成器状态(仅在 permutations 不为 None 时使用)。

Added in version 1.7.0.

替代方案{‘双侧’, ‘小于’, ‘大于’}, 可选

定义备择假设。以下选项可用(默认是’双侧’):

  • ‘双侧’: 样本所基于的分布的均值不相等。

  • ‘less’: 第一个样本所基于的分布的均值小于第二个样本所基于的分布的均值。

  • ‘greater’: 第一个样本所基于的分布的均值大于第二个样本所基于的分布的均值。

Added in version 1.6.0.

修剪float, 可选

如果非零,执行一个修剪(Yuen’s)t检验。定义从每个输入样本的两端修剪的元素的分数。如果为0(默认),则不会从任何一端修剪元素。每个尾部修剪的元素数量是修剪次数乘以元素数量的地板值。有效范围是[0, .5)。

Added in version 1.7.

keepdimsbool, 默认值: False

如果设置为True,被减少的轴将作为尺寸为1的维度保留在结果中。通过此选项,结果将正确地与输入数组进行广播。

返回:
结果 : TtestResultTtest结果

一个具有以下属性的对象:

统计浮点数或ndarray

t-统计量。

p值浮点数或ndarray

与给定备择假设相关的p值。

df浮点数或ndarray

用于计算 t 统计量的自由度数。对于置换 t 检验,这总是 NaN。

Added in version 1.11.0.

该对象还具有以下方法:

confidence_interval(confidence_level=0.95)

计算给定置信水平下总体均值差异的置信区间。置信区间以 namedtuple 形式返回,包含 lowhigh 字段。当执行排列 t 检验时,不计算置信区间,字段 lowhigh 包含 NaN。

Added in version 1.11.0.

注释

假设我们观察到两个独立的样本,例如花瓣长度,我们正在考虑这两个样本是否来自同一个总体(例如同一品种的花或两种具有相似花瓣特征的品种)或两个不同的总体。

t检验量化了两个样本算术平均值之间的差异。p值量化了在假设零假设(即样本来自具有相同总体均值的总体)为真的情况下,观察到与或更极端值的概率。p值大于所选阈值(例如5%或1%)表明我们的观察结果并非偶然发生的可能性不大。因此,我们不拒绝总体均值相等的零假设。如果p值小于我们的阈值,那么我们有证据反对总体均值相等的零假设。

默认情况下,p值是通过将观测数据的t统计量与理论t分布进行比较来确定的。当 1 < 排列数 < 组合数(n, k) 时,

  • ka 中的观测值数量。

  • nab 中观测值的总数,并且

  • binom(n, k) 是二项式系数(nk),

数据被合并(连接),随机分配到组 ab,并计算 t 统计量。此过程重复执行(permutation 次),生成在零假设下的 t 统计量分布,并将观测数据的 t 统计量与此分布进行比较以确定 p 值。具体来说,报告的 p 值是“达到的显著性水平”(ASL),如 [3] 的 4.4 节所定义。请注意,还有其他使用随机排列测试估计 p 值的方法;对于其他选项,请参阅更一般的 permutation_test

permutations >= binom(n, k) 时,将执行精确测试:数据在每个不同的方式中被精确地分组一次。

排列检验可能在计算上较为昂贵,并且不一定比分析检验更准确,但它不对基础分布的形状做出强假设。

修剪的使用通常被称为修剪t检验。有时称为Yuen的t检验,这是Welch的t检验的扩展,不同之处在于在计算方差时使用缩尾均值,在计算统计量时使用修剪后的样本量。如果基础分布是长尾的或有异常值污染,则建议进行修剪 [4]

该统计量计算为 (np.mean(a) - np.mean(b))/se,其中 se 是标准误差。因此,当样本均值 a 大于样本均值 b 时,统计量为正;当样本均值 a 小于样本均值 b 时,统计量为负。

从 SciPy 1.9 开始,np.matrix 输入(不推荐用于新代码)在计算执行前被转换为 np.ndarray。在这种情况下,输出将是一个标量或适当形状的 np.ndarray,而不是一个 2D 的 np.matrix。同样,虽然掩码数组的掩码元素被忽略,但输出将是一个标量或 np.ndarray,而不是一个 mask=False 的掩码数组。

参考文献

[3]
  1. Efron 和 T. Hastie。计算机时代统计推断。(2016)。

[4]

Yuen, Karen K. “两样本修剪t检验在不等总体方差中的应用。”《生物统计学》,第61卷,第1期,1974年,第165-170页。JSTOR,www.jstor.org/stable/2334299。访问于2021年3月30日。

[5]

Yuen, Karen K., 和 W. J. Dixon. “两样本修剪t的近似行为和性能.” Biometrika, 第60卷, 第2期, 1973年, 第369-374页. JSTOR, www.jstor.org/stable/2334550. 访问于2021年3月30日.

示例

>>> import numpy as np
>>> from scipy import stats
>>> rng = np.random.default_rng()

具有相同均值的样本测试:

>>> rvs1 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> rvs2 = stats.norm.rvs(loc=5, scale=10, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs2)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952038870015,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs2, equal_var=False)
TtestResult(statistic=-0.4390847099199348,
            pvalue=0.6606952553131064,
            df=997.4602304121448)

ttest_ind 在方差不相等时低估了p值:

>>> rvs3 = stats.norm.rvs(loc=5, scale=20, size=500, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs3)
TtestResult(statistic=-1.6370984482905417,
            pvalue=0.1019251574705033,
            df=998.0)
>>> stats.ttest_ind(rvs1, rvs3, equal_var=False)
TtestResult(statistic=-1.637098448290542,
            pvalue=0.10202110497954867,
            df=765.1098655246868)

n1 != n2 时,等方差 t 统计量不再等于不等方差 t 统计量:

>>> rvs4 = stats.norm.rvs(loc=5, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs4)
TtestResult(statistic=-1.9481646859513422,
            pvalue=0.05186270935842703,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs4, equal_var=False)
TtestResult(statistic=-1.3146566100751664,
            pvalue=0.1913495266513811,
            df=110.41349083985212)

具有不同均值、方差和样本量的T检验:

>>> rvs5 = stats.norm.rvs(loc=8, scale=20, size=100, random_state=rng)
>>> stats.ttest_ind(rvs1, rvs5)
TtestResult(statistic=-2.8415950600298774,
            pvalue=0.0046418707568707885,
            df=598.0)
>>> stats.ttest_ind(rvs1, rvs5, equal_var=False)
TtestResult(statistic=-1.8686598649188084,
            pvalue=0.06434714193919686,
            df=109.32167496550137)

在进行置换检验时,通常更多的置换会得到更准确的结果。使用 np.random.Generator 以确保可重复性:

>>> stats.ttest_ind(rvs1, rvs5, permutations=10000,
...                 random_state=rng)
TtestResult(statistic=-2.8415950600298774,
            pvalue=0.0052994700529947,
            df=nan)

看看这两个样本,其中一个有极端的尾部。

>>> a = (56, 128.6, 12, 123.8, 64.34, 78, 763.3)
>>> b = (1.1, 2.9, 4.2)

使用 trim 关键字来执行一个修剪(Yuen)t检验。例如,使用20%的修剪,trim=.2,该检验将从样本 a 的每个尾部减少一个(np.floor(trim*len(a)))元素的影响。对于样本 b,由于 np.floor(trim*len(b)) 为0,因此不会有任何影响。

>>> stats.ttest_ind(a, b, trim=.2)
TtestResult(statistic=3.4463884028073513,
            pvalue=0.01369338726499547,
            df=6.0)