ks_1samp#
- scipy.stats.ks_1samp(x, cdf, args=(), alternative='two-sided', method='auto', *, axis=0, nan_policy='propagate', keepdims=False)[源代码][源代码]#
执行单样本 Kolmogorov-Smirnov 检验以评估拟合优度。
此测试比较样本的底层分布 F(x) 与给定的连续分布 G(x)。有关可用零假设和备择假设的描述,请参见注释。
- 参数:
- xarray_like
一个由独立同分布随机变量的观测值组成的1维数组。
- cdf可调用
用于计算 cdf 的可调用对象。
- 参数tuple, 序列, 可选
分布参数,用于 cdf。
- 替代方案{‘双侧’, ‘小于’, ‘大于’}, 可选
定义零假设和备择假设。默认是’双侧’。请参见下面的注释中的解释。
- 方法{‘auto’, ‘exact’, ‘approx’, ‘asymp’}, 可选
定义用于计算p值的分布。以下选项可用(默认是’auto’):
‘auto’ : 选择其他选项之一。
‘exact’ : 使用测试统计量的精确分布。
‘approx’ : 近似于两倍的一侧概率的双侧概率
‘asymp’: 使用检验统计量的渐近分布
- 轴int 或 None, 默认值: 0
如果是一个整数,表示输入数据中要计算统计量的轴。输入数据的每个轴切片(例如行)的统计量将出现在输出的相应元素中。如果为
None
,则在计算统计量之前会将输入数据展平。- nan_policy{‘propagate’, ‘omit’, ‘raise’}
定义如何处理输入的 NaN。
propagate
: 如果在计算统计量的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。omit
: 在执行计算时,NaN 将被省略。如果在计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。raise
: 如果存在 NaN,将引发ValueError
。
- keepdimsbool, 默认值: False
如果设置为True,被减少的轴将作为尺寸为1的维度保留在结果中。通过此选项,结果将正确地与输入数组进行广播。
- 返回:
- res: KstestResult
一个包含属性的对象:
- 统计浮动
KS 检验统计量,可以是 D+、D- 或 D(两者的最大值)
- p值浮动
单尾或双尾 p 值。
- 统计位置浮动
与KS统计量对应的 x 值;即,经验分布函数与假设的累积分布函数之间的距离在此观测值处测量。
- 统计显著性整数
+1 如果 KS 统计量是经验分布函数与假设累积分布函数之间的最大正差异 (D+);-1 如果 KS 统计量是最大负差异 (D-)。
注释
对于零假设和相应的备择假设,可以使用 alternative 参数选择三种选项。
双侧: 原假设是两个分布相同,即对所有 x 都有 F(x)=G(x);备择假设是它们不相同。
less: 零假设是对于所有 x,F(x) >= G(x);备择假设是至少存在一个 x,使得 F(x) < G(x)。
greater: 零假设是对于所有 x,F(x) <= G(x);备择假设是至少存在一个 x,使得 F(x) > G(x)。
请注意,备择假设描述的是潜在分布的 CDF,而不是观测值。例如,假设 x1 ~ F 且 x2 ~ G。如果对于所有 x,F(x) > G(x),那么 x1 中的值往往小于 x2 中的值。
从 SciPy 1.9 开始,
np.matrix
输入(不推荐用于新代码)在计算执行前被转换为np.ndarray
。在这种情况下,输出将是一个标量或适当形状的np.ndarray
,而不是一个 2D 的np.matrix
。同样,虽然掩码数组的掩码元素被忽略,但输出将是一个标量或np.ndarray
,而不是一个mask=False
的掩码数组。示例
假设我们希望检验零假设,即样本符合标准正态分布。我们选择95%的置信水平;也就是说,如果p值小于0.05,我们将拒绝零假设,支持备择假设。
在测试均匀分布的数据时,我们预期会拒绝原假设。
>>> import numpy as np >>> from scipy import stats >>> rng = np.random.default_rng() >>> stats.ks_1samp(stats.uniform.rvs(size=100, random_state=rng), ... stats.norm.cdf) KstestResult(statistic=0.5001899973268688, pvalue=1.1616392184763533e-23, statistic_location=0.00047625268963724654, statistic_sign=-1)
确实,p值低于我们0.05的阈值,因此我们拒绝原假设,支持默认的“双侧”备择假设:数据*不*符合标准正态分布。
在测试来自标准正态分布的随机变量时,我们期望数据在大多数情况下与零假设一致。
>>> x = stats.norm.rvs(size=100, random_state=rng) >>> stats.ks_1samp(x, stats.norm.cdf) KstestResult(statistic=0.05345882212970396, pvalue=0.9227159037744717, statistic_location=-1.2451343873745018, statistic_sign=1)
如预期,p值为0.92,未低于我们0.05的阈值,因此我们不能拒绝原假设。
然而,假设随机变量是根据一个向更大值偏移的正态分布分布的。在这种情况下,潜在分布的累积密度函数(CDF)往往*小于*标准正态分布的CDF。因此,我们预计在
alternative='less'
的情况下拒绝原假设:>>> x = stats.norm.rvs(size=100, loc=0.5, random_state=rng) >>> stats.ks_1samp(x, stats.norm.cdf, alternative='less') KstestResult(statistic=0.17482387821055168, pvalue=0.001913921057766743, statistic_location=0.3713830565352756, statistic_sign=-1)
事实上,由于p值小于我们的阈值,我们拒绝原假设,支持备择假设。