scipy.stats.

偏斜#

scipy.stats.skew(a, axis=0, bias=True, nan_policy='propagate', *, keepdims=False)[源代码][源代码]#

计算数据集的样本偏度。

对于正态分布的数据,偏度应接近于零。对于单峰连续分布,偏度值大于零意味着分布的右尾有更多的权重。函数 skewtest 可以用来确定偏度值在统计上是否足够接近零。

参数:
andarray

输入数组。

int 或 None, 默认值: 0

如果是一个整数,表示输入数据中要计算统计量的轴。输入数据的每个轴切片(例如行)的统计量将出现在输出的相应元素中。如果为 None,则在计算统计量之前会将输入数据展平。

偏见bool, 可选

如果为 False,则计算会针对统计偏差进行修正。

nan_policy{‘propagate’, ‘omit’, ‘raise’}

定义如何处理输入的 NaN。

  • propagate: 如果在计算统计量的轴切片(例如行)中存在 NaN,则输出的相应条目将为 NaN。

  • omit: 在执行计算时,NaN 将被省略。如果在计算统计量的轴切片中剩余的数据不足,则输出的相应条目将为 NaN。

  • raise: 如果存在 NaN,将引发 ValueError

keepdimsbool, 默认值: False

如果设置为True,被减少的轴将作为尺寸为1的维度保留在结果中。通过此选项,结果将正确地与输入数组进行广播。

返回:
偏度ndarray

沿轴的值的偏度,当所有值相等时返回 NaN。

注释

样本偏度计算为 Fisher-Pearson 偏度系数,即

\[g_1=\frac{m_3}{m_2^{3/2}}\]

哪里

\[m_i=\frac{1}{N}\sum_{n=1}^N(x[n]-\bar{x})^i\]

是偏样本的 \(i exttt{th}\) 中心矩,而 \(\bar{x}\) 是样本均值。如果 bias 为 False,计算会针对偏差进行修正,计算的值是调整后的 Fisher-Pearson 标准化矩系数,即

\[G_1=\frac{k_3}{k_2^{3/2}}= \frac{\sqrt{N(N-1)}}{N-2}\frac{m_3}{m_2^{3/2}}.\]

从 SciPy 1.9 开始,np.matrix 输入(不推荐用于新代码)在计算执行前被转换为 np.ndarray。在这种情况下,输出将是一个标量或适当形状的 np.ndarray,而不是一个 2D 的 np.matrix。同样,虽然掩码数组的掩码元素被忽略,但输出将是一个标量或 np.ndarray,而不是一个 mask=False 的掩码数组。

参考文献

[1]

Zwillinger, D. 和 Kokoska, S. (2000). CRC 标准概率与统计表和公式. Chapman & Hall: 纽约. 2000. 第2.2.24.1节

示例

>>> from scipy.stats import skew
>>> skew([1, 2, 3, 4, 5])
0.0
>>> skew([2, 8, 0, 4, 1, 9, 9, 0])
0.2650554122698573