统计函数 (scipy.stats
)#
该模块包含大量概率分布、汇总和频率统计、相关函数和统计检验、掩码统计、核密度估计、准蒙特卡罗功能等。
统计学是一个非常大的领域,其中有些主题超出了 SciPy 的范围,由其他包来涵盖。其中一些最重要的包括:
statsmodels: 回归、线性模型、时间序列分析,以及扩展到
scipy.stats
也涵盖的主题。Pandas: 表格数据,时间序列功能,与其他统计语言的接口。
PyMC: 贝叶斯统计建模,概率机器学习。
scikit-learn: 分类, 回归, 模型选择。
Seaborn: 统计数据可视化。
rpy2: Python 到 R 的桥梁。
概率分布#
每个单变量分布都是 rv_continuous
子类(离散分布为 rv_discrete
)的一个实例:
|
一个用于子类化的通用连续随机变量类。 |
|
一个通用的离散随机变量类,用于子类化。 |
|
生成由直方图给出的分布。 |
连续分布#
一个阿尔法连续随机变量。 |
|
一个角度连续随机变量。 |
|
一个反正弦连续随机变量。 |
|
Argus 分布 |
|
一个贝塔连续随机变量。 |
|
一个贝塔素数连续随机变量。 |
|
布拉德福德连续随机变量。 |
|
一个 Burr (Type III) 连续随机变量。 |
|
一个 Burr (类型 XII) 连续随机变量。 |
|
柯西连续随机变量。 |
|
一个卡方连续随机变量。 |
|
卡方连续随机变量。 |
|
一个余弦连续随机变量。 |
|
水晶球分布 |
|
双伽马连续随机变量。 |
|
一个双威布尔连续随机变量。 |
|
一个 Erlang 连续随机变量。 |
|
一个指数连续随机变量。 |
|
一个指数修正的正态连续随机变量。 |
|
一个指数化的 Weibull 连续随机变量。 |
|
一个指数幂连续随机变量。 |
|
一个 F 连续随机变量。 |
|
疲劳寿命(Birnbaum-Saunders)连续随机变量。 |
|
一个 Fisk 连续随机变量。 |
|
一个折叠的柯西连续随机变量。 |
|
一个折叠的正态连续随机变量。 |
|
广义逻辑连续随机变量。 |
|
广义正态连续随机变量。 |
|
广义帕累托连续随机变量。 |
|
一个广义的指数连续随机变量。 |
|
广义极值连续随机变量。 |
|
高斯超几何连续随机变量。 |
|
伽马连续随机变量。 |
|
广义伽马连续随机变量。 |
|
广义半逻辑连续随机变量。 |
|
广义双曲连续随机变量。 |
|
广义逆高斯连续随机变量。 |
|
一个Gibrat连续随机变量。 |
|
Gompertz(或截断的 Gumbel)连续随机变量。 |
|
一个右偏的Gumbel连续随机变量。 |
|
左偏Gumbel连续随机变量。 |
|
半柯西连续随机变量。 |
|
半逻辑连续随机变量。 |
|
半正态连续随机变量。 |
|
广义正态连续随机变量的上半部分。 |
|
一个双曲正割连续随机变量。 |
|
一个逆伽马连续随机变量。 |
|
逆高斯连续随机变量。 |
|
一个逆威布尔连续随机变量。 |
|
Irwin-Hall(均匀和)连续随机变量。 |
|
Jones 和 Faddy 的偏斜 t 分布。 |
|
Johnson SB 连续随机变量。 |
|
Johnson SU 连续随机变量。 |
|
Kappa 4 参数分布。 |
|
Kappa 三参数分布。 |
|
Kolmogorov-Smirnov 单边检验统计量分布。 |
|
Kolmogorov-Smirnov 双侧检验统计量分布。 |
|
限制缩放的Kolmogorov-Smirnov双侧检验统计量的分布。 |
|
拉普拉斯连续随机变量。 |
|
一个非对称拉普拉斯连续随机变量。 |
|
Levy 连续随机变量。 |
|
左偏的 Levy 连续随机变量。 |
|
一个 Levy-stable 连续随机变量。 |
|
逻辑(或双曲正割平方)连续随机变量。 |
|
一个对数伽玛连续随机变量。 |
|
对数拉普拉斯连续随机变量。 |
|
对数正态连续随机变量。 |
|
对数均匀或倒数连续随机变量。 |
|
Lomax(第二类帕累托)连续随机变量。 |
|
麦克斯韦连续随机变量。 |
|
Mielke Beta-Kappa / Dagum 连续随机变量。 |
|
Moyal 连续随机变量。 |
|
Nakagami 连续随机变量。 |
|
非中心卡方连续随机变量。 |
|
非中心 F 分布的连续随机变量。 |
|
非中心学生 t 连续随机变量。 |
|
一个普通的连续随机变量。 |
|
一个正态逆高斯连续随机变量。 |
|
帕累托连续随机变量。 |
|
一种皮尔逊 III 型连续随机变量。 |
|
一个幂函数连续随机变量。 |
|
一个幂对数正态连续随机变量。 |
|
一种幂正态连续随机变量。 |
|
一个R-分布(对称贝塔)连续随机变量。 |
|
瑞利连续随机变量。 |
|
一个相对论的 Breit-Wigner 随机变量。 |
|
一个 Rice 连续随机变量。 |
|
一个互反逆高斯连续随机变量。 |
|
半圆连续随机变量。 |
|
一个偏斜的柯西随机变量。 |
|
一个偏态正态随机变量。 |
|
学生化范围连续随机变量。 |
|
学生 t 连续随机变量。 |
|
梯形连续随机变量。 |
|
一个三角形的连续随机变量。 |
|
截断指数连续随机变量。 |
|
截断正态连续随机变量。 |
|
一个上截断的帕累托连续随机变量。 |
|
一个双截断的 Weibull 最小连续随机变量。 |
|
Tukey-Lamdba 连续随机变量。 |
|
一个均匀连续的随机变量。 |
|
冯·米塞斯连续随机变量。 |
|
冯·米塞斯连续随机变量。 |
|
一个 Wald 连续随机变量。 |
|
Weibull 最小连续随机变量。 |
|
Weibull 最大连续随机变量。 |
|
一个包裹的柯西连续随机变量。 |
单变量连续分布的 fit
方法使用最大似然估计来将分布拟合到数据集。fit
方法可以接受常规数据或*删失数据*。删失数据用 CensoredData
类的实例表示。
|
此类实例表示被审查的数据。 |
多元分布#
一个多元正态随机变量。 |
|
一个矩阵正态随机变量。 |
|
一个狄利克雷随机变量。 |
|
一个狄利克雷多项式随机变量。 |
|
Wishart 随机变量。 |
|
一个逆Wishart随机变量。 |
|
多项式随机变量。 |
|
一个特殊正交矩阵(SO(N))的随机变量。 |
|
正交矩阵 (O(N)) 随机变量。 |
|
一个矩阵值的 U(N) 随机变量。 |
|
一个随机的相关矩阵。 |
|
一个多变量的 t 分布随机变量。 |
|
一个多变量超几何随机变量。 |
|
独立样本的列联表,具有固定的边际和。 |
|
一个向量值的均匀方向。 |
|
von Mises-Fisher 变量。 |
scipy.stats.multivariate_normal
方法接受以下类的实例来表示协方差。
协方差矩阵的表示 |
离散分布#
伯努利离散随机变量。 |
|
一个beta-二项分布的离散随机变量。 |
|
一个负二项分布的离散随机变量。 |
|
二项式离散随机变量。 |
|
一个玻尔兹曼(截断离散指数)随机变量。 |
|
一个拉普拉斯离散随机变量。 |
|
一个几何离散随机变量。 |
|
一个超几何离散随机变量。 |
|
对数(对数级数,级数)离散随机变量。 |
|
一个负二项式离散随机变量。 |
|
Fisher 的非中心超几何离散随机变量。 |
|
Wallenius 非中心超几何离散随机变量。 |
|
负超几何离散随机变量。 |
|
普朗克离散指数随机变量。 |
|
泊松离散随机变量。 |
|
一个均匀离散随机变量。 |
|
一个 Skellam 离散随机变量。 |
|
一个 Yule-Simon 离散随机变量。 |
|
Zipf(Zeta)离散随机变量。 |
|
一个Zipf离散随机变量。 |
下面给出了统计函数的概述。这些函数中的许多在 scipy.stats.mstats
中都有类似的版本,这些版本适用于掩码数组。
汇总统计#
|
计算传递数组的几个描述性统计数据。 |
|
计算沿指定轴的加权几何平均值。 |
|
计算沿指定轴的加权调和平均值。 |
|
计算沿指定轴的加权幂平均值。 |
|
计算数据集的峰度(Fisher 或 Pearson)。 |
|
返回传入数组中模态(最常见)的值的数组。 |
|
计算样本关于均值的第n阶矩。 |
|
计算指定水平下的期望值。 |
|
计算数据集的样本偏度。 |
|
返回第 n 个 k-统计量(目前 |
|
返回 k-统计量方差的无偏估计量。 |
|
计算修剪后的均值。 |
|
计算修剪后的方差。 |
|
计算修剪后的最小值。 |
|
计算修剪后的最大值。 |
|
计算修剪后的样本标准差。 |
|
计算修剪后的均值标准误差。 |
|
计算变异系数。 |
|
查找重复项及其重复次数。 |
|
为数据分配等级,适当处理并列情况。 |
|
Mann-Whitney U 和 Kruskal-Wallis H 检验的系带校正因子。 |
|
返回数组在修剪指定比例的极值后的均值 |
|
计算数组的几何标准差。 |
|
计算沿指定轴的数据的四分位距。 |
|
计算均值的标准误差。 |
|
贝叶斯置信区间用于均值、方差和标准差。 |
|
'Frozen' 分布用于数据的均值、方差和标准差。 |
|
计算给定分布的香农熵/相对熵。 |
|
给定一个分布的样本,估计其微分熵。 |
|
计算沿指定轴的数据的中位数绝对偏差。 |
频率统计#
|
返回一个累积频率直方图,使用直方图函数。 |
|
计算一个分数在一组分数中的百分位排名。 |
|
计算输入序列在给定百分位数的分数。 |
|
返回一个相对频率直方图,使用直方图函数。 |
|
计算一个或多个数据集的分箱统计量。 |
|
计算一个或多个数据集的二维分箱统计量。 |
|
计算一组数据的多维分箱统计量。 |
准蒙特卡罗#
列联表#
掩码统计函数#
- 掩码数组的统计函数(
scipy.stats.mstats
)- 汇总统计
- 频率统计
- 相关函数
- 统计检验
- 变换
- 其他
其他统计功能#
变换#
|
返回通过Box-Cox幂变换转换的数据集。 |
|
计算输入数据的最优 Box-Cox 变换参数。 |
|
boxcox 对数似然函数。 |
|
返回通过 Yeo-Johnson 幂变换转换的数据集。 |
|
计算最优的 Yeo-Johnson 变换参数。 |
|
yeojohnson 对数似然函数。 |
|
计算输入数据(任意数量的数组)上的 O'Brien 变换。 |
|
对数组元素执行迭代sigma-clipping。 |
|
从数组的两端切掉一部分项目。 |
|
从传递的数组分布的一端切掉一部分。 |
|
计算相对z分数。 |
|
计算 z 分数。 |
|
计算几何标准分数。 |
统计距离#
|
计算两个一维离散分布之间的 Wasserstein-1 距离。 |
|
计算两个 N-D 离散分布之间的 Wasserstein-1 距离。 |
|
计算两个一维分布之间的能量距离。 |
采样#
随机变量生成 / CDF 反演#
|
使用比率均匀方法从概率密度函数生成随机样本。 |
拟合 / 生存分析#
方向统计函数#
|
计算方向数据的样本统计量。 |
|
计算角度观测样本的圆形平均值。 |
|
计算角度观测样本的圆方差。 |
|
计算角度观测样本的圆形标准差。 |
敏感性分析#
|
Sobol' 的全局敏感性指数 |
绘图测试#
|
计算使PPCC最大化的形状参数。 |
|
计算并可选地绘制概率图相关系数。 |
|
计算概率图的分位数,并可选择显示该图。 |
|
计算Box-Cox正态图的参数,并可选择显示它。 |
|
计算Yeo-Johnson正态图的参数,可选择显示它。 |
单变量和多变量核密度估计#
|
使用高斯核表示核密度估计。 |
在 scipy.stats
中使用的警告 / 错误#
|
当数据退化且结果可能不可靠时发出警告。 |
|
当数据中的所有值完全相同时发出警告。 |
|
当数据中的所有值几乎相等时发出警告。 |
|
表示将分布拟合到数据时出现的错误情况。 |
在 scipy.stats
中使用的结果类#
警告
这些类是私有的,但它们在这里被包含是因为它们的实例由其他统计函数返回。不支持用户导入和实例化。