numpy.random.Generator.hypergeometric#
方法
- random.Generator.hypergeometric(ngood, nbad, nsample, size=None)#
从超几何分布中抽取样本.
样本是从具有指定参数的超几何分布中抽取的,`ngood`(做出良好选择的途径),`nbad`(做出不良选择的途径),和 nsample`(抽取的项目数量,该数量小于或等于总和 ``ngood + nbad`).
- 参数:
- ngood整数或整数的类数组对象
选择方法的数量.必须是非负的并且小于 10**9.
- nbad整数或整数的类数组对象
选择不当的方式数量.必须是非负的且小于 10**9.
- nsample整数或整数的类数组对象
采样项目的数量.必须是非负的并且小于
ngood + nbad
.- size整数或整数的元组,可选
输出形状.如果给定的形状是,例如,``(m, n, k)``,那么会抽取
m * n * k
个样本.如果大小是None``(默认),当 `ngood`、`nbad` 和 `nsample` 都是标量时,返回一个单一值.否则,会抽取 ``np.broadcast(ngood, nbad, nsample).size
个样本.
- 返回:
- outndarray 或标量
从参数化的超几何分布中抽取样本.每个样本是从包含 ngood 个好项目和 nbad 个坏项目的集合中随机选择的子集 nsample 中好项目的数量.
参见
multivariate_hypergeometric
从多元超几何分布中抽取样本.
scipy.stats.hypergeom
概率密度函数、分布或累积密度函数等.
备注
超几何分布的概率密度为
\[P(x) = \frac{\binom{g}{x}\binom{b}{n-x}}{\binom{g+b}{n}},\]其中 \(0 \le x \le n\) 且 \(n-b \le x \le g\)
对于 P(x) 表示在抽取的样本中
x
个好结果的概率,g = ngood,b = nbad,n = nsample.考虑一个装有黑色和白色大理石的瓮,其中 ngood 个是黑色的,`nbad` 个是白色的.如果你不放回地抽取 nsample 个球,那么超几何分布描述了抽取样本中黑色球的分布.
请注意,这种分布与二项分布非常相似,不同之处在于在这种情况下,样本是无放回抽取的,而在二项分布中,样本是有放回抽取的(或者样本空间是无限的).随着样本空间变大,这种分布趋近于二项分布.
参数 ngood 和 nbad 每个都必须小于 10**9.对于非常大的参数,用于计算样本的算法 [4] 会因为浮点计算中的精度损失而失效.对于这样的大值,如果 nsample 也不大,分布可以用二项分布 binomial(n=nsample, p=ngood/(ngood + nbad)) 来近似.
参考文献
[1]Lentner, Marvin, “Elementary Applied Statistics”, Bogden and Quigley, 1972.
[2]Weisstein, Eric W. “超几何分布.” 来自 MathWorld–A Wolfram 网络资源. https://mathworld.wolfram.com/HypergeometricDistribution.html
[3]Wikipedia, “超几何分布”, https://en.wikipedia.org/wiki/Hypergeometric_distribution
[4]Stadlober, Ernst, “使用均匀比方法生成离散随机变量”, 计算与应用数学杂志, 31, pp. 181-189 (1990).
示例
从分布中抽取样本:
>>> rng = np.random.default_rng() >>> ngood, nbad, nsamp = 100, 2, 10 # number of good, number of bad, and number of samples >>> s = rng.hypergeometric(ngood, nbad, nsamp, 1000) >>> from matplotlib.pyplot import hist >>> hist(s) # note that it is very unlikely to grab both bad items
假设你有一个装有15个白球和15个黑球的瓮.如果你随机抽取15个球,抽到12个或更多同色球的概率是多少?
>>> s = rng.hypergeometric(15, 15, 15, 100000) >>> sum(s>=12)/100000. + sum(s<=3)/100000. # answer = 0.003 ... pretty unlikely!