dask.array.random.超几何
dask.array.random.超几何¶
- dask.array.random.hypergeometric(*args, **kwargs)¶
从超几何分布中抽取样本。
此文档字符串是从 numpy.random.mtrand.RandomState.hypergeometric 复制的。
Dask 版本可能存在一些不一致性。
样本是从具有指定参数的超几何分布中抽取的,ngood`(选择好的方式),`nbad`(选择坏的方式),以及 `nsample`(抽取的样本数量,该数量小于或等于 ``ngood + nbad` 的总和)。
备注
新代码应使用 ~numpy.random.Generator 实例的 ~numpy.random.Generator.hypergeometric 方法;请参阅 Quick start。
- 参数
- ngoodint 或 int 类型的类数组对象
做出良好选择的多种方式。必须是非负的。
- nbadint 或 int 类型的类数组对象
做出错误选择的数量。必须是非负的。
- nsampleint 或 int 类型的类数组对象
采样的项目数量。必须至少为1,最多为
ngood + nbad
。- 大小int 或 int 的元组,可选
输出形状。如果给定的形状是,例如
(m, n, k)
,那么会抽取m * n * k
个样本。如果大小是None``(默认),当 `ngood`、`nbad` 和 `nsample` 都是标量时,返回一个单一值。否则,会抽取 ``np.broadcast(ngood, nbad, nsample).size
个样本。
- 返回
- 出ndarray 或标量
从参数化的超几何分布中抽取样本。每个样本是从包含 ngood 个好项目和 nbad 个坏项目的集合中随机选择的子集中好项目的数量,子集的大小为 nsample。
参见
scipy.stats.hypergeom
概率密度函数、分布或累积密度函数等。
random.Generator.hypergeometric
应用于新代码。
注释
超几何分布的概率密度为
\[P(x) = \frac{\binom{g}{x}\binom{b}{n-x}}{\binom{g+b}{n}},\]其中 \(0 \le x \le n\) 且 \(n-b \le x \le g\)
对于 P(x) 表示在抽取的样本中
x
个好结果的概率,g = ngood,b = nbad,n = nsample。考虑一个装有黑白弹珠的瓮,其中 ngood 个是黑色的,nbad 个是白色的。如果你不放回地抽取 nsample 个球,那么超几何分布描述了抽取样本中黑球的分布。
请注意,这种分布与二项分布非常相似,不同之处在于在这种情况下,样本是无放回抽取的,而在二项分布中,样本是有放回抽取的(或者样本空间是无限的)。随着样本空间变大,这种分布趋近于二项分布。
参考文献
- 1
Lentner, Marvin, “基础应用统计学”, Bogden and Quigley, 1972.
- 2
Weisstein, Eric W. “超几何分布。” 来自 MathWorld–A Wolfram 网络资源。 https://mathworld.wolfram.com/HypergeometricDistribution.html
- 3
Wikipedia, “超几何分布”, https://en.wikipedia.org/wiki/Hypergeometric_distribution
示例
从分布中抽取样本:
>>> ngood, nbad, nsamp = 100, 2, 10 # number of good, number of bad, and number of samples >>> s = np.random.hypergeometric(ngood, nbad, nsamp, 1000) >>> from matplotlib.pyplot import hist >>> hist(s) # note that it is very unlikely to grab both bad items
假设你有一个装有15个白色和15个黑色弹珠的瓮。如果你随机抽取15个弹珠,其中12个或更多是同一种颜色的概率是多少?
>>> s = np.random.hypergeometric(15, 15, 15, 100000) >>> sum(s>=12)/100000. + sum(s<=3)/100000. # answer = 0.003 ... pretty unlikely!