dask.array.random.standard_t

dask.array.random.standard_t

dask.array.random.standard_t(*args, **kwargs)

从具有 df 自由度的标准学生 t 分布中抽取样本。

此文档字符串是从 numpy.random.mtrand.RandomState.standard_t 复制的。

Dask 版本可能存在一些不一致性。

双曲分布的一个特例。随着 df 变大,结果类似于标准正态分布 (standard_normal)。

备注

新代码应使用 ~numpy.random.Generator 实例的 ~numpy.random.Generator.standard_t 方法;请参阅 Quick start

参数
df浮点数或浮点数的类数组对象

自由度,必须大于0。

大小int 或 int 的元组,可选

输出形状。如果给定的形状是,例如,(m, n, k),那么会抽取 m * n * k 个样本。如果大小是 None``(默认),当 ``df 是标量时,返回一个单一值。否则,会抽取 np.array(df).size 个样本。

返回
ndarray 或标量

从参数化的标准学生t分布中抽取样本。

参见

random.Generator.standard_t

应用于新代码。

注释

t 分布的概率密度函数为

\[P(x, df) = \frac{\Gamma(\frac{df+1}{2})}{\sqrt{\pi df} \Gamma(\frac{df}{2})}\Bigl( 1+\frac{x^2}{df} \Bigr)^{-(df+1)/2}\]

t检验基于一个假设,即数据来自正态分布。t检验提供了一种方法来检验样本均值(即从数据中计算出的均值)是否是真实均值的良好估计。

t分布的推导最早于1908年由威廉·戈塞特在都柏林的吉尼斯啤酒厂工作时发表。由于专利问题,他不得不使用笔名发表,因此他使用了“学生”这个名字。

参考文献

1

Dalgaard, Peter, “R语言统计入门”, Springer, 2002.

2

Wikipedia, “学生t分布” https://en.wikipedia.org/wiki/Student’s_t-distribution

示例

根据Dalgaard第83页[Rf4c55e723b8f-1]_,假设11名女性的每日能量摄入量(以千焦耳(kJ)为单位)为:

>>> intake = np.array([5260., 5470, 5640, 6180, 6390, 6515, 6805, 7515, \  
...                    7515, 8230, 8770])

他们的能量摄入是否系统性地偏离了推荐的7725 kJ的值?我们的零假设将是偏离的缺失,而备择假设将是存在一个可能为正或负的影响,因此我们的检验将是双尾的。

因为我们正在估计均值,并且我们的样本中有 N=11 个值,所以我们有 N-1=10 个自由度。我们将显著性水平设定为 95%,并使用样本均值和样本标准差计算 t 统计量。我们使用 ddof 为 1 来基于方差的无偏估计计算样本标准差(注意:由于平方根的凹性,最终估计并非无偏)。

>>> np.mean(intake)  
6753.636363636364
>>> intake.std(ddof=1)  
1142.1232221373727
>>> t = (np.mean(intake)-7725)/(intake.std(ddof=1)/np.sqrt(len(intake)))  
>>> t  
-2.8207540608310198

我们从具有适当自由度的学生t分布中抽取1000000个样本。

>>> import matplotlib.pyplot as plt  
>>> s = np.random.standard_t(10, size=1000000)  
>>> h = plt.hist(s, bins=100, density=True)  

我们的 t 统计量是否落在分布两端的两个临界区域内?

>>> np.sum(np.abs(t) < np.abs(s)) / float(len(s))  
0.018318  #random < 0.05, statistic is in critical region

这个双尾检验的概率值约为1.83%,低于预定的5%显著性阈值。

因此,在零假设为真的条件下,观察到像我们摄入这样极端值的概率太低,我们拒绝没有偏差的零假设。