numpy.random.Generator.standard_t#
方法
- random.Generator.standard_t(df, size=None)#
从具有 df 自由度的标准学生 t 分布中抽取样本.
双曲分布的一个特例.随着 df 变大,结果类似于标准正态分布(
standard_normal
).- 参数:
- df浮点数或浮点数的类数组对象
自由度,必须 > 0.
- size整数或整数的元组,可选
输出形状.如果给定的形状是,例如,``(m, n, k)``,那么会抽取
m * n * k
个样本.如果大小是None``(默认),当 ``df
是标量时返回一个单一值.否则,会抽取np.array(df).size
个样本.
- 返回:
- outndarray 或标量
从参数化的标准学生t分布中抽取样本.
备注
t 分布的概率密度函数为
\[P(x, df) = \frac{\Gamma(\frac{df+1}{2})}{\sqrt{\pi df}\Gamma(\frac{df}{2})}\Bigl( 1+\frac{x^2}{df} \Bigr)^{-(df+1)/2}\]t 检验基于一个假设,即数据来自正态分布.t 检验提供了一种方法来检验样本均值(即从数据计算出的均值)是否是真实均值的良好估计.
t分布的推导最早于1908年由威廉·戈塞特在都柏林的吉尼斯啤酒厂工作时发表.由于专有问题的限制,他不得不使用笔名发表,因此他使用了’学生’这个名字.
参考文献
[1]Dalgaard, Peter, “Introductory Statistics With R”, Springer, 2002.
[2]维基百科,”学生t分布” https://en.wikipedia.org/wiki/Student’s_t-distribution
示例
从 Dalgaard 第 83 页 [1],假设 11 名女性的每日能量摄入量以千焦耳 (kJ) 为单位是:
>>> intake = np.array([5260., 5470, 5640, 6180, 6390, 6515, 6805, 7515, \ ... 7515, 8230, 8770])
他们的能量摄入是否系统性地偏离了推荐的7725 kJ值?我们的零假设将是无偏差,而备择假设将是有效果的存在,这可能是正面的也可能是负面的,因此我们的测试是双尾的.
因为我们正在估计均值,并且我们的样本中有 N=11 个值,所以我们有 N-1=10 个自由度.我们将显著性水平设置为 95%,并使用我们的摄入量的经验均值和经验标准差计算 t 统计量.我们使用 ddof 为 1 来基于方差的无偏估计计算我们的经验标准差(注意:由于平方根的凹性,最终估计不是无偏的).
>>> np.mean(intake) 6753.636363636364 >>> intake.std(ddof=1) 1142.1232221373727 >>> t = (np.mean(intake)-7725)/(intake.std(ddof=1)/np.sqrt(len(intake))) >>> t -2.8207540608310198
我们从具有适当自由度的学生t分布中抽取1000000个样本.
>>> import matplotlib.pyplot as plt >>> rng = np.random.default_rng() >>> s = rng.standard_t(10, size=1000000) >>> h = plt.hist(s, bins=100, density=True)
我们的 t 统计量是否落在分布两端的两个临界区域之一?
>>> np.sum(np.abs(t) < np.abs(s)) / float(len(s)) 0.018318 #random < 0.05, statistic is in critical region
这个双尾检验的概率值大约是1.83%,低于预定的5%显著性阈值.
因此,在零假设为真的情况下,观察到像我们摄入条件这样极端的值的概率太低,我们拒绝没有偏差的零假设.