连续统计分布#

概述#

所有分布都将具有位置(L)和尺度(S)参数,以及所需的任何形状参数,形状参数的名称将有所不同。标准形式的分布将在 \(L=0.0\)\(S=1.0\) 的情况下给出。可以使用以下公式获得各种函数的非标准形式(注意 \(U\) 是标准均匀随机变量)。

峰度 \(\gamma_{2}=\frac{\mu_{4}}{\left(\mu_{2}\right)^{2}}-3\) \(\gamma_{2}\) ====================================== ============================================================================= =========================================================================================================================================

#

非中心矩是使用PDF定义的

\[\mu_{n}^{\prime}=\int_{-\infty}^{\infty}x^{n}f\left(x\right)dx.\]

注意,这些总是可以使用PPF计算。在上述方程中代入 \(x=G\left(q\right)\) 并得到

\[\mu_{n}^{\prime}=\int_{0}^{1}G^{n}\left(q\right)dq\]

这可能更容易通过数值计算。注意 \(q=F\left(x\right)\) 所以 \(dq=f\left(x\right)dx.\) 中心矩的计算类似 \(\mu=\mu_{1}^{\prime}\)

\begin{eqnarray*} \mu_{n} & = & \int_{-\infty}^{\infty}\left(x-\mu\right)^{n}f\left(x\right)dx\\ & = & \int_{0}^{1}\left(G\left(q\right)-\mu\right)^{n}dq\\ & = & \sum_{k=0}^{n}\left(\begin{array}{c} n\\ k\end{array}\right)\left(-\mu\right)^{k}\mu_{n-k}^{\prime}\end{eqnarray*}

特别是

\begin{eqnarray*} \mu_{3} & = & \mu_{3}^{\prime}-3\mu\mu_{2}^{\prime}+2\mu^{3}\\ & = & \mu_{3}^{\prime}-3\mu\mu_{2}-\mu^{3}\\ \mu_{4} & = & \mu_{4}^{\prime}-4\mu\mu_{3}^{\prime}+6\mu^{2}\mu_{2}^{\prime}-3\mu^{4}\\ & = & \mu_{4}^{\prime}-4\mu\mu_{3}-6\mu^{2}\mu_{2}-\mu^{4}\end{eqnarray*}

偏度定义为

\[\gamma_{1}=\sqrt{\beta_{1}}=\frac{\mu_{3}}{\mu_{2}^{3/2}}\]

而(Fisher)峰度为

\[\gamma_{2}=\frac{\mu_{4}}{\mu_{2}^{2}}-3,\]

因此正态分布的峰度为零。

中位数和众数#

中位数 \(m_{n}\) 定义为密度的一半位于其一侧的点 and half on the other. 换句话说,\(F\left(m_{n}\right)=\frac{1}{2}\) 因此

\[m_{n}=G\left(\frac{1}{2}\right).\]

此外,众数 \(m_{d}\) 定义为概率密度函数达到其峰值的值

\[m_{d}=\arg\max_{x}f\left(x\right).\]

拟合数据#

为了将数据拟合到分布中,最大化似然函数是常见的做法。或者,一些分布有众所周知的无偏最小方差估计量。这些将默认选择,但似然函数将始终可用以进行最小化。

如果 \(f\left(x;\boldsymbol{\theta}\right)\) 是随机变量的PDF,其中 \(\boldsymbol{\theta}\) 是参数向量(例如 \(L\)\(S\) ),那么对于从这个分布中独立抽取的 \(N\) 个样本,随机向量 \(\mathbf{x}\) 的联合分布是

\[f\left(\mathbf{x};\boldsymbol{\theta}\right)=\prod_{i=1}^{N}f\left(x_{i};\boldsymbol{\theta}\right).\]

参数 \(\boldsymbol{\theta}\) 的最大似然估计是最大化此函数,其中 \(\mathbf{x}\) 固定并由数据给出:

\begin{eqnarray*} \boldsymbol{\theta}_{es} & = & \arg\max_{\boldsymbol{\theta}}f\left(\mathbf{x};\boldsymbol{\theta}\right)\\ & = & \arg\min_{\boldsymbol{\theta}}l_{\mathbf{x}}\left(\boldsymbol{\theta}\right).\end{eqnarray*}

其中

\begin{eqnarray*} l_{\mathbf{x}}\left(\boldsymbol{\theta}\right) & = & -\sum_{i=1}^{N}\log f\left(x_{i};\boldsymbol{\theta}\right)\\ & = & -N\overline{\log f\left(x_{i};\boldsymbol{\theta}\right)}\end{eqnarray*}

请注意,如果 \(\boldsymbol{\theta}\) 仅包括形状参数,则可以通过将 \(x_{i}\) 替换为 \(\left(x_{i}-L\right)/S\) 在似然函数中添加 \(N\log S\) 并最小化,从而拟合位置和尺度参数,因此

\begin{eqnarray*} l_{\mathbf{x}}\left(L,S;\boldsymbol{\theta}\right) & = & N\log S-\sum_{i=1}^{N}\log f\left(\frac{x_{i}-L}{S};\boldsymbol{\theta}\right)\\ & = & N\log S+l_{\frac{\mathbf{x}-S}{L}}\left(\boldsymbol{\theta}\right)\end{eqnarray*}

如果需要,可以通过使用均值和方差的样本估计值来获得 \(L\)\(S\) 的样本估计值(不一定是最大似然估计值):

\begin{eqnarray*} \hat{S} & = & \sqrt{\frac{\hat{\mu}_{2}}{\mu_{2}}}\\ \hat{L} & = & \hat{\mu}-\hat{S}\mu\end{eqnarray*}

其中 \(\mu\)\(\mu_{2}\) 被假定为 未变换 分布(当 \(L=0\)\(S=1\) 时)的均值和方差,并且

\begin{eqnarray*} \hat{\mu} & = & \frac{1}{N}\sum_{i=1}^{N}x_{i}=\bar{\mathbf{x}}\\ \hat{\mu}_{2} & = & \frac{1}{N-1}\sum_{i=1}^{N}\left(x_{i}-\hat{\mu}\right)^{2}=\frac{N}{N-1}\overline{\left(\mathbf{x}-\bar{\mathbf{x}}\right)^{2}}\end{eqnarray*}

均值的标准符号#

我们将使用

\[\overline{y\left(\mathbf{x}\right)}=\frac{1}{N}\sum_{i=1}^{N}y\left(x_{i}\right)\]

其中 \(N\) 应根据上下文理解为样本数量 \(x_{i}\)

参考文献#

在教程中,几个特殊函数反复出现,并在此列出。#

\(\Phi\left(x\right)\) 正态分布的累积分布函数 \(\int_{-\infty}^{x}\phi\left(t\right) dt = \frac{1}{2}+\frac{1}{2}\mathrm{erf}\left(\frac{x}{\sqrt{2}}\right)\) \(\psi\left(z\right)\) 双伽玛函数 \(\frac{d}{dz} \log\left(\Gamma\left(z\right)\right)\) \(\psi_{n}\left(z\right)\) 多伽玛函数 \(\frac{d^{n+1}}{dz^{n+1}}\log\left(\Gamma\left(z\right)\right)\) \(I_{\nu}\left(y\right)\) 第一类修正贝塞尔函数 \(\mathrm{Ei}(\mathrm{z})\) 指数积分 \(-\int_{-x}^\infty \frac{e^{-t}}{t} dt\) \(\zeta\left(n\right)\) 黎曼ζ函数 \(\sum_{k=1}^{\infty} \frac{1}{k^{n}}\) \(\zeta\left(n,z\right)\) 赫尔维茨ζ函数 \(\sum_{k=0}^{\infty} \frac{1}{\left(k+z\right)^{n}}\) \(\,{}_{p}F_{q}(a_{1},\ldots,a_{p};b_{1},\ldots,b_{q};z)\) 超几何函数 \(\sum_{n=0}^{\infty} {\frac{(a_{1})_{n}\cdots(a_{p})_{n}}{(b_{1})_{n}\cdots(b_{q})_{n}}} \,{\frac{z^{n}}{n!}}\) =============================================================== ====================================================================================== ============================================================================================================================= scipy.stats 中的连续分布 =========================================