弱大数定律——百年大数定律系列01

作者: 引线小白-本文永久链接:httpss://www.limoncc.com/post/d780e582351be7e8/
知识共享许可协议: 本博客采用署名-非商业-禁止演绎4.0国际许可证

或然之事是很可能发生之事。
—— 亚里士多德,《修辞学》

一、简要回顾

在瑞士巴塞尔出生于1654年12月7日的雅各布• 伯努利,他在1705年8 月16 日年去世,在这前两年的时间里写作了《猜度术》。提出了第一个大数定律:伯努利大数定律。距今已有300多年[^1]

概率论的真正历史开始于极限定理的研究。我们发现在大量的重复实验中,一个随机事件有明显的规律性,即它出现的频率在某个固定数的附近摆动。同时我们也观测到,大量随机现象的平均结果也一般具有稳定性:在大量随机现象共同作用时,由于这些随机偏差相互抵消、补偿和拉平,致使总的平均结果趋于稳定。

同时也发现,独立随机变量之和的极限分布是正态分布。这被称为中心极限定理。下面我们用数学语言来表达和探索上述思想。

若 $ x_1,x_2,\cdots,x_n,\cdots$是随机变量序列,令

$$\begin{align}
\xi_n=\frac{x_1+x_2+\cdots+x_n}{n}
\end{align}$$

如果存在一个常数序列 $ a_1,a_2,\cdots,a_n,\cdots$,对任意的 $ \varepsilon>0$恒有

$$\begin{align}
\lim_{n\to \infty}p \big(|\xi_n-a_n|<\varepsilon\big)=1
\end{align}$$

则称序列 $ {\xi_n}$服从大数定律。

如果存在 $ \mathrm{E}[x_i]$和 $ \mathrm{var}[x_i]$,令

$$\begin{align}
\zeta_n=\frac{\sum_{i=1}^n x_i- \sum_{i=1}^n \mathrm{E}[x_i]}{\sqrt{\sum_{i=1}^n \mathrm{var}[x_i]}}
\end{align}$$

我们的目的是寻找使得

$$\begin{align}
\lim_{n\to \infty}p \big(\zeta_n<x\big)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^x \mathrm{e}^{-\frac{1}{2}t^2}dt
\end{align}$$

成立的条件。一般的若随机序列 $ {x_i}$的标准化和 $ \zeta_n$使得上述成立,则我们称 $ \{x_i\}$服从中心极限定理。

二、随机变量序列收敛性

2.1、依概率1收敛

称随机变量序列 $ x_1(\omega),x_2(\omega),\cdots $ 依概率1收敛于某随机变量 $ x(\omega)$,如果

$$\begin{align}
p \big(\{\omega\mid \lim_{n\to \infty}x_n(\omega)=x(\omega)\}\big)=1
\end{align}$$

又记为 $\displaystyle x_n \mathop{\longrightarrow}^{\mathrm{a.e.}} x$。就是说随机变量序列 $\displaystyle \{x_i(\omega)\}$ 几乎处处收敛于随机变量 $ x(\omega)$。

另外一个表示为

$$\begin{align}
p \bigg(\bigcap_{m=1}^{\infty}\bigcup_{N=1}^{\infty}\bigcap_{n=N}^{\infty}\big\{\omega\mid\big| x_n(\omega)-x(\omega)\big|< \frac{1}{m}\big\}\bigg)=1
\end{align}$$

2.2、依概率收敛

称随机变量序列 $ x_1(\omega),x_2(\omega),\cdots $ 依概率收敛于某随机变量 $ x(\omega)$,如果对于任意的 $ \varepsilon>0$,有

$$\begin{align}
\lim_{n\to \infty}p \big(\{\omega\mid |x_n(\omega)-x(\omega)|\geqslant \varepsilon\}\big)=0
\end{align}$$

又记为 $\displaystyle x_n \mathop{\longrightarrow}^{\mathrm{P}} x$。就是说随机变量序列 $\displaystyle \{x_i(\omega)\}$ 依概率收敛于随机变量 $ x(\omega)$。

2.3、依分布收敛

称随机变量序列 $ x_1(\omega),x_2(\omega),\cdots $ 依分布收敛于某随机变量 $ x(\omega)$,如果相应的分布函数序列 $ F_1(x),F_2(x),\cdots$弱收敛于 $ x(\omega)$的分布函数 $ F(x)$。

$$\begin{align}
\forall x\in \{x\mid \lim_{t\to x}F(t)=F(x)\}\to \lim_{n\to \infty}F_n(x)=F(x)
\end{align}$$

又记为 $\displaystyle x_n \mathop{\longrightarrow}^{\mathrm{W}} x$。就是说随机变量序列 $\displaystyle \{x_i(\omega)\}$ 依分布收敛于随机变量 $ x(\omega)$。

2.4、依矩收敛

假设对于 $ r>0$, $\displaystyle \mathrm{E}[|x|^r]<\infty$ 和 $\displaystyle \mathrm{E}[|x_n|^r]<\infty$。称随机变量序列 $ x_1(\omega),x_2(\omega),\cdots $ 依$ r $阶矩收敛于某随机变量 $ x(\omega)$,如果有

$$\begin{align}
\lim_{n\to \infty}\mathrm{E}[|x_n-x|^r]=0
\end{align}$$

又记为 $\displaystyle x_n \mathop{\longrightarrow}^{\mathrm{r}} x$。就是说随机变量序列 $\displaystyle \{x_i(\omega)\}$ 依 $ r $阶矩收敛于随机变量 $ x(\omega)$。

三、概率不等式

3.1、随机变量不等式引理

【概率不等式引理】
设$ g(x)$在 $ (0,+\infty)$上是一个非负单调不减函数。且有一随机变量$ \xi$使得 $ \mathrm{E}[g(\xi)]<\infty$。则对于任意的 $ \varepsilon>0$,有:

$$\begin{align}
p \big(|\xi|\geqslant \varepsilon\big)\leqslant \frac{\mathrm{E}\big[g(\xi)\big]}{g(\varepsilon)}
\end{align}$$

证明:
有对任意的 $ \varepsilon>0$,当 $ \xi\geqslant\varepsilon$时,有 $ g(\xi)\geqslant g(\varepsilon)$。我们根据数学期望的性质有

$$\begin{align}
p(|\xi|\geqslant \varepsilon)
=\mathrm{E}\big[I_{\{\omega\mid \xi(\omega)\geqslant \varepsilon\}}\big]
\leqslant \mathrm{E}\bigg[\frac{g(\xi)}{g(\varepsilon)}I_{\{\omega\mid \xi(\omega)\geqslant \varepsilon\}}\bigg]
\leqslant \mathrm{E}\bigg[\frac{g(\xi)}{g(\varepsilon)}\bigg]
= \frac{\mathrm{E}[g(\xi)]}{g(\varepsilon)}
\end{align}$$

其中 $ I_{\{\omega\mid \xi(\omega)\geqslant \varepsilon\}}$是集合 $ \{\omega\mid \xi(\omega)\geqslant \varepsilon\}$的示性函数。同时我们利用任意事件的概率等于它的示性函数的数学期望 $\displaystyle p(A)=\mathrm{E}[I_A]=\int_{\Omega}I_A dF(x)$,和定积分不等式性质。当然我们也可以反向思考,用积分第二中值定理得到:

$$\begin{align}
\mathrm{E}\big[g(\xi)\big]
&=\int_{\Omega}g(\xi)d F(\xi)\\
&\geqslant \int_{\Omega}g(\varepsilon)d F(\xi)
\geqslant \int_{\Omega}g(\varepsilon)d F(\xi)-\int_{|\xi|\leqslant \varepsilon} g(\xi)dF(\xi)\\
&=g(\varepsilon)\big[1-p \big( \varepsilon<\xi <\delta\big)\big]\,,\delta\in[-\varepsilon,+\varepsilon]\\
&\geqslant g(\varepsilon)p \big(|\xi|\geqslant \varepsilon\big)
\end{align}$$

通过非负随机变量 $ x$构造简单随机变量序列 $ x_n$,来实现勒贝格积分。

$$\begin{align}
x_n(\omega)=
\begin{cases}
\displaystyle\frac{k}{2^n}, & \displaystyle \omega\in \big\{\frac{k}{2^n}\leqslant x(\omega)<\frac{k+1}{2^n}\big\}\\
\displaystyle n, &\displaystyle \omega\in \{x(\omega)\geqslant n\}
\end{cases}
\end{align}$$

3.2、马尔可夫不等式

令 $ g(x)=x^r$ 得

$$\begin{align}
p \big(|\xi|\geqslant \varepsilon\big)\leqslant \frac{\mathrm{E}[|\xi|^r]}{\varepsilon^r}
\end{align}$$

3.2.1、切比雪夫不等式

将马尔可夫不等式的随机变量变为 $ \xi- \mathrm{E}[\xi]$,令 $ r=2$ 有

$$\begin{align}
p \big(|\xi- \mathrm{E}[\xi]|\geqslant \varepsilon\big)\leqslant \frac{\mathrm{var}[\xi]}{\varepsilon^2}
\end{align}$$

3.2.2、其他矩不等式

【施瓦茨不等式】对于任意随机变量 $ \xi$ 和 $ \eta$有有穷二阶矩,那么

$$\begin{align}
\mathrm{E}^2[\xi\eta]
\leqslant \mathrm{E}[\xi^2]\mathrm{E}[\eta^2]
\end{align}$$其中等式成立,当且仅当存在一常数 $ \lambda$,使得 $ p(\xi= \lambda \eta)=1$。

证明:

首先证明 $ \mathrm{E}[\xi\eta]$有穷
$$\begin{align}
&\xi^2+\eta^2-2|\xi||\eta|=\big(|\xi|-|\eta|\big)^2\geqslant 0\\
&\to |\xi\eta|\leqslant \frac{1}{2}\big(\xi^2+\eta^2\big)\\
&\to \mathrm{E}\big[|\xi\eta|\big]\leqslant \frac{1}{2}\big(\mathrm{E}[\xi^2]+\mathrm{E}[\eta^2]\big)<\infty
\end{align}$$

其次有

$$\begin{align}
0\leqslant \mathrm{E} \big[(\xi+t\eta)^2\big]=\mathrm{E}[\xi^2]+2t \mathrm{E}[\xi\eta]+t^2 \mathrm{E}[\eta^2]
\end{align}$$

由此可见此式关于 $ t$的二次三项式不可能有两个不同实根,因而由其判别式知道

$$\begin{align}
\Delta
=4 \mathrm{E}^2[\xi\eta]- 4 \mathrm{E}[\xi^2]\mathrm{E}[\eta^2]
\leqslant 0\to \mathrm{E}^2[\xi\eta]
\leqslant \mathrm{E}[\xi^2]\mathrm{E}[\eta^2]
\end{align}$$

再次,若 $ \Delta=0$,则存在 $ t$,使得 $ \mathrm{E}\big[(\xi+t\eta)^2\big]=0$,由于

$$\begin{align}
&0\leqslant \mathrm{var}\big[\xi+t\eta\big]\leqslant \mathrm{E}\big[(\xi+t\eta)^2\big]=0\\
&\iff \mathrm{var}\big[\xi+t\eta\big]=0\\
&\iff p(\xi+t\eta=0)=1 \text{ or } p(\xi=\lambda t)=1
\end{align}$$
该不等式告诉我们,若随机变量的方差存在,则它们的协方差也存在。

【赫德不等式】

假设 $ \mathrm{E}\big[|\xi|^\alpha\big]<\infty$, $ \mathrm{E}\big[|\eta|^\beta\big]<\infty$,其中 $ \alpha>1,\beta>1, \frac{1}{\alpha}+\frac{1}{\beta}=1$,那么

$$\begin{align}
\mathrm{E}\big[|\xi\eta|\big]
\leqslant \mathrm{E}^{\frac{1}{\alpha}}\big[|\xi|^\alpha\big]\mathrm{E}^{\frac{1}{\beta}}\big[|\eta|^\beta\big]
\end{align}$$
特别的,当 $ \alpha=\beta=2$时,得施瓦茨不等式。

【证明】
考虑曲线 $ y=x^{\alpha-1}$,任取 $ a>0,b>0$,有点 $ D(a,a^{\alpha-1})$, $ A(a,0)$, $ B(0,b)$, $ C(b^{\frac{1}{\alpha-1}},b)$。画图有

$$\begin{align}
ab\leqslant S_{AOD}+S_{BOC}
\end{align}$$同时我们有
$$\begin{align}
S_{AOD}=\int_0^ax^{\alpha-1}dx=\frac{1}{\alpha}a^\alpha\quad S_{BOC}=\int_0^by^{\beta-1}dy=\frac{1}{\beta}b^\beta
\end{align}$$于是有
$$\begin{align}
ab\leqslant \frac{1}{\alpha}a^\alpha+\frac{1}{\beta}b^\beta
\end{align}$$现在令

$$\begin{align}
a=\frac{|\xi|}{\mathrm{E}^{\frac{1}{\alpha}}\big[|\xi|^\alpha\big]}\quad b=\frac{|\eta|}{\mathrm{E}^{\frac{1}{\beta}}\big[|\eta|^\beta\big]}
\end{align}$$代入在不等式两边去期望有
$$\begin{align}
\mathrm{E}[ab]\leqslant \frac{1}{\alpha}+\frac{1}{\beta}
\end{align}$$整理即是结论。

【闵可夫斯基不等式】
假设 $ r\leqslant 1$, $ \mathrm{E}\big[|\xi|^r\big]<\infty$, $ \mathrm{E}\big[|\eta|^r\big]<\infty$,那么

$$\begin{align}
\mathrm{E}^{\frac{1}{r}}\big[(\xi+\eta)^r\big]
\leqslant \mathrm{E}^{ \frac{1}{r}}\big[|\xi|^r\big]+\mathrm{E}^{\frac{1}{r}}\big[|\eta|^r\big]
\end{align}$$

【证明】
当 $ r=1$时,有 $ |\xi+\eta|\leqslant |\xi|+|\eta|$得结论

当 $ r>1$时,若 $ \mathrm{E}\big[|\xi+\eta|^r\big]=0$,则结论显然成立

当 $ r>1$时,且 $ \mathrm{E}\big[|\xi+\eta|^r\big]\neq0$,同时我们考虑赫德不等式 $\frac{1}{r}+\frac{1}{s}=1 \Longrightarrow s(r-1)=r\geqslant 1$有

$$\begin{align}
&|\xi+\eta|^r\leqslant |\xi|\cdot|\xi+\eta|^{r-1}+|\eta|\cdot|\xi+\eta|^{r-1}\\
\Longrightarrow& \mathrm{E}\big[|\xi+\eta|^r\big]\leqslant \mathrm{E}\big[|\xi|\cdot|\xi+\eta|^{r-1}\big]+\mathrm{E}\big[|\eta|\cdot|\xi+\eta|^{r-1}\big]\\
\Longrightarrow&\mathrm{E}\big[|\xi+\eta|^r\big]\leqslant \bigg[E^{\frac{1}{r}}\big[|\xi|^{r}\big]+\mathrm{E}^{\frac{1}{r}}\big[|\eta|^r\big]\bigg] \mathrm{E}^{\frac{1}{s}}\big[|\xi+\eta|^{s(r-1)}\big]\\
\Longrightarrow&\mathrm{E}^{\frac{1}{r}}\big[(\xi+\eta)^r\big]
\leqslant \mathrm{E}^{ \frac{1}{r}}\big[|\xi|^r\big]+\mathrm{E}^{\frac{1}{r}}\big[|\eta|^r\big]
\end{align}$$

当 $ 0<r<1$时有

$$\begin{align}
&|\xi+\eta|^r\leqslant |\xi|^r+|\eta|^r\\
\Longrightarrow& \mathrm{E}\big[|\xi+\eta|^r\big]\leqslant \mathrm{E}\big[|\xi|^r\big]+\mathrm{E}\big[|\eta|^r\big]
\end{align}$$

由此可见如果随机变量有又穷 $ r$阶绝对矩,那么他们的和也有又穷 $ r$阶绝对矩:

$$\begin{align}
\mathrm{E}\big[|\xi|^r\big]<\infty,\mathrm{E}\big[|\eta|^r\big]<\infty \Longrightarrow \mathrm{E}\big[|\xi+\eta|^r\big]<\infty
\end{align}$$

【詹森不等式】
假设 $ \xi$是一随机变量,取值区间 $ (a,b)$, $ -\infty \leqslant a <b \leqslant +\infty$; $ g(x),x\in(a,b) $ 是连续的凹函数,如果 $ \mathrm{E}[\xi]$和 $ \mathrm{E}[g(\xi)]$存在,则

$$\begin{align}
\mathrm{E}\big[g(\xi)\big]\geqslant g \big(\mathrm{E}[\xi]\big)
\end{align}$$

证明
如果函数 $ g(x)$在 $ (a,b)$上是凹的,那么对于任意的 $ x_1,x_2\in (a,b)$有

$$\begin{align}
\frac{1}{2}\big[g(x_1)+g(x_2)\big]\geqslant g \big(\frac{x_1+x_2}{2}\big)
\end{align}$$那么根据这性质,对个 $ g(x)$上一点 $ (x_0,g(x_0))$,有切点斜率 $ k(x_0)$我们有

$$\begin{align}
g(x)\geqslant k(x_0)(x-x_0)+g(x_0)
\end{align}$$现在取 $ x_0=\mathrm{E}[\xi]$,令 $ x=\xi$有

$$\begin{align}
g(\xi)\geqslant k(\mathrm{E}[\xi])\big(\xi- \mathrm{E}[\xi]\big)+g \big(\mathrm{E}[\xi]\big)
\end{align}$$再两边取期望有结论

【李雅普诺夫不等式】
对于任意实数 $ 0<r< s$, 如果 $ \mathrm{E}\big[|\xi|^s\big]<\infty$,则

$$\begin{align}
\mathrm{E}^{\frac{1}{r}}\big[|\xi|^r\big]
\leqslant \mathrm{E}^{\frac{1}{s}}\big[|\xi|^s\big]
\end{align}$$

证明

考虑詹森不等式,令 $ g(x)=|x|^t$,当 $ t\geqslant 1$时是凹函数,设 $ t= \frac{s}{r}>1$有
$$\begin{align}
&\mathrm{E}^\frac{s}{r}\big[|\xi|^r\big]= g \big(\mathrm{E}[|\xi|^r]\big)\leqslant\mathrm{E}\big[g(\xi)\big]=\mathrm{E}\big[|\xi|^s\big]\\
\Longrightarrow&\mathrm{E}^{\frac{1}{r}}\big[|\xi|^r\big]
\leqslant \mathrm{E}^{\frac{1}{s}}\big[|\xi|^s\big]
\end{align}$$

四、弱大数定律

定义:如果随机变量序列 $\displaystyle \{x_i\}$ 服从弱大数定律,那么对于任意的 $ \varepsilon>0$,有

$$\begin{align}
\lim_{n\to \infty}p \bigg(\frac{1}{n}\bigg|\sum_{i=1}^n\big(x_i- \mathrm{E}[x_i]\big)\bigg|\geqslant \varepsilon\big)=0
\end{align}$$
成立。下面叙述一下常用的弱大数定律

4.1、马尔可夫大数定律

若有随机变量序列 $ \{x_i\}_{i=1}^n$,对于 $ n\geqslant 1$满足下列条件:
1、 $\displaystyle \mathrm{E}\big[|\xi_n|\big]<\infty$
2、 $\displaystyle \mathrm{var}\big[\sum_{i=1}^n x_i\big]<\infty$
3、 $\displaystyle \lim_{n\to \infty} \frac{1}{n^2}\mathrm{var}\big[\sum_{i=1}^n x_i\big]=0$
那么随机变量序列 $ \{x_i\}$服从大数定律:
$$\begin{align}
\lim_{n\to \infty}p \bigg(\frac{1}{n}\bigg|\sum_{i=1}^n\big(x_i- \mathrm{E}[x_i]\big)\bigg|\geqslant \varepsilon\big)=0
\end{align}$$

证明

对任意的 $ \varepsilon>0$, 由马尔可夫不等式知道

$$\begin{align}
p \bigg(\bigg|\sum_{i=1}^n\big(x_i- \mathrm{E}[x_i]\big)\bigg|\geqslant n\varepsilon\big)
\leqslant \frac{\mathrm{var}\big[\sum_{i=1}^nx_i\big]}{n^2 \varepsilon^2}
\end{align}$$

再由条件三即可得出结论。

4.1.1、切比雪夫大数定律

若有随机变量序列 $ \{x_i\}_{i=1}^n$ 两两独立,对于任意的 $ n\geqslant 1$, 有 $ \mathrm{var}[x_n]\leqslant C$,那么随机变量序列 $ \{x_i\}$服从大数定律:

$$\begin{align}
\lim_{n\to \infty}p \bigg(\frac{1}{n}\bigg|\sum_{i=1}^n\big(x_i- \mathrm{E}[x_i]\big)\bigg|\geqslant \varepsilon\big)=0
\end{align}$$

证明
随机变量序列 $ \{x_i\}_{i=1}^n$ 两两独立,且对于任意的 $ n\geqslant 1$,有 $ \mathrm{var}[x_n]\leqslant C$。所有

$$\begin{align}
\lim_{n\to \infty} \frac{1}{n^2}\mathrm{var}\big[\sum_{i=1}^nx_i\big]
=\lim_{n\to \infty} \frac{1}{n^2}\sum_{i=1}^n \mathrm{var}[x_i]
\leqslant \lim_{n\to \infty} \frac{C}{n}=0
\end{align}$$

再由马尔可夫大数定律即可得出结论。

4.1.2、伯努利大数数定律

有 $ k_n$是 $ n$重伯努利实验中某事件 $ A$出现的次数,已知 $ A$出的概率为 $ \mu$,那么

$$\begin{align}
\lim_{n\to \infty} p \bigg(\bigg|\frac{k_n}{n}-\mu\bigg|\geqslant \varepsilon\bigg)=0
\end{align}$$

证明:
有$\displaystyle x_i\sim \mathrm{Ber}\big(x_i\mid \mu\big)=\mu^{x_i}(1-\mu)^{1-x_i},x_i\in\{0,1\}$,于是有
1、$ k_n=\sum_{i=1}^n x_i$,
2、而其中随机变量序列 $ \{x_i\}$是独立同分布的。 且有 $ \mathrm{E}[x_i]=\mu, \mathrm{var}[x_i]=\mu(1-\mu)\leqslant \frac{1}{4}$。

由切比雪夫大数定律即可得出结论。

4.1.3、泊松大数数定律

对于伯努利实验,有随机变量序列 $ \{x_i\}_{i=1}^n$,且有有$\displaystyle x_i\sim \mathrm{Ber}\big(x_i\mid \mu_i\big)=\mu_i^{x_i}(1-\mu_i)^{1-x_i},x_i\in\{0,1\}$。某事件 $ A$出现的次数 $ k_n=\sum_{i=1}^nx_i$,则

$$\begin{align}
\lim_{n\to \infty }p \bigg(\bigg|\frac{k_n}{n}-\frac{1}{n}\sum_{i=1}^n \mu_i\bigg|\geqslant \varepsilon\bigg)=0
\end{align}$$

证明

$$\begin{align}
\xi_i=
\begin{cases}
1\, \text{在第i 次试验中A 出现}\\
0\, \text{在第i 次试验中A 不出现}
\end{cases}
\end{align}$$
由定律条件知道随机序列 $ \{\xi_i\}$相互独立,且有 $ p(\xi_i=1)=\mu_i,p(\xi_i=0)=1-\mu_i$

又有 $ \mathrm{E}[\xi_i]=\mu_i, \mathrm{var}[\xi_i]=\mu_i(1-\mu_i)\leqslant \frac{1}{4}$

于是由切比雪夫大数定律知道结论成立。

评述 泊松大数定律是伯努利大数定律的推广,伯努利大数定律证明了事件在完全相同的条件下,在重复进行随机试验中频率的稳定性,而泊松定理表明,当独立进行的随机试验的条件变化时,频率仍然具有稳定性:随着 $ n$的无限增大,在 $ n$次独立试验中,事件 $ A$的频率趋于稳定在各次试验中事件 $ A$出现概率的算术平均值。

上面几种大数定律一般不要求随机序列 $ \{\xi_i\}$有相同分布,但是却要求方差满足一定条件,而下面的定律表明对于独立同分布随机变量,只要数学期望又穷就够了。

4.2、辛钦大数数定律

对于独立同分布的随机变量序列 $ \{x_i\}_{i=1}^n$,如果数学期望 $ \mathrm{E}[x_i]=\mu<\infty$,则

$$\begin{align}
\lim_{n\to \infty}p\bigg(\big|\frac{1}{n}\sum_{i=1}^n x_i-\mu\big|\geqslant \varepsilon\bigg)=o
\end{align}$$

证明

由于随机序列 $ \{x_i\}_{i=1}^n$同分布,故它们有相同的特征函数 $ \varphi(t)$。同时为简洁记 $ \xi_n=\frac{1}{n}\sum_{i=1}^n x_i$。同时知道随机序列 $ \{x_i\}_{i=1}^n$相互独立,根据特征函数性质易得

$$\begin{align}
\varphi_{\xi_n}(t)
&=\varphi_n(t)
=\mathrm{E}\big[\mathrm{e}^{\rm{i}t \xi_n}\big]
=\bigg[\varphi \big(\frac{t}{n}\big)\bigg]^n
=\bigg[\varphi(0)+\dot{\varphi}(0)\frac{t}{n}+o \big(\frac{t}{n}\big)\bigg]^n\\
&=\bigg[1+\mathrm{i}\mu \frac{t}{n}+o \big(\frac{t}{n}\big)\bigg]^2
\end{align}$$

对于任意的 $ t\in (-\infty,+\infty)$,有

$$\begin{align}
\lim_{n\to \infty} \varphi_n(t)=\lim_{n\to \infty} \bigg[1+\mathrm{i}\mu \frac{t}{n}+o \big(\frac{t}{n}\big)\bigg]^2=\mathrm{e}^{\mathrm{i}\mu t}
\end{align}$$

这样 $ \xi_n$的特征函数 $ \varphi_n(t)$服从退化分布的特征函数,所以有

$$\begin{align}
\lim_{n\to \infty}p(\xi_n\leqslant x)=F(x)=\begin{cases}
0,x<\mu\\
1,x\geqslant \mu
\end{cases}
\end{align}$$
于是对于任意的 $ \varepsilon>0$有

$$\begin{align}
\lim_{n\to \infty} \big(\big|\xi_n-\mu\big|<\varepsilon\big)
&=\lim_{n\to\infty}p \big(\mu- \varepsilon<\xi_n<\mu- \varepsilon\big)\\
&=\lim_{n\to \infty}\big[p \big(\xi_n<\mu+\varepsilon\big)- p \big(\xi_n\leqslant \mu- \varepsilon\big)\big]\\
&=F(\mu+\varepsilon)- F(\mu- \varepsilon)\\
&=1-0=1
\end{align}$$

显然伯努利大数定律是辛钦大数定律的特殊情形。

五、大数定律的应用

统计试验计算,要求积分 $\displaystyle \int_a^bg(x)dx$,令 $ \xi_i\sim \mathrm{U}(a,b)$,有随机变量序列 $ \{\xi_i\}_{i=1}^n$。由大数定律有
$$\begin{align}
p \Bigg(\lim_{n\to \infty} \bigg|\frac{1}{n}\sum_{i=1}^n g(\xi_i)- \frac{1}{b-a}\int_a^bg(x)dx\bigg|=0\Bigg)=1
\end{align}$$也就是说有:

$$\begin{align}
\int_{a}^bg(x)dx\approx \frac{b-a}{n}\sum_{i=1}^n g(\xi_i)
\end{align}$$

六、评述

6.1、一个哲学的说法

大数定律实质是哲学上可知论的证明。即人类能够正确认识世界。怎么样才能正确的认识世界,毛同志在认识论实践论中说到:

1、占有十分丰富和合乎实际的感性材料
2、运用科学思维方法对感性材料进行去粗取精、去伪存真、由此及彼、由表及里分析与综合的加工制作。

大数定律符合这两条规律,但是它是一种归纳综合方法,缺乏演绎逻辑。补上这一缺陷的是后来的因果推断理论的兴起。
按照贝叶斯的观点,人类是可以从客观世界观察的数据 $\mathcal{D}$ 中学习到真理 $\theta^*$的:$p(\theta\mid \mathcal{D})\propto p(\mathcal{D}\mid \theta)p(\theta)$ 。

当我们观察到的数据足够多时,足够真实的时候,$\displaystyle \lim_{\mathcal{D}\to reality } p(\theta=\theta^*\mid \mathcal{D})=1$ ,人类的估计应该足够接近真理。概率论这一理论应该要能证明这一点:人类能够认识世界,或者说这个世界能够被正确认识。或者更进一步说,神经元组成的大脑,或者有类似人工神经网络的智能体。在大数定律的保证下他们能够正确认识世界。而这也是我们回顾百年大数定律的现实意义之一。

6.2、矩方法

证明弱大数定理中,矩不等式占据重要地位。首先矩是观测随机变量重要的工具。为什么矩对随机变量如此重要,我们回归一下矩对定义

$$\begin{align}
\mathbb{M}[n]=\int x^n dF(x)=\int x^np(x)dx
\end{align}$$

简而言之矩反应了概率密度函数的形状。容易证明k阶矩是特征函数k阶导数(t=0)。
由于特征函数与概率分布等价。当我们知道特征函数所有阶导数时候的,按泰勒展开也就是可以无限逼近了。所以我们一定可以通过矩知道分布的一些性质。

待续

^[1] Seneta, E. (2013). A Tricentenary history of the Law of Large Numbers. Bernoulli, 19(4). https://doi.org/10.3150/12-BEJSP12


版权声明
引线小白创作并维护的柠檬CC博客采用署名-非商业-禁止演绎4.0国际许可证。
本文首发于柠檬CC [ https://www.limoncc.com ] , 版权所有、侵权必究。
本文永久链接httpss://www.limoncc.com/post/d780e582351be7e8/
如果您需要引用本文,请参考:
引线小白. (Jan. 2, 2019). 《弱大数定律——百年大数定律系列01》[Blog post]. Retrieved from https://www.limoncc.com/post/d780e582351be7e8
@online{limoncc-d780e582351be7e8,
title={弱大数定律——百年大数定律系列01},
author={引线小白},
year={2019},
month={Jan},
date={2},
url={\url{https://www.limoncc.com/post/d780e582351be7e8}},
}

'