概率论
Last updated on July 15, 2022 am
一、随机事件与概率
1.随机现象与随机试验
基本事件:每一个可能出现的实验结果,用 $w_i$ 表示。必然事件常用 $\Omega$ 表示,不可能事件常用 $\emptyset$ 表示。
事件的运算:和 $A\bigcup{B}$ ,差 $A-B$ 或 A\B ,交(积) $A\bigcap{B}$ 或 $AB$ 。
互不相同事件:不同时发生;对立事件:“事件A不发生”这一事件。
2.概率的定义
古典概型($\Omega$ 是有限集):$P(A)=\frac{n_A}{n}$,几何概型:$P(A)=\frac{G 的几何度量}{\Omega 的几何度量}$。
概率的公理化定义:基本事件空间 $\Omega$ 是所有基本事件构成的集合,事件域为 $F$ (已有的事件怎么操作都跑不出去),概率测度 $P$ ,则 $(\Omega, F, P)$ 为概率空间。
如果 $P(A) = 0$ ,A 未必是不可能事件。
概率加法公式:$P(\bigcup\limits_{i=1}^{n}A_i)=\sum\limits_{i=1}^{n}P(A_i)-\sum\limits_{1\leq{i}<j\leq{n}}^{n}P(A_{i}A_{j})+\sum\limits_{1\leq{i}<j<k\leq{n}}^{n}P(A_{i}A_{j}A_{k})-\cdots+(-1)^{n-1}P(A_{1}A_{2}\cdots A_{n})$
3.条件概率
条件概率:已知某事件发生,另一事件发生(可用来构造概率空间)
乘法公式:$P(B|A)=\frac{P(AB)}{P(A)}$,推广:$P(A_1A_2\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|(A_1A_2))\cdots P(A_n|(A_1A_2\cdots A_n))$
全概率公式:先化整为零,再聚零为整:$B_i$ 为 $B$ 的一个划分,则当 $A\subset B$ ,$B_i$ 是 $B$ 的一个划分,此时有 $P(A) = \sum\limits_{i=1}^{n}P(B_i)P(A|B_i)$ 。(6 个黑球,4 个白球,第二次摸到的是白球的概率?)
贝叶斯公式:若 $P(B_i)>0$ ,$B_iB_j = \emptyset$,$A\subset{\bigcup\limits_{i=1}^{\infty}B_i}$ ,$P(A)>0$ ,则 $P(B_j|A) = \frac{P(B_j)P(A|B_j)}{\sum\limits_{i=1}^{\infty}P(B_i)P(A|B_i)}$。(甲乙丙三车间产量占比已知,次品率已知,现在查出一个次品,是甲车间生产的概率?)
4.事件独立性
若 $P(AB) = P(A)P(B)$,则 A、B 相互独立。
三个事件相互独立($P(AB) = P(A)P(B)$,$P(BC) = P(B)P(C)$,$P(AC) = P(A)P(C)$,$P(ABC) = P(A)P(B)P(C)$)强于两两独立。
5.独立实验
n 重伯努利试验:试验只有两种可能结果,重复 n 次。
伯努利定理:成功概率 p 时成功 k 次概率 $b(k;n,p)=C^{k}_{n}p^{k}(1-p)^{n-k}$ ,称为伯努利数。
二、一维随机变量及其分布
1.随机变量
对实数集上的任意 x ,有 $\{\omega|X(\omega)\leq{x}\}\in{F}$ ,称 $X(\omega)$ 为随机变量。(这个事件必须在事件域 F 中)
随机变量 X 的分布函数 $F_x(x)=P(X\leq{x})$ ,则 $P(X<{x})=F_x(x-0)$ (左极限),分布函数右连续,但不一定左连续,$P(X={x})=F_x(x)-F_x(x-0)$ ,$F_x(x)$ 为单调递增函数,且在负无穷、正无穷取值分别为 0、1。
2.一维离散型随机变量
离散型随机变量的取值为有限个或可列多个。为了直观,可以使用表格列出分布列。接下来介绍几种概率分布:
a.两点分布(0-1分布):
X | 0 | 1 |
---|---|---|
P | 1-p | p |
b.二项分布 $X\sim{B(n, p)}$
n 重伯努利试验,成功概率 p,随机变量 X 为成功次数
记 $k_0=Int[(n+1)p]$,当 $k=k_0$ 时 $b(k;n,p)$ 最大;若 (n+1)p 为整数,则 $b(k_0;n,p)=b(k_0-1;n,p)$ 。
c.泊松分布 $X\sim{P(\lambda)}$,参数 $\lambda>0$
$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$ ,其中又有泊松定理:$X_n\sim{B(n,p_n)}$,其中 $p_n$ 与 $n$ 有关,且 $\lim\limits_{n\rightarrow\infty}np_n=\lambda>0$ ,此时有 $\lim\limits_{n\rightarrow\infty}P(x_n=k)=\frac{e^{-\lambda}\lambda^k}{k!}$ ,k 取自然数,表示的意义为:把一段时间分割为 $n$ 段,每段时间内某事件发生的概率为 $p_n$ (由于每段时间很小,认为事件不会在这样短的时间内发生两次及以上),由二项分布,乘积 $\lambda$ 为这段时间事件发生次数的期望,当把每段时间无限地分割下去时,二项分布实际上就成了泊松分布。因此,还有泊松近似公式:
当二项分布 n 很大,p 很小(一般取 $n\geq{10}$,$p\leq{0.1}$ )时,$P(X=k)\approx{\frac{e^{-\lambda}\lambda^k}{k!}}$。
d.几何分布 $X\sim{Geo(p)}$
$P(X=k)=g^{k-1}p=g(k;p)$ 表示前 (k - 1) 次试验未成功,第 k 次首次成功。
几何分布有无记忆性,已知前 k 次还未成功,则从 (k + 1) 次,首次成功出现在哪一次与 k 无关,即 $P(X=k+n|X>k)=P(x=n)$。(彼此独立)
3.一维连续型随机变量
若存在 $f(x)>0$ 使得对任意 x 有 $F(x)=\int_{-\infty}^{x}f(t)dt$,那么 $f(x)$ 为 x 的概率密度函数(在不至于混淆时简称密度函数)。显然,在某点上概率分布函数一定是 0,因此我们需要讨论随机变量落在某区间上的概率,为了便于描述概率分布函数与 x 轴围成图形的面积,引入密度函数。易知,$\int_{-\infty}^{+\infty}f(x)dx=1$ 。同样地,介绍几种概率分布:
a.均匀分布 $x\sim{U[a,b]}$
a<b,$f(x)=\left\{\begin{matrix}\frac{1}{b-a},x\in[a,b]\\0,x\notin[a,b]\end{matrix}\right.$
显然,当 $a\leq{x}\leq{b}$ 时 $F(x)=\frac{x-a}{b-a}$。(“线性”)
b.指数分布 $X\sim{E(X)}$
x 的密度函数满足 $f(x)=\left\{\begin{matrix}\lambda{e}^{-\lambda{x}},x>0\\0,x\leq0\end{matrix}\right.$ ,分布函数 $F(x)=\left\{\begin{matrix}1-e^{-\lambda{x}}, x>0\\0, x\leq{0}\end{matrix}\right.$
指数分布也与泊松分布关系密切,后者表示的是某事件在一定时间中的发生次数的概率分布,而前者是某事件两次发生之间时间间隔的概率分布:设某段时间长为 x,在这段时间内某事件发生次数为 $\lambda{x}$,那么在这段时间中一次也不发生概率为 $\frac{e^{-\lambda{x}}(\lambda{x})^0}{0!}=e^{-\lambda{x}}$,那么在这段时间内发生一次及以上该事件的概率为 $1-e^{-\lambda{x}}$,即:时间间隔小于这个 x 的概率为 $1-e^{-\lambda{x}}$,这就是指数分布在时间间隔大于 0 时的分布函数。
指数分布具有“无记忆性”,即 $P(X>k+n|X>k)=P(X>n)$。
c.正态分布 $X\sim{N}(\mu, \sigma^2)$
$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^-\frac{(x-\mu)^2}{2\sigma^2}$,分布函数为其积分。又有标准正态分布 $\mu=0,\sigma=1$,记其密度函数为 $\varphi(x)$,分布函数为 $\Phi(x)$,查表时要注意 $\Phi(x)-\frac{1}{2}=\frac{1}{2}-\Phi(-x)$,即概率分布关于 $\frac{1}{2}$ 对称。
正态分布标准化:对于 $X\sim{N(\mu, \sigma^2)}$,有 $\frac{x-\mu}{\sigma}\sim{N(0,1)}$。
4.一维离散型随机变量函数的分布
X 经某函数映射到 Y,那么求 Y 取某个值的概率时需要合并使 Y 取这个值的所有 X 的概率。
5.一维连续型随机变量函数的分布
需要利用分布函数和 Y 与 X 的关系,将 Y 小于等于某值的概率解不等式转为 X 取某区间的概率,之后如果需要求密度函数,直接对所得的分布函数求导即可,需要注意若 $F_Y(y)=\int_{h_2(y)}^{h_1(y)}g(x)dx$,那么 $F_Y’(y)=g(h_1(y))h_1’(y)-g(h_2(y))h_2’(y)$,$\pm\infty$ 导数看做 0。
三、二维随机向量及其分布
我们只讨论二维随机向量。
1.随机向量联合分布函数与联合密度函数(连续型)
随机向量联合分布函数 $F_{X_1,X_2}(x_1, x_2)=P(X_1\leq{x_1},X_2\leq{x_2})$,有 $F(-\infty, y)=F(x,-\infty)=F(-\infty, -\infty)=0$。
若 $(X,Y)$ 所有取值只有有限个或可列个,其为离散型随机变量;若存在 $f(x,y)$ 使得对任意 x, y,有 $F_{X,Y}(x,y)=\int_{-\infty}^{y}\int_{-\infty}^{x}f(u,v)dudv$,那么 $(X,Y)$ 为连续型随机变量,称 $f(x,y)$ 为它的联合概率密度函数(或者直接称为分布密度函数)。
2.随机向量边缘分布函数与边缘密度函数(连续型)
二维随机向量边缘分布为其中某个随机变量取某个值的概率(相当于在表格“边缘”的那一栏),对于离散型二维随机向量,有$P(Y=y_j)=\sum\limits_ip_{ij}$;对于连续型二维随机变量,其边缘分布函数为 $F_X(x)=F(x, +\infty)=\lim\limits_{y\rightarrow+\infty}F(x,y)$,其边缘密度函数为 $f_X(x)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)dy$ 。(由联合分布确定其边缘分布,但反之不一定,要考虑其独立性)
3.随机变量的相互独立性
若可判断 X、Y 取值互不影响,或对任意 x, y ,有 $F(x,y)=F(x)F(y)$,或离散型有 $p_{ij}=p_{i\cdot}p_{\cdot{j}}$,或连续型有 $f(x,y)=f_X(x)f_Y(y)$,那么 X、Y 相互独立。此时边缘分布可确定联合分布。
4.二维均匀分布
有界区域 D 的面积为 $S_D$,$f(x,y)=\left\{\begin{matrix}\frac{1}{S_D},(x,y)\in{D}\\0,(x,y)\notin{D}\end{matrix}\right.$。可以用画图辅助。
5.二维正态分布
$(X,Y)\sim{N(\mu_1,\mu_2,\sigma^2_1,\sigma^2_2,\rho)}$,其边缘分布是一维正态分布,$\rho$ 为两变量的相关系数。(“物以类聚”,$\mu$ 在一起,$\sigma$ 在一起)
6.二维随机向量函数的概率分布函数(离散型)与概率密度函数(连续型)
$Z=g(x,y)$ 为一个二元函数,研究其分布:
离散型与一维类似,其概率分布函数直接将每个可能的 $(X,Y)$ 概率累加。
对于连续型,有 $F_Z(z)=P(g(X,Y)\leq{Z})=\iint\limits_{g(x,y)\leq{z}}f(x,y)dxdy$,但我们在这里只讨论随机向量函数为两随机变量之和的情况:令 $y=u-x$,则上式可写成 $\iint\limits_{x+y\leq{z}}f(x,y)dxdy=\int_{-\infty}^{+\infty}\int_{-\infty}^{z-x}f(x,y)dydx=\int_{-\infty}^{+\infty}\int_{-\infty}^{z}f(x,u-x)dudx=\int_{-\infty}^{z}\int_{-\infty}^{+\infty}f(x,u-x)dxdu$,求导得 $f_Z(z)=\int_{-\infty}^{+\infty}f(x, z-x)dx$。同理,$f_Z(z)=\int_{-\infty}^{+\infty}f(z-y, y)dy$。
特别地,当 x、y相互独立时,上式变为卷积公式 $f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx=f_Z(z)=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy$
事实上,X、Y 相互独立时, $X\sim P(\lambda_1)$,$Y\sim P(\lambda_2)$,则 $X+Y\sim P(\lambda_1+\lambda_2)$;$X\sim B(m,p)$,$Y\sim B(n,p)$,则 $X+Y\sim B(m+n,p)$;$X\sim{N}(\mu_1, \sigma^2_1)$,$Y\sim{N}(\mu_2, \sigma^2_2)$,则 $X+Y\sim{N}(\mu_1+\mu_2, \sigma^2_1+\sigma^2_2)$。更进一步地,有限个独立的正态分布的随机变量线性组合仍然是正态分布。
四、随机变量的数字特征
1.数学期望
a.一维随机变量数学期望的计算
对于离散型,当级数 $\sum\limits_{i=1}^{\infty}|x_i|p_i$ 收敛,则 X 期望存在,$E(X)=\sum\limits_{i=1}^{\infty}x_ip_i$。
对于连续型,当 $\int_{-\infty}^{+\infty}|x|f(x)dx$ 收敛时,有期望 $E(X)=\int_{-\infty}^{+\infty}xf(x)dx$ 。发散则不存在,如柯西分布、圣彼得堡悖论。
二项分布:$E(X)=np$;泊松分布:$E(X)=\lambda$;几何分布 $E(X)=\frac{1}{p}$;均匀分布为中点;正态分布 $E(X)=\mu$ ;指数分布 $E(X)=\frac{1}{\lambda}$ 。
b.一维随机变量函数的数学期望
离散型,$E(g(X))=\sum\limits_{k}g(x_k)P(X=x_k)$ (要求 $\sum\limits_{k}|g(x_k)|P(X=x_k)<+\infty$)
连续型:$\int_{-\infty}^{+\infty}|g(x)|f(x)dx$ 收敛时,有期望 $E(g(x))=\int_{-\infty}^{+\infty}g(x)f(x)dx$ 。
c.二维随机变量函数的数学期望
离散型:与一维类似,将取值与对应的概率乘积求和
连续型:若$\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dydx$ 绝对收敛,则期望存在。
特别地,$E(X)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)dydx=\int_{-\infty}^{+\infty}x[\int_{-\infty}^{+\infty}f(x,y)dy]dx=\int_{-\infty}^{+\infty}xf_X(x)dx$
d.数学期望的部分性质
如果 $\xi$ 与 $\eta$ 相互独立,$E(\xi\eta)=E(\xi)E(\eta)$;但反之不一定。
2.随机变量的矩
a.相关定义
记 $E[(X-c)^k]$ 为 X 关于 c 的 k 阶矩,当 c = 0 时为 k 阶原点矩 $a_k$,$c=E(X)$ 时为 k 阶中心矩 $\mu_k$。($\mu$ 有些像以中心为轴左右对称)
记 $\mu_2$ 为方差。(X 必须有有限的期望)
$\frac{\mu_3}{\mu^{\frac{3}{2}}_2}$ 为偏度系数,正态分布偏度系数为 0,绝对值越大,离正态分布偏差越大,大于 0 说明右偏。
$\frac{\mu_4}{\mu^{2}_2}$ 为峰度系数,正态分布为 3。(“偏锋”,从 3 到 4)
b.随机变量的方差的计算
$Var(X)=E(X^2)-[E(X)]^2$ (“由内而外”)
$Var(cX)=c^2Var(X)$
对于二项分布,其方差有 $Var(X)=np(1-p)=npq$;泊松分布方差 $Var(X)=\lambda$;几何分布方差 $Var(X)=\frac{q}{p^2}$;均匀分布方差 $Var(X)=\frac{(b-a)^2}{12}$;正态分布方差 $Var(X)=\sigma^2$;指数分布方差 $Var(X)=\frac{1}{\lambda^2}$ 。
3.二维随机向量的协方差
定义 $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$,则有 $Var(X)=Cov(X,X)$,$Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z)$;若 X、Y 独立,那么其协方差为 0,但反之不一定。
$Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$
注意 $Cov(X,-Y)=-Cov(X,Y)$,有 $Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)$。
4.相关系数
当 $Var(X)>0$,$Var(Y)>0$ 时,定义相关系数 $r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}$ (也可用 $\rho$),其绝对值总是小于等于 1。当 $\rho=0$ 时,两变量无线性关系;当 $\rho=1$ 时严格正相关,当 $\rho=-1$ 时严格负相关。
由协方差的性质,当 X、Y 独立时,其相关系数等于 0,但反之不一定成立。也就是说,X、Y 独立,则两者一定不相关,但反之不一定。不过,$(X,Y)$ 服从二维正态分布时,反之也成立。
参考:
https://zhuanlan.zhihu.com/p/261961315
https://www.jianshu.com/p/6ee90ba47b4a