随机变量的数学期望

离散型

设离散型 r.v. $X$ 的分布律为：$P\{X=x_k\}=p_k$。若级数 $\sum_{k=1}^\infty x_kp_k$ 绝对收敛，则称该级数为随机变量的数学期望（平均值），记作 $E(X)$，即： $$ E(X)=\sum_{k=1}^\infty x_kp_k $$ 否则称 $X$ 的数学期望不存在。

常见的离散型随机变量期望值

0-1 分布 设 $X$ 服从 0-1 分布，$P\{X=1\}=p$，则 $E(X)=p$。
二项分布 设 $X \sim b(n,p)$，$P\{X=k\}=C_n^kp^k(1-p)^{n-k}$，则 $E(X)=np$。
泊松分布 设 $X \sim \pi(\lambda)$，$P\{X=k\}=\frac {\lambda^k}{k!}e^{-\lambda}$，则 $E(X)=\lambda$。
几何分布 第一次成功发生在第 $k$ 次试验的概率，$E(X)=\frac{1}{p}$。

连续型

设 $f(x)$ 为连续型随机变量 $X$ 的概率密度，若积分 $\int_{-\infty}^{+\infty}xf(x)dx$ 绝对收敛，称该积分的值为 r.v. $X$ 的数学期望，记为： $$ E(X)=\int_{-\infty}^{+\infty}xf(x)dx $$

常见的连续型随机变量期望值

均匀分布 设 r.v. $X$ 服从 $[a,b]$ 上的均匀分布，即 $X$ 的密度函数为：$f(x)=\frac{1}{b-a}, \quad a\le x\le b$，则 $E(X)=\frac {a+b} 2$。
指数分布 $f(x)=\lambda e^{-\lambda x}$，则 $E(X)=\frac{1}{\lambda}$。
正态分布 $X \sim N(\mu,\sigma^2)$，则 $E(X)=\mu$。
柯西分布 柯西分布的数学期望不存在。

变量函数的数学期望

设 $Y=g(X)$。 * 对于离散型 r.v. $X$，其分布律为 $p_k=P\{X=x_k\}$，若 $\sum_{k=1}^{+\infty}g(x_k)p_k$ 绝对收敛，则： $$ E(Y)=E(g(X))=\sum_{k=1}^{+\infty}g(x_k)p_k $$ * 对于连续型 r.v. $X$，概率密度为 $f(x)$，若 $\int_{-\infty}^{+\infty}g(x)f(x)dx$ 绝对收敛，则： $$ E(Y)=E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)dx $$

以上定理可推广到多维 r.v. 函数。

均值的性质

$E(c)=c$
$E(cX)=cE(X)$
$E(X+Y)=E(X)+E(Y)$
设 $X$、$Y$ 相互独立，则 $E(XY)=E(X)E(Y)$
$|E(XY)|^2\le E(X^2)E(Y^2)$ （许瓦尔兹不等式）

条件期望

离散型

当 $X$ 和 $Y$ 的联合分布为离散分布时，在给定 $Y=y$ 条件之下，$X$ 的条件分布为： $$ p_{X|Y}(x|y)=\frac {p(x,y)}{p_Y(y)} $$ 则 $X$ 在 $Y=y$ 条件下的条件期望为： $$ E(X|Y=y)=\sum_x x\cdot p_{X|Y}(x|y) $$

连续型

当 $X$ 和 $Y$ 的联合分布为连续分布，其联合密度函数为 $f(x,y)$，对于给定的 $Y=y$： $$ f_{X|Y}(x|y)=\frac {f(x,y)} {f_Y(y)} $$

利用条件计算期望

\[ E(X)=E(E(X|Y)) \]

\[ E(X)=\sum_yE(X|Y=y)P\{Y=y\} \quad \text{或} \quad E(X)=\int_{-\infty}^{+\infty}E(X|Y=y)f_Y(y)dy \]

方差

描述了 r.v. 对其数学期望的离散程度。设 $X$ 为一 r.v.，若 $E[X-E(X)]^2$ 存在，称其为 $X$ 的方差，记作 $D(X)$ 或 $Var(X)$，$\sqrt{D(X)}$ 为 $X$ 的均方差或标准差。

离散型：$D(X)=\sum_k[x_k-E(X)]^2\cdot p_k$
连续型：$D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx$

方差的计算方式： $$ D(X)=E(X^2)-[E(X)]^2 $$

0-1 分布

$E(X)=p, \quad E(X^2)=p$

$D(X)=p-p^2=p(1-p)$

二项分布

设 $X \sim b(n,p)$，$P\{X=k\}=C_n^kp^kq^{(n-k)}$ $E(X^2)=n(n-1)p^2+np$ $D(X)=E(X^2)-E(X)^2=np(1-p)$

泊松分布

设 $X \sim \pi(\lambda)$，$P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda}$ $E(X)=\lambda, \quad E(X^2)=\lambda^2+\lambda$ $D(X)=E(X^2)-E(X)^2=\lambda$

均匀分布

$f(x)=\frac{1}{b-a}, \quad a\le x\le b$ $E(X)=\frac{a+b}{2}, \quad E(X^2)=\frac{1}{3}(a^2+ab+b^2)$ $D(X)=\frac{(b-a)^2}{12}$

指数分布

$E(X)=\int_{-\infty}^{+\infty}x\lambda e^{-\lambda x}dx=\frac{1}{\lambda}, \quad E(X^2)=\int_{-\infty}^{+\infty}x^2\lambda e^{-\lambda x}dx=\frac{2}{\lambda^2}$ $D(X)=\frac{1}{\lambda^2}$

正态分布

$D(X)=\sigma^2$

几何分布

$E(X)=\frac{1}{p}, \quad E(X^2)=\frac{2-p}{p^2}$ $D(X)=\frac{1-p}{p^2}$

方差的性质

$D(C)=0$
$D(CX)=C^2 D(X)$
$X, Y$ 相互独立，则有 $D(X\pm Y)=D(X)+ D(Y)$
$D(c_1X_1+\cdots +c_nX_n)=c_1^2D(X_1)+\cdots+c_n^2D(X_n)$ （当 $X_i$ 相互独立）
$D(X)=0$ 的充要条件是 $X$ 以概率 1 取常数 $C$
切比雪夫不等式 对于 r.v. $X$，$E(X)=\mu, D(X)=\sigma^2$，$\forall \epsilon>0$： $$ P{ |X-\mu|\ge \epsilon}\le \frac {\sigma^2} {\epsilon^2} $$

条件方差

\[ Var(X|Y)=E((X-E(X|Y))^2|Y)=E(X^2|Y)-(E(X|Y))^2 \]

条件方差公式

\[ E(Var(X|Y))=E(E(X^2|Y)-(E(X|Y))^2)=E(X^2)-E((E(X|Y))^2) \]

\[ Var(E(X|Y))=E((E(X|Y))^2)-(E(E(X|Y)))^2=E((E(X|Y))^2)-(E(X))^2 \]

\[ Var(X)=E(Var(X|Y))+Var(E(X|Y)) \]

条件期望及预测

在实际问题中，有时会遇到这种情况，即某人观察到随机变量 $X$ 的值，然后基于 $X$ 的观察值，要对第二个随机变量 $Y$ 的值进行预测。

令 $g(x)$ 表示预测值，即当观测到 $X$ 的值 $x$ 以后，$g(x)$ 就是 $Y$ 的值的预测值。显然，我们希望选择 $g$ 使 $g(X)$ 接近 $Y$。选择 $g$ 的一个准则是极小化 $\mathrm{E}\left((Y-g(X))^2\right)$。下面我们指出在这个准则之下，$Y$ 的最好的预测值为 $g(X) = \mathrm{E}(Y|X)$。

协方差

设 $(X,Y)$ 为二维 r.v.，若 $E((X-E(X))(Y-E(Y)))$ 存在，则称其为 $X$ 和 $Y$ 的协方差，记为 $Cov(X,Y)$。 $$ Cov(X,Y)=E((X-E(X))(Y-E(Y)))=E(XY)-E(X)E(Y) $$

\[ D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y) \]

性质

$Cov(X,Y)=Cov(Y,X)$
$Cov(a_1X+b_1, a_2Y+b_2)=a_1a_2Cov(X,Y)$
$Cov(X_1+X_2, Y)=Cov(X_1,Y)+Cov(X_2,Y)$
$Cov(X,a)=0, \quad Cov(X,X)=D(X)$
若 $(X, Y)$ 相互独立，则 $Cov(X, Y)=0$。
$|Cov(X,Y)|^2 \leq D(X) \cdot D(Y)$ （等号成立当且仅当 $X$ 与 $Y$ 之间有严格的线性关系 $Y=aX+b$）
$Cov(aX+bY, cX+dY)=acD(X)+(ad+bc)Cov(X,Y)+bdD(Y)$

矩

若 $E(X^k)$ 存在，则称它为 $X$ 的 $k$ 阶原点矩。
若 $E((X-E(X))^k)$ 存在，则称其为 $X$ 的 $k$ 阶中心矩。
若 $E(X^k\cdot Y^l)$ 存在，则称它为 $X$ 和 $Y$ 的 $k+l$ 阶混合矩。
$E((X-E(X))^k\cdot (Y-E(Y))^l)$，为 $X$ 和 $Y$ 的 $k+l$ 阶混合中心矩。

显然，$E(X),E(Y)$ 为一阶原点矩，$D(X),D(Y)$ 为二阶中心矩，$Cov(X,Y)$ 为二阶混合中心矩。

协方差矩阵

设 $n$ 维随机变量 $(X_1,X_2,\cdots,X_n)$ 的二阶中心矩及二阶混合中心矩 $c_{ij} = \text{Cov}(X_i,X_j)$，$i,j = 1,2,\cdots,n$，都存在，则称矩阵 $$ C = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \ c_{21} & c_{22} & \cdots & c_{2n} \ \cdots & \cdots & \cdots & \cdots \ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix} $$ 为 $n$ 维随机变量 $(X_1,X_2,\cdots,X_n)$ 的 协方差阵。

由于 $c_{ij}=c_{ji}\ (i,j=1,2,\dots,n)$，因此协方差矩阵是一个对称矩阵（由协方差的性质 $\text{Cov}(X,Y)=\text{Cov}(Y,X)$，$c_{ij}=c_{ji}$ 可得）。

性质

$C$ 是对称矩阵
$c_{ii}=D(X_i)$
$c_{ij}^2\le c_{ii}c_{jj}$
$C$ 是非负定的，即对任意的定向 $a=(a_1,a_2,\dots,a_n)^T$，有 $a^TCa\ge0$

n 维正态分布

定义设 $n$ 维随机变量 $(X_1,X_2,\cdots,X_n)$ 的概率密度函数为 $f(x_1,x_2,\cdots,x_n)$，则称其为 $n$ 维正态变量，记为： $$ (X_1,X_2,\cdots,X_n) \sim N(\boxed{\mu}, \boxed{C}) $$ 其中：
- $\mu$ 是 $n$ 维常向量（均值向量）；
- ${C}$ 是 $n$ 维对称正定矩阵（协方差矩阵）。
符号表示

\[ \boxed{X} = \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix},\quad \boxed{\mu} = \begin{pmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{pmatrix},\quad \boxed{C} = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix} \]

概率密度函数

\[ f(x_1,x_2,\cdots,x_n) = \frac{1}{(2\pi)^{\frac{n}{2}} |\boxed{C}|^{\frac{1}{2}}} \exp \left \{ -\frac{1}{2} (\boxed{X}-\boxed{\mu})^T \boxed{C}^{-1} (\boxed{X}-\boxed{\mu}) \right \} \]

补充说明
- $n$ 维正态变量是一维、二维正态分布的推广，其核心参数是 均值向量 $\boxed{\mu}$ 和 协方差矩阵 $\boxed{C}$；
- 协方差矩阵 $\boxed{C}$ 的正定性保证了密度函数的合理性（分母非零、指数部分为负定二次型）；
- 当 $n=2$ 时，该定义退化为二维正态分布的形式。