Skip to content

随机变量的数学期望

离散型

设离散型 r.v. \(X\) 的分布律为:\(P\{X=x_k\}=p_k\)。若级数 \(\sum_{k=1}^\infty x_kp_k\) 绝对收敛,则称该级数为随机变量的数学期望(平均值),记作 \(E(X)\),即: $$ E(X)=\sum_{k=1}^\infty x_kp_k $$ 否则称 \(X\) 的数学期望不存在。

常见的离散型随机变量期望值

  1. 0-1 分布\(X\) 服从 0-1 分布,\(P\{X=1\}=p\),则 \(E(X)=p\)
  2. 二项分布\(X \sim b(n,p)\)\(P\{X=k\}=C_n^kp^k(1-p)^{n-k}\),则 \(E(X)=np\)
  3. 泊松分布\(X \sim \pi(\lambda)\)\(P\{X=k\}=\frac {\lambda^k}{k!}e^{-\lambda}\),则 \(E(X)=\lambda\)
  4. 几何分布 第一次成功发生在第 \(k\) 次试验的概率,\(E(X)=\frac{1}{p}\)

连续型

\(f(x)\) 为连续型随机变量 \(X\) 的概率密度,若积分 \(\int_{-\infty}^{+\infty}xf(x)dx\) 绝对收敛,称该积分的值为 r.v. \(X\) 的数学期望,记为: $$ E(X)=\int_{-\infty}^{+\infty}xf(x)dx $$

常见的连续型随机变量期望值

  1. 均匀分布 设 r.v. \(X\) 服从 \([a,b]\) 上的均匀分布,即 \(X\) 的密度函数为:\(f(x)=\frac{1}{b-a}, \quad a\le x\le b\),则 \(E(X)=\frac {a+b} 2\)
  2. 指数分布 \(f(x)=\lambda e^{-\lambda x}\),则 \(E(X)=\frac{1}{\lambda}\)
  3. 正态分布 \(X \sim N(\mu,\sigma^2)\),则 \(E(X)=\mu\)
  4. 柯西分布 柯西分布的数学期望不存在。

变量函数的数学期望

\(Y=g(X)\)。 * 对于离散型 r.v. \(X\),其分布律为 \(p_k=P\{X=x_k\}\),若 \(\sum_{k=1}^{+\infty}g(x_k)p_k\) 绝对收敛,则: $$ E(Y)=E(g(X))=\sum_{k=1}^{+\infty}g(x_k)p_k $$ * 对于连续型 r.v. \(X\),概率密度为 \(f(x)\),若 \(\int_{-\infty}^{+\infty}g(x)f(x)dx\) 绝对收敛,则: $$ E(Y)=E(g(X))=\int_{-\infty}^{+\infty}g(x)f(x)dx $$

以上定理可推广到多维 r.v. 函数。

均值的性质

  1. \(E(c)=c\)
  2. \(E(cX)=cE(X)\)
  3. \(E(X+Y)=E(X)+E(Y)\)
  4. \(X\)\(Y\) 相互独立,则 \(E(XY)=E(X)E(Y)\)
  5. \(|E(XY)|^2\le E(X^2)E(Y^2)\) (许瓦尔兹不等式)

条件期望

离散型

\(X\)\(Y\) 的联合分布为离散分布时,在给定 \(Y=y\) 条件之下,\(X\) 的条件分布为: $$ p_{X|Y}(x|y)=\frac {p(x,y)}{p_Y(y)} $$ 则 \(X\)\(Y=y\) 条件下的条件期望为: $$ E(X|Y=y)=\sum_x x\cdot p_{X|Y}(x|y) $$

连续型

\(X\)\(Y\) 的联合分布为连续分布,其联合密度函数为 \(f(x,y)\),对于给定的 \(Y=y\): $$ f_{X|Y}(x|y)=\frac {f(x,y)} {f_Y(y)} $$

利用条件计算期望

\[ E(X)=E(E(X|Y)) \]
\[ E(X)=\sum_yE(X|Y=y)P\{Y=y\} \quad \text{或} \quad E(X)=\int_{-\infty}^{+\infty}E(X|Y=y)f_Y(y)dy \]

方差

描述了 r.v. 对其数学期望的离散程度。设 \(X\) 为一 r.v.,若 \(E[X-E(X)]^2\) 存在,称其为 \(X\) 的方差,记作 \(D(X)\)\(Var(X)\)\(\sqrt{D(X)}\)\(X\) 的均方差或标准差。

  • 离散型\(D(X)=\sum_k[x_k-E(X)]^2\cdot p_k\)
  • 连续型\(D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx\)

方差的计算方式: $$ D(X)=E(X^2)-[E(X)]^2 $$

0-1 分布

\(E(X)=p, \quad E(X^2)=p\)

\(D(X)=p-p^2=p(1-p)\)

二项分布

\(X \sim b(n,p)\)\(P\{X=k\}=C_n^kp^kq^{(n-k)}\) \(E(X^2)=n(n-1)p^2+np\) \(D(X)=E(X^2)-E(X)^2=np(1-p)\)

泊松分布

\(X \sim \pi(\lambda)\)\(P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda}\) \(E(X)=\lambda, \quad E(X^2)=\lambda^2+\lambda\) \(D(X)=E(X^2)-E(X)^2=\lambda\)

均匀分布

\(f(x)=\frac{1}{b-a}, \quad a\le x\le b\) \(E(X)=\frac{a+b}{2}, \quad E(X^2)=\frac{1}{3}(a^2+ab+b^2)\) \(D(X)=\frac{(b-a)^2}{12}\)

指数分布

\(E(X)=\int_{-\infty}^{+\infty}x\lambda e^{-\lambda x}dx=\frac{1}{\lambda}, \quad E(X^2)=\int_{-\infty}^{+\infty}x^2\lambda e^{-\lambda x}dx=\frac{2}{\lambda^2}\) \(D(X)=\frac{1}{\lambda^2}\)

正态分布

\(D(X)=\sigma^2\)

几何分布

\(E(X)=\frac{1}{p}, \quad E(X^2)=\frac{2-p}{p^2}\) \(D(X)=\frac{1-p}{p^2}\)

方差的性质

  1. \(D(C)=0\)
  2. \(D(CX)=C^2 D(X)\)
  3. \(X, Y\) 相互独立,则有 \(D(X\pm Y)=D(X)+ D(Y)\)
  4. \(D(c_1X_1+\cdots +c_nX_n)=c_1^2D(X_1)+\cdots+c_n^2D(X_n)\) (当 \(X_i\) 相互独立)
  5. \(D(X)=0\) 的充要条件是 \(X\) 以概率 1 取常数 \(C\)
  6. 切比雪夫不等式 对于 r.v. \(X\)\(E(X)=\mu, D(X)=\sigma^2\)\(\forall \epsilon>0\): $$ P{ |X-\mu|\ge \epsilon}\le \frac {\sigma^2} {\epsilon^2} $$

条件方差

\[ Var(X|Y)=E((X-E(X|Y))^2|Y)=E(X^2|Y)-(E(X|Y))^2 \]

条件方差公式

\[ E(Var(X|Y))=E(E(X^2|Y)-(E(X|Y))^2)=E(X^2)-E((E(X|Y))^2) \]
\[ Var(E(X|Y))=E((E(X|Y))^2)-(E(E(X|Y)))^2=E((E(X|Y))^2)-(E(X))^2 \]
\[ Var(X)=E(Var(X|Y))+Var(E(X|Y)) \]

条件期望及预测

在实际问题中,有时会遇到这种情况,即某人观察到随机变量 \(X\) 的值,然后基于 \(X\) 的观察值,要对第二个随机变量 \(Y\) 的值进行预测。

\(g(x)\) 表示预测值,即当观测到 \(X\) 的值 \(x\) 以后,\(g(x)\) 就是 \(Y\) 的值的预测值。 显然,我们希望选择 \(g\) 使 \(g(X)\) 接近 \(Y\)。选择 \(g\) 的一个准则是极小化 \(\mathrm{E}\left((Y-g(X))^2\right)\)。下面我们指出在这个准则之下,\(Y\) 的最好的预测值为 \(g(X) = \mathrm{E}(Y|X)\)


协方差

\((X,Y)\) 为二维 r.v.,若 \(E((X-E(X))(Y-E(Y)))\) 存在,则称其为 \(X\)\(Y\) 的协方差,记为 \(Cov(X,Y)\)。 $$ Cov(X,Y)=E((X-E(X))(Y-E(Y)))=E(XY)-E(X)E(Y) $$

\[ D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y) \]

性质

  1. \(Cov(X,Y)=Cov(Y,X)\)
  2. \(Cov(a_1X+b_1, a_2Y+b_2)=a_1a_2Cov(X,Y)\)
  3. \(Cov(X_1+X_2, Y)=Cov(X_1,Y)+Cov(X_2,Y)\)
  4. \(Cov(X,a)=0, \quad Cov(X,X)=D(X)\)
  5. \((X, Y)\) 相互独立,则 \(Cov(X, Y)=0\)
  6. \(|Cov(X,Y)|^2 \leq D(X) \cdot D(Y)\) (等号成立当且仅当 \(X\)\(Y\) 之间有严格的线性关系 \(Y=aX+b\)
  7. \(Cov(aX+bY, cX+dY)=acD(X)+(ad+bc)Cov(X,Y)+bdD(Y)\)

相关系数

\(D(X)\ne 0, D(Y)\ne 0\),则 \(\frac {Cov(X,Y)}{\sqrt{D(X)D(Y)}}\)\(X,Y\) 的相关系数,记为 \(\rho_{XY}\)。 相关系数是标准化了的协方差。

性质

  1. \(|\rho_{XY}|\le 1\)
  2. \(X,Y\) 相互独立,则 \(\rho_{XY}=0\)
  3. \(|\rho_{XY}|=1\) 当且仅当 \(X\)\(Y\) 线性相关

Note

相关系数刻画了变量之间的 线性相关 关系,不能反映其是否相互独立。


  1. \(E(X^k)\) 存在,则称它为 \(X\)\(k\) 阶原点矩
  2. \(E((X-E(X))^k)\) 存在,则称其为 \(X\)\(k\) 阶中心矩
  3. \(E(X^k\cdot Y^l)\) 存在,则称它为 \(X\)\(Y\)\(k+l\) 阶混合矩
  4. \(E((X-E(X))^k\cdot (Y-E(Y))^l)\),为 \(X\)\(Y\)\(k+l\) 阶混合中心矩

显然,\(E(X),E(Y)\) 为一阶原点矩,\(D(X),D(Y)\) 为二阶中心矩,\(Cov(X,Y)\) 为二阶混合中心矩。


协方差矩阵

\(n\) 维随机变量 \((X_1,X_2,\cdots,X_n)\) 的二阶中心矩及二阶混合中心矩 \(c_{ij} = \text{Cov}(X_i,X_j)\)\(i,j = 1,2,\cdots,n\),都存在,则称矩阵 $$ C = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \ c_{21} & c_{22} & \cdots & c_{2n} \ \cdots & \cdots & \cdots & \cdots \ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix} $$ 为 \(n\) 维随机变量 \((X_1,X_2,\cdots,X_n)\)协方差阵

由于 \(c_{ij}=c_{ji}\ (i,j=1,2,\dots,n)\),因此协方差矩阵是一个对称矩阵(由协方差的性质 \(\text{Cov}(X,Y)=\text{Cov}(Y,X)\)\(c_{ij}=c_{ji}\) 可得)。

性质

  1. \(C\) 是对称矩阵
  2. \(c_{ii}=D(X_i)\)
  3. \(c_{ij}^2\le c_{ii}c_{jj}\)
  4. \(C\) 是非负定的,即对任意的定向 \(a=(a_1,a_2,\dots,a_n)^T\),有 \(a^TCa\ge0\)

n 维正态分布

  1. 定义\(n\) 维随机变量 \((X_1,X_2,\cdots,X_n)\) 的概率密度函数为 \(f(x_1,x_2,\cdots,x_n)\),则称其为 \(n\) 维正态变量,记为: $$ (X_1,X_2,\cdots,X_n) \sim N(\boxed{\mu}, \boxed{C}) $$ 其中:

    • \(\mu\)\(n\) 维常向量(均值向量);
    • \({C}\)\(n\) 维对称正定矩阵(协方差矩阵)。
  2. 符号表示

\[ \boxed{X} = \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix},\quad \boxed{\mu} = \begin{pmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_n \end{pmatrix},\quad \boxed{C} = \begin{pmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \end{pmatrix} \]
  1. 概率密度函数
\[ f(x_1,x_2,\cdots,x_n) = \frac{1}{(2\pi)^{\frac{n}{2}} |\boxed{C}|^{\frac{1}{2}}} \exp \left \{ -\frac{1}{2} (\boxed{X}-\boxed{\mu})^T \boxed{C}^{-1} (\boxed{X}-\boxed{\mu}) \right \} \]
  1. 补充说明
    • \(n\) 维正态变量是一维、二维正态分布的推广,其核心参数是 均值向量 \(\boxed{\mu}\)协方差矩阵 \(\boxed{C}\)
    • 协方差矩阵 \(\boxed{C}\) 的正定性保证了密度函数的合理性(分母非零、指数部分为负定二次型);
    • \(n=2\) 时,该定义退化为二维正态分布的形式。