多次元確率分布とシュワルツの不等式

この記事では複数の確率変数を同時に扱う多次元確率分布を考えます. 特に, 同時確率関数や周辺確率関数などの基礎的な概念について解説し, 最後にシュワルツ（Schwarz）の不等式を導きます.

2次元確率変数
1. 離散型のとき
2. 連続型のとき
3次元以上の確率分布
2次元確率変数の期待値と分散
1. 2次元の場合の期待値と分散の定義
2. 期待値の線形性と単調性
シュワルツの不等式

2次元確率変数

2つの確率変数の組 \((X,Y)\) を2次元確率変数または2次元確率ベクトルという.

離散型のとき

定義（離散型のときの2次元の確率分布）

2つの離散型確率変数 \(X\), \(Y\) の実現値が \(x_1, x_2,\cdots\) と \(y_1,y_2,\cdots\) であるとする. \(X=x_i\)かつ \(Y=y_j\) となる確率を\[
f_{X,Y}(x_i, y_i)=P(X=x_i,Y=y_j)
\]で表し, これを同時確率質量関数または単に同時確率関数という. また, \begin{align}& f_X(k)=\sum_{j \geq 1} P(X=k,Y=y_j),\\ &f_Y(k)=\sum_{i\geq 1} P(X=x_i,Y=k)\end{align} をそれぞれ\(X,Y\)の周辺確率質量関数または単に周辺確率関数という.
（これらを同時確率分布や周辺確率分布ということもある. ）

厳密には

大前提として同じ確率空間に対する2つの確率変数を考える. 確率変数は全事象から実数への関数であるため, \(\Omega\) を全事象としたとき, 2つの確率変数 \(X: \Omega \to \mathbb{R}\), \(Y: \Omega \to \mathbb{R}\) に対して, \[P(X=a, Y=b)=P(\{ \omega \in \Omega \mid X(\omega)=a , Y(\omega) = b \})\]と書く.

同時確率関数は \(X, Y\) が同時に条件を満たす確率を表し, 周辺確率関数は \(X, Y\) 単体での確率を表す.

例1. 離散型確率変数 \(X,Y\) について, \(X\) の実現値が \(1,2\) であり, \(Y\) の実現値が \(0,1,2\) であるとする. また, \(X,Y\) の同時確率分布が右の表のようになっているとする.

\(X\) ＼ \(Y\)	0	1	2	横合計
1	\(0.15\)	\(0.20\)	\(0.05\)	\(0.40\)
2	\(0.10\)	\(0.20\)	\(0.30\)	\(0.60\)
縦合計	\(0.25\)	\(0.40\)	\(0.35\)	\(1\)

このとき, \(X,Y\) の周辺確率分布は, 縦合計と横合計から次のようになる.

\(X\)	1	2	合計
確率	\(0.40\)	\(0.60\)	\(1\)

\(Y\)	0	1	2	合計
確率	\(0.25\)	\(0.40\)	\(0.35\)	\(1\)

連続型のとき

定義（連続型のときの2次元の確率分布）

2つの連続型確率変数 \(X\), \(Y\) に対して, \(X\leq a\) かつ \(Y\leq b\) となる確率 \(P(X\leq a,Y\leq b)\) が \[P(X\leq a,Y\leq b)= \int_{-\infty}^a \int_{-\infty}^b f_{X,Y} (x,y)dxdy\] と積分表示できるとき, \(f_{X,Y} (x,y)\)を同時確率密度関数という. また, \begin{align}&f_X(x)= \int_{-\infty}^{\infty} f_{X,Y} (x,y) dy, \\ &f_Y(y)= \int_{-\infty}^{\infty} f_{X,Y} (x,y) dx\end{align} をそれぞれ, \(X, Y\) の周辺確率密度関数という.

例. 同時確率密度関数が \(f_{X,Y}(x,y)=\dfrac{1}{2\pi} e^{-\frac{x^2}{2} -\frac{y^2}{2}}\) のとき
周辺確率密度関数はガウス積分の公式から \[\begin{aligned} f_X(x)=\int_{-\infty}^{\infty}f_{X,Y}(x,y)dy = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\\ f_Y(y)=\int_{-\infty}^{\infty} f_{X,Y}(x,y)dx = \frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}\end{aligned}\]となる.

この例は, 2変量正規分布という分布の最も簡単な場合に当たる.

3次元以上の確率分布

3次元以上の場合についても同様に定める.

定義

離散型のとき
\(n\)個の確率変数\(X_1, X_2, \dots , X_n\)に対して, これらが離散型のとき, 同時確率関数 \(f_{X_1,\dots ,X_n}(x_{1},\ldots ,x_n)\) と, 周辺確率関数 \(f_{X_1}(k)\) を \[\begin{aligned}
&f_{X_1,\dots ,X_n}(x_{1},\ldots ,x_n)=P(X_1=x_1, \dots, X_n=x_n), \\
&f_{X_1}(k)= \sum_{x_2} \cdots \sum_{x_{n}} P(X_1=k, \dots, X_n=x_n)
\end{aligned}\] と定める（他の \(X_1\) 以外の周辺確率分布も同様に定める）.

連続型のとき
\(n\)個の確率変数\(X_1, X_2, \dots , X_n\)に対して, これらが連続型のとき, 同時確率密度関数 \(f_{X_1\dots X_n} (x_1, \cdots , x_n)\) と周辺確率密度関数 \(f_{X_1}(x)\) を \[\begin{aligned} &P(X_1\leq a_1,\ldots , X_n \leq a_n)= \int_{-\infty}^{a_1} \cdots \int_{-\infty}^{a_n} f_{X_1\dots X_n} (x_1, \cdots , x_n) dx_1 \cdots dx_n , \\ &f_{X_1}(x)= \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f_{X_1\dots X_n} (x_1, \cdots , x_n) dx_2 \cdots dx_n \end{aligned}\] によって定める（\(X_1\) 以外の周辺確率密度関数も同様に定める）.

2次元確率変数の期待値と分散

2次元の場合の期待値と分散の定義

2次元のときにも, 1次元のときと同様に期待値や分散を定義できる.

定義

2次元確率変数 \((X, Y)\) の2変数関数 \(g(X,Y)\) に対して, 期待値 \(E[g(X,Y)]\) を\begin{align}E[g(X,Y)]=\begin{cases}
\displaystyle \sum_{i \geq 1} \sum_{j\geq 1} g(x_i, y_j) P(X=x_i, Y=y_i) &(\text{離散型のとき}),\\
\displaystyle \int_{-\infty}^{\infty}\int_{-\infty}^{\infty} g(x,y) f_{X,Y}(x,y)dxdy &(\text{連続型のとき})
\end{cases}\end{align}によって定める. ここで, 離散型のときは \(X\) と \(Y\) の実現値をそれぞれ, \(x_1, x_2, \cdots\) と \(y_1, y_2, \cdots\) とした.
またこれを用いて, 分散 \(V[g(X,Y)]\) を \[
V[g(X,Y)]=E[\{g(X,Y)-\mu\}^2]\quad (\mu=E[g(X,Y)])
\]によって定める.

期待値の線形性と単調性

まずは基本的な性質を挙げておく.

定理

2次元確率変数 \((X,Y)\) について, 以下が成り立つ：
(1) \(E[aX+bY]=aE[X]+bE[Y]\)　（期待値の線形性）
(2) \(X \leq Y \; \Rightarrow \; E[X]\leq E[Y]\)　（期待値の単調性）
ただし, \(a, b\) は定数とする.

証明.
(1) は和 \(\sum\) や積分 \(\int\) の基本的な性質から従う.

(2) \(Z=Y-X\) とおくと, 常に \(Z \geq 0\) だから, 期待値の定義から \(E[Z] \geq 0\).
このとき, 期待値の線形性から \[
0\leq E[Z] =E[Y-X]=E[Y] -E[X].
\]したがって (2) が成り立つ.

シュワルツの不等式

2次元確率変数の期待値について, 次の有名な不等式が成り立つ. この不等式をシュワルツの不等式という.
シュワルツの不等式は, 相関係数 \(\rho_{XY}\) が \(|\rho_{XY}|\leq 1\) となることの証明などに応用される.
詳しくはこちら → 確率変数の共分散・相関係数と独立性

定理（確率変数のシュワルツの不等式）

2次元確率変数 \((X,Y)\) について, 次式が成り立つ（ただし, \(E[X^2], E[Y^2] \neq 0\) とする）.
\[(E[XY])^2 \leq E[X^2]E[Y^2].
\]等号成立条件は \(P(Y=cX)=1\) となる定数 \(c\) が存在することである.
また, このとき \(c\) の値は \(\displaystyle c=\pm \sqrt{\frac{E[Y^2]}{E[X^2]}}\) となる.

証明の準備として, まずは次の補題を示す. これは等号成立条件を示す際に用いられる.

補題. 確率変数 \(Z\) について, \[
Z\geq 0 \text{ かつ } E[Z]=0 \;\, \Rightarrow \;\, P(Z=0)=1.\]

証明.
\(\Omega \) を全事象とする. 任意の正整数 \(n\) に対して, 確率変数 \(\widetilde{Z} = \widetilde{Z}(\omega)\) を \[
\widetilde{Z}=\begin{cases}
\frac{1}{n} & (Z(\omega) > \frac{1}{n})\\
0 & (Z(\omega) \leq \frac{1}{n})
\end{cases}\]と定めると, 常に \(\widetilde{Z}\leq Z \) となる. このとき, 期待値の単調性から\[
0=E[Z] \geq E[\widetilde{Z}].
\]一方で, \[
E[\widetilde{Z}]=\frac{1}{n} P\big(Z>\frac{1}{n} \big) \geq 0
\]であるから, \(P\big(Z>\frac{1}{n}\big) =0\) となる. よって確率の連続性から\[
P(Z>0) =\lim_{n \to \infty} P\big(Z > \frac{1}{n} \big)=0.
\]したがって, \(Z\geq 0\) だから \[
P(Z=0)=1-P(Z>0)=1.
\]（証明終了）

定理（シュワルツの不等式）の証明.
実数 \(c\) に対して \(g(c)=c X-Y\) とおくと, \begin{align}
0&\leq E[\{g(c)\}^2]\\
&=c^2 E[X^2]-2c E[XY] +E[Y^2]. \tag{a}
\end{align}（1つ目の不等式は \(\{g(c)\}^2\geq 0\) から, 2つ目の等式は期待値の線形性から成り立つ. ）
右辺は \(c\) の二次関数だから, 判別式より\[
\big(E[X Y]\big)^2 – E\big[X^2 \big] E\big[Y^2\big] \leq 0.
\]したがってシュワルツの不等式が成り立つ.

等号成立の必要十分条件は,

　　”\((E[X Y]\big)^2 = E\big[X^2 \big] E\big[Y^2\big] \)”　　\(\cdots\)(b)
　　\(\Leftrightarrow\) 　”\(E[\{g(c)\}^2]=0\) となる \(c\) が存在する”
　　\(\Leftrightarrow\) 　”\(P(g(c)=0) =1\) となる \(c\) が存在する”

となる. ここで, 1つ目の同値関係は2次関数の基礎的な事実から従い, 2つ目の同値関係は上の補題から従う.
したがって, 等号成立の必要十分条件は, \(P(Y=cX)=1\) となる定数 \(c\) が存在することである.

このとき, (a), (b)より, \begin{align}
0&=E[X^2]c^2 \mp 2c\sqrt{E[X^2]E[Y^2]} +E[Y^2] \\
&=\left(\sqrt{E[X^2]}c \mp \sqrt{E[Y^2]} \right)^2,\\
c&=\pm \sqrt{\frac{E[Y^2]}{E[X^2]}}
\end{align}となる. （証明終了）

シュワルツの不等式の等号成立条件について, \(P(Y=cX)=1\) となることまでは様々な文献で書かれています. しかし, この証明のように定数 \(c\) は2次方程式の解の条件（とくに重解となる条件）から来ているので, この定理の主張のように, その値は決定することができます.