この記事では情報理論の基礎的な用語、特に、自己情報量、シャノンエントロピー(平均情報量)、カルバック・ライブラー情報量(カルバック・ライブラーダイバージェンス、Kullback-Leibler divergence)、交差エントロピー(クロスエントロピー)についてまとめる.
情報量とは
例えば「台風が来た」という情報と「そよ風が吹いた」という情報では, 前者の方がより重大な情報といえる. このようになかなか起こらない事象が起きたときの方が, よく起こる事象が起きたときよりも, 情報量として大きいと考えることができる.
このような直感をもとに, 「情報」を量的に定義したい.
すると事象 \(x\) の情報量 \(I(x)\) は, \(x\) の起こる確率 \(P(x)\) の関数であり, 次の3つの条件を満たすものと考えることができる.
- 確率 \(P(x)\) が低くなると情報量 \(I(x)\) は大きくなる
- 確率が \(P(x)=1\) であるとき情報量は \(I(x)=0 \) となる
- 独立な事象については, 情報量は加法性をもつ.
つまり \(P(x \cap y)=P(x) \cdot P(y)\) のとき \(I(x\cap y)=I(x)+I(y)\)
この3つの条件を満たすような関数を考えると, 身近なもので対数関数が挙げられる.
よって自己情報量を次のように定める.
事象 \(x\) とその確率 \(P(x)\) に対して, 自己情報量を\[I(x)=- \log P(x) \] と定める.
※ 対数 \(\log\) の底は分野や文献によって様々なものが用いられる. この記事で扱う事実はどの底に対しても成り立つ.
このとき底の値によって, 情報量の単位が変わる(下表).
底の値 | 単位 |
---|---|
\(e\) (自然対数) | ナット(nat) |
2(2進対数) | ビット(bit)またはシャノン(shannon) |
10(常用対数) | デシット(decit)またはハートレー(Hartley) |
例えば「1 ナット = 確率 \(\frac{1}{e}\) の事象に関する情報量」である.
またこれらの単位は定数倍で移り合う. 例えば確率 \(\frac{1}{e}\) (1ナット)をビットという単位で測ると\[
-\log_2 \frac{1}{e}= 1.44\cdots,
\]だから, 1ナット = 約1.4ビット である.
PCの容量と同じ単位「ビット」が好まれることもあるが, 機械学習などでは逆伝播法などで微分を計算するので, それと相性の良い自然対数 \(\log_e\) を用いることが多い.
シャノンエントロピー・平均情報量
ある離散確率分布 \(P(X) \) に対して, 自己情報量の期待値\[ H(X)=\sum_{x} I(x) P(x)= – \sum_{x} P(x) \log P(x) \]を平均情報量またはシャノンエントロピーと呼ぶ. これを \(H(P)\) と書くこともある. ここで, \(\sum_x\) は確率変数 \(X\) のとり得る全ての値について和をとることを意味する.
※ここでは離散確率分布の場合について書いたが, 連続確率分布の場合には \(\sum_a \cdots\)
を \(\int \cdots da\) に書き換えればよい. 以下, 確率分布は離散的なもののみを扱うが, 同様に連続確率分布に置き換えることもできる.
※平均情報量の式は熱力学のエントロピーと同じである.
確率変数 \(x\) が確率分布 \(P(x)\) に従うとき, \(x\) の関数 \(f(x)\) の期待値を \({\mathbb E}_{x \sim P} (f(x)) \) と表せば, シャノンエントロピーは \[{\mathbb E}_{a \sim P}(I(a)) \] と表すこともできる.
シャノンエントロピーは確率分布 \(P(a)\) の不確実性を表す.
例えば, 成功確率が \(p\) のベルヌーイ分布 \(P(a)\)(確率 \(p\) で成功, 確率 \(1-p\) で失敗とする分布) のシャノンエントロピーは\[
H(P)=-p \log p-(1-p)\log (1-p)
\]となる. これを \(p\) の関数とみなすと, \(p=\frac{1}{2}\) のとき最大値をとることが分かる.
これは \(p=\frac{1}{2}\) のときが最も不確実な試行であることを意味している.

カルバック・ライブラー情報量と交差エントロピー
同じ確率変数 \(x\) に対する2つの確率分布 \(P(x), Q(x)\) に対して, \[D_{KL}(P||Q)=\sum_{x} P(x)\log \frac{P(x)}{Q(x)}\]をカルバック・ライブラー情報量(Kullback-Leibler 情報量)という。カルバック・ライブラーダイバージェンスや相対エントロピーと呼ばれることもある。
※以下, この記事ではカルバック・ライブラー情報量を省略してKL情報量と書く.
注意. KL情報量は 事象\(a\) が確率 \(P(a) \) で起こるときの, 情報量の差 \[\log \frac{P(a)}{Q(a)}=\log P(a)-\log Q(a)\] の期待値になっている. つまり \[D_{KL}(P||Q)={\mathbb E}_{x \sim P} \log \frac{P(x)}{Q(x)}\] と表せる.
この注意から, KL情報量は2つの確率分布 \(P(x)\) と \(Q(x)\) の距離(異なり具合)とみなすことができる。(\(P, Q\) は可換ではないので注意.)
機械学習の分野では損失関数の設定や変分自己符号化機の理論など、様々な場面で用いられる。
同じ確率変数 \(x\) に対する2つの確率分布 \(P(x), Q(x)\) に対して,\[
H(P,Q)=-\sum_{a} P(a) \log Q(a)
\] と定める. これを交差エントロピーまたはクロスエントロピーという.
KL情報量は\[D_{KL}(P||Q) +H(P) = H(P,Q)\]と変形できるので, KL情報量を最小化する \(Q(a)\) を求めるには, 交差エントロピーを最小化すればよいことが分かる。
この最小化は統計学の最尤法などと深い関係がある.
最尤法との関係については詳しくはこちら:
最尤法とは・KL情報量との関係・二乗和誤差を用いる理由
コメント