カルバック・ライブラー情報量

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

カルバック・ライブラー情報量(カルバック・ライブラーじょうほうりょう、: Kullback–Leibler divergenceカルバック・ライブラー・ダイバージェンス)とは、確率論情報理論における2つの確率分布の差異を計る尺度である。情報ダイバージェンスInformation divergence)、情報利得Information gain)、相対エントロピーRelative entropy)とも呼ばれる。 2つの確率分布の差異を表す事から、カルバック・ライブラー距離 と呼ばれる事もあるが、距離の公理を満たさないので、数学的な意味での距離ではない。

応用上は、「真の」確率分布 P とそれ以外の任意の確率分布 Q に対するカルバック・ライブラー情報量が計算される事が多い。 例えばP はデータ、観測値、正確に計算で求められた確率分布などを表し、Q は理論値、モデル値、P の予測値などを表す。

この概念は1951年ソロモン・カルバックリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。

カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。従って、情報理論の他の量(自己情報量エントロピー)よりも基本的であるとも言える。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。


定義[編集]

PQ離散確率分布とするとき、PQ に対するカルバック・ライブラー情報量は以下のように定義される。

D_{\mathrm{KL}}(P\|Q) = \sum_i P(i) \log \frac{P(i)}{Q(i)} \!

ここでP(i)Q(i) はそれぞれ確率分布PQ に従って選ばれた値がi になる確率。

一方PQ連続確率分布の場合は以下のように定義される。

D_{\mathrm{KL}}(P\|Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \; dx \!

ここで、pq はそれぞれ PQ確率密度関数を表す。


より一般に、 PQ可測集合X上の確率測度で、PQ がなんらかの測度μに対して絶対連続な場合には、

 D_{\mathrm{KL}}(P\|Q) = \int_X   \frac{dP}{d\mu} \log \frac{dP/d\mu}{dQ/d\mu} \;d\mu \!

と定義できる。ここで\frac{dP}{d\mu} \frac{dQ}{d\mu} ラドン・ニコディム導関数

これらの式に出てくる対数の底は、情報の単位をビットとするときは 2 とし、ナットを単位とするときは e を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底が何であろうと無関係である。

直観的意味[編集]

ベイズ確率による説明[編集]

X確率変数とし、各x に対しXx である確率\Pr[X=x]Q(x) であったとする(ベイズ確率でいう事前分布。) 今X に関する新たなデータI を知ったとし、 その結果X の従う(条件付き)確率\Pr[X=x|I]P(x) になったとする(ベイズ確率でいう事後分布。)

このとき、IX に関しどのくらいの情報を提供したといえるであろうか。 情報量が事象の不確かさを図る尺度であった事を思い出されたい。 I を知る前のXの不確かさ(=自己情報量)は -\log Q(x)であるが、 I を知る事でそれは -\log P(x)に減る。 したがってIXに関して

(-\log Q(x))-(-\log P(x))=\log \frac{P(x)}{Q(x)}

だけの自己情報量を得た事になる。 xX に従って変わるので、この値の(事後確率分布による)平均値をとると、

\sum_x P(x)\log \frac{P(x)}{Q(x)}

となる。これはカルバック・ライブラー情報量と一致する。

すなわち、カルバック・ライブラー情報量は、X に関してデータI から得られる情報量の平均値を表している事になる。 以上の理由により、カルバック・ライブラー情報量は情報利得 (Information gain )とも呼ばれる。

符号化による説明[編集]

情報量H である確率変数X は平均ビット数が(ほぼ)H であるビット列に符号化できる(ハフマン符号)が、 平均ビット数がH 未満であるようには符号化できない(情報源符号化定理)事が知られている。 つまり、確率変数X を符号化しようと考えた場合、H がビット数の最小値である。

今確率変数X が本当は分布P に従っているのに、誤って分布Q に従っていると判断してしまった場合、 本来の最小値よりも多くのビット数を必要としてしまう。 カルバック・ライブラー情報量は、このような誤りを犯してしまった場合に 余分にかかってしまうビット数の平均値を表す。

性質[編集]

カルバック・ライブラー情報量は常に負でない値となる。

D_{\mathrm{KL}}(P\|Q) \geq 0, \,

これはギブスの不等式として知られており、DKL(P||Q) がゼロとなるのは P = Q であるときだけである。従って、エントロピー H(P) はクロスエントロピー H(P,Q) の下限値となる。このクロスエントロピーは P ではなく Q に基づく符号を使ったときに予測されるビット数を表している。従って、KLダイバージェンスは、X から x という値を特定する情報を得るために、P という真の分布ではなく Q という確率分布に対応した符号を使ったときに余分にかかると予想されるビット数を表しているのである。

カルバック・ライブラー情報量を確率分布空間における距離と呼ぶ場合もあるが、カルバック・ライブラー情報量には対称性がないため、距離と呼ぶのは正しくない。一般に

D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q\|P).

さらに言えば、DKL(P||Q) は三角不等式を満足しない

情報理論における他の量との関係[編集]

情報理論の他の様々な量は、カルバック・ライブラー情報量の特殊なケースの応用として解釈できる。

自己情報量との関係[編集]

I(m) = D_{\mathrm{KL}}(\delta_{im} \| \{ p_i \}),

ここで\delta_{im}クロネッカーのデルタ

相互情報量との関係[編集]

\begin{align}I(X;Y) & = D_{\mathrm{KL}}(P(X,Y) \| P(X)P(Y) ) \\
& = \mathbb{E}_X \{D_{\mathrm{KL}}(P(Y|X) \| P(Y) ) \} \\
& = \mathbb{E}_Y \{D_{\mathrm{KL}}(P(X|Y) \| P(X) ) \}\end{align}

シャノン・エントロピーとの関係[編集]

\begin{align}H(X) & = \mathbb{E}_x \{I(x)\} \\
& =  \log N - D_{\mathrm{KL}}(P(X) \| P_U(X) )\end{align}

ここでN は確率変数X の値域の元の数で、P_U(X)X の値域上の一様分布。

条件付きエントロピーの場合は以下のようになる:

\begin{align}H(X|Y) & = \log N - D_{\mathrm{KL}}(P(X,Y) \| P_U(X) P(Y) ) \\
& = \log N - D_{\mathrm{KL}}(P(X,Y) \| P(X) P(Y) ) - D_{\mathrm{KL}}(P(X) \| P_U(X)) \\
& = H(X) - I(X;Y) \\
& = \log N - \mathbb{E}_Y \{ D_{\mathrm{KL}}(P(X|Y) \| P_U(X)) \}\end{align}


クロスエントロピーとの関係[編集]


\begin{matrix} 
D_{\mathrm{KL}}(P\|Q) & = & -\sum_x p(x) \log q(x)& + & \sum_x p(x) \log p(x) \\
& =  & H(P,Q) & - & H(P)\, \!
\end{matrix}


関連項目[編集]

参考文献[編集]

  • Fuglede B, and Topsøe F., 2004, Jensen-Shannon Divergence and Hilbert Space Embedding, IEEE Int Sym Information Theory.
  • Kullback, S., and Leibler, R. A., 1951, On information and sufficiency, Annals of Mathematical Statistics 22: 79-86.
  • Rubner, Y., Tomasi, C., and Guibas, L. J., 2000. The Earth Mover's distance as a metric for image retrieval. International Journal of Computer Vision, 40(2): 99-121.
  • Kullback, S. Information Theory and Statistics. Dover reprint.
  • Matlab code for calculating KL divergence