カルバック・ライブラー情報量

カルバック・ライブラー情報量（カルバック・ライブラーじょうほうりょう、英: Kullback–Leibler divergence）は2つの確率分布の差異を計る尺度である。

確率論と情報理論で利用され様々な呼び名がある。以下はその一例である：

カルバック・ライブラー・ダイバージェンス（KLダイバージェンス）
情報ダイバージェンス（英: information divergence）
情報利得（英: information gain）
相対エントロピー（英: relative entropy）
カルバック・ライブラー距離

ただしこの計量は距離の公理を満たさないので、数学的な意味での距離ではない。

応用上は、「真の」確率分布 $P$ とそれ以外の任意の確率分布 $Q$ に対するカルバック・ライブラー情報量が計算される事が多い。たとえば $P$ はデータ、観測値、正確に計算で求められた確率分布などを表し、 $Q$ は理論値、モデル値、 $P$ の予測値などを表す。

この概念は1951年、ソロモン・カルバックとリチャード・ライブラーが2つの分布の間の directed divergence として用いたのが最初であり、ベクトル解析におけるダイバージェンスとは異なる概念である。

カルバック・ライブラー情報量は離散分布のみならず連続分布に対しても定義されており、連続分布に対するカルバック・ライブラー情報量は変数変換について不変である。したがって、情報理論の他の量（自己情報量やエントロピー）よりも基本的であるともいえる。というのも、それらは離散的でない確率については未定義だったり、変数変換に対して不変ではなかったりするからである。

定義[編集]

$P$ 、 $Q$ を離散確率分布とするとき、 $P$ の $Q$ に対するカルバック・ライブラー情報量は以下のように定義される。

D_{\mathrm {KL} }(P\|Q)=\sum _{i}P(i)\log {\frac {P(i)}{Q(i)}}=\mathbb {E} _{P}\left[\log {\frac {P(i)}{Q(i)}}\right]

ここで $P (i)$ 、 $Q (i)$ はそれぞれ確率分布 $P$ 、 $Q$ に従う確率変数の値が $i$ となる確率である。

一方 $P$ 、 $Q$ が連続確率分布の場合は以下のように定義される。

D_{\mathrm {KL} }(P\|Q)=\int _{-\infty }^{\infty }p(x)\log {\frac {p(x)}{q(x)}}\;dx=\mathbb {E} _{P}\left[\log {\frac {p(x)}{q(x)}}\right]

ここで、 $p$ 、 $q$ はそれぞれ $P$ 、 $Q$ の確率密度関数を表す。

より一般に、 $P$ 、 $Q$ が可測集合 $X$ 上の確率測度で、 $P$ 、 $Q$ がなんらかの測度 $μ$ に対して絶対連続な場合には、

D_{\mathrm {KL} }(P\|Q)=\int _{X}{\frac {dP}{d\mu }}\log {\frac {dP/d\mu }{dQ/d\mu }}\;d\mu

と定義できる。ここで $.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output .sfrac.tion,.mw-parser-output .sfrac .tion{display:inline-block;vertical-align:-0.5em;font-size:85%;text-align:center}.mw-parser-output .sfrac .num,.mw-parser-output .sfrac .den{display:block;line-height:1em;margin:0 0.1em}.mw-parser-output .sfrac .den{border-top:1px solid}.mw-parser-output .sr-only{border:0;clip:rect(0,0,0,0);height:1px;margin:-1px;overflow:hidden;padding:0;position:absolute;width:1px}dP/dμ$ 、 $d Q / d μ$ はラドン・ニコディム導関数である。

これらの式に出てくる対数の底は、情報の単位をビットとするときは $2$ とし、ナットを単位とするときはネイピア数 $e$ を底とする。カルバック・ライブラー情報量に関わる方程式の多くは対数の底と無関係である。

直観的意味[編集]

最尤推定量による説明[編集]

有限次元のパラメータ $θ$ によって特徴づけられる確率密度関数 $q (x | θ)$ を用いて $p (x)$ を推定するという文脈では、カルバック・ライブラー情報量の経験量の最小化

\min _{\theta }{\frac {1}{n}}\sum _{i=1}^{n}\log {\frac {p(X_{i})}{q(X_{i}|\theta )}}

は、（対数変換した）最尤法

\max _{\theta }{\frac {1}{n}}\sum _{i=1}^{n}\log q(X_{i}|\theta )

と同値な問題になる。すなわち、最尤推定量は、カルバック・ライブラー情報量を経験的に最小化する推定方法だと考えられる。

ベイズ確率による説明[編集]

$X$ を確率変数とし、各 $x$ に対し $X$ が $x$ である確率 $Pr[X = x]$ が $Q (x)$ であったとする（ベイズ確率でいう事前分布）。いま $X$ に関する新たなデータ $I$ を知ったとし、その結果 $X$ の従う（条件付き）確率 $Pr[X = x | I]$ が $P (x)$ になったとする（ベイズ確率でいう事後分布）。

このとき、 $I$ は $X$ に関しどのくらいの情報を提供したといえるであろうか。情報量が事象の不確かさを図る尺度であったことを思い出されたい。 $I$ を知る前の $X$ の不確かさ（すなわち自己情報量）は $-log Q (x)$ であるが、 $I$ を知ることでそれは $-log P (x)$ に減る。したがって $I$ によって $X$ に関して

(-\log Q(x))-(-\log P(x))=\log {\frac {P(x)}{Q(x)}}

だけの自己情報量を得たことになる。 $x$ は $X$ に従って変わるので、この値の（事後確率分布による）平均値をとると、

\sum _{x}P(x)\log {\frac {P(x)}{Q(x)}}

となる。これはカルバック・ライブラー情報量と一致する。

すなわち、カルバック・ライブラー情報量は、 $X$ に関してデータ $I$ から得られる情報量の平均値を表していることになる。以上の理由により、カルバック・ライブラー情報量は情報利得(Information gain)とも呼ばれる。

符号化による説明[編集]

情報量が H である確率変数X は平均ビット数が（ほぼ）H であるビット列に符号化できる(ハフマン符号)が、平均ビット数が H 未満であるようには符号化できない(情報源符号化定理)事が知られている。つまり、確率変数 X を符号化しようと考えた場合、H がビット数の最小値である。今確率変数 X が本当は分布 P に従っているのに、誤って分布 Q に従っていると判断してしまった場合、本来の最小値よりも多くのビット数を必要としてしまう。カルバック・ライブラー情報量は、このような誤りを犯してしまった場合に余分にかかってしまうビット数の平均値を表す。

性質[編集]

カルバック・ライブラー情報量は常に負でない値となる。

D_{\mathrm {KL} }(P\|Q)\geq 0

これはギブスの不等式として知られており、D_KL(P||Q) がゼロとなるのは P = Q であるときだけである。従って、エントロピー H(P) はクロスエントロピー H(P,Q) の下限値となる。このクロスエントロピーは P ではなく Q に基づく符号を使ったときに予測されるビット数を表している。従って、KLダイバージェンスは、X から x という値を特定する情報を得るために、P という真の分布ではなく Q という確率分布に対応した符号を使ったときに余分にかかると予想されるビット数を表しているのである。

カルバック・ライブラー情報量を確率分布空間における距離と呼ぶ場合もあるが、カルバック・ライブラー情報量には対称性がないため、距離と呼ぶのは正しくない。一般に

D_{\mathrm {KL} }(P\|Q)\neq D_{\mathrm {KL} }(Q\|P).

さらに言えば、D_KL(P||Q) は三角不等式を満足しない。

情報理論における他の量との関係[編集]

情報理論の他の様々な量は、カルバック・ライブラー情報量の特殊なケースの応用として解釈できる。

自己情報量との関係[編集]

I(m)=D_{\mathrm {KL} }(\delta _{im}\|\{p_{i}\}),

ここで $\delta _{im}$ はクロネッカーのデルタ。

相互情報量との関係[編集]

{\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))\\&=\mathbb {E} _{X}\{D_{\mathrm {KL} }(P(Y|X)\|P(Y))\}\\&=\mathbb {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P(X))\}\end{aligned}}

シャノン・エントロピーとの関係[編集]

{\begin{aligned}H(X)&=\mathbb {E} _{x}\{I(x)\}\\&=\log N-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\end{aligned}}

ここでN は確率変数X の値域の元の数で、P_U(X) はX の値域上の一様分布。

条件付きエントロピーの場合は以下のようになる：

{\begin{aligned}H(X|Y)&=\log N-D_{\mathrm {KL} }(P(X,Y)\|P_{U}(X)P(Y))\\&=\log N-D_{\mathrm {KL} }(P(X,Y)\|P(X)P(Y))-D_{\mathrm {KL} }(P(X)\|P_{U}(X))\\&=H(X)-I(X;Y)\\&=\log N-\mathbb {E} _{Y}\{D_{\mathrm {KL} }(P(X|Y)\|P_{U}(X))\}\end{aligned}}

交差エントロピーとの関係[編集]

{\begin{aligned}D_{\mathrm {KL} }(P\|Q)&=-\sum _{x}p(x)\log q(x)+\sum _{x}p(x)\log p(x)\\&=H(P,Q)-H(P)\end{aligned}}

参考文献[編集]

Fuglede B, and Topsøe F., 2004, Jensen-Shannon Divergence and Hilbert Space Embedding, IEEE Int Sym Information Theory.
Kullback, S., and Leibler, R. A., 1951, On information and sufficiency, Annals of Mathematical Statistics 22: 79-86.
Rubner, Y., Tomasi, C., and Guibas, L. J., 2000. The Earth Mover's distance as a metric for image retrieval. International Journal of Computer Vision, 40(2): 99-121.
Kullback, S. Information Theory and Statistics. Dover reprint.
Matlab code for calculating KL divergence