クロスエントロピー

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

クロスエントロピー: Cross entropy)とは、情報理論において2つの確率分布の間に定義される尺度である。符号化方式が、真の確率分布 p ではなく、ある所定の確率分布 q に基づいている場合に、とりうる複数の事象の中からひとつの事象を特定するために必要となるビット数の平均値を表す。

同じ確率空間における2つの分布 pq のクロスエントロピーは、次のように定義される。

\mathrm{H}(p, q) = \mathrm{E}_p[-\log q] = \mathrm{H}(p) + D_{\mathrm{KL}}(p \| q)\!

ここで、H(p)pエントロピーD_{\mathrm{KL}}(p || q)p から qカルバック・ライブラー情報量(相対エントロピー)である。

pq離散確率変数なら、これは次のようになる。

\mathrm{H}(p, q) = -\sum_x p(x)\, \log q(x) \!

連続確率変数なら、同様に次のようになる。

-\int_X p(x)\, \log q(x)\, dx \!

なお、\mathrm{H}(p,q) という記法はクロスエントロピーだけでなく、結合エントロピーにも使われるので、注意が必要である。

クロスエントロピー最小化[編集]

クロスエントロピー最小化は、最適化と希少事象の予測によく使われる技法である(クロスエントロピー法)。

確率分布 q を参照用固定確率分布 p と比較したとき、クロスエントロピーとカルバック・ライブラー情報量は(p が固定なので)付加的な定数を除いて同一である。どちらも p = q であるとき最小値となり、カルバック・ライブラーの値は 0、クロスエントロピーの値は \mathrm{H}(p) となる。

ただし、カルバック・ライブラー情報量参照のとおり、q を固定の参照用確率分布とし、p を最適化して q に近づけるようにすることもある。この場合の最小化はクロスエントロピーの最小化とはならない。文献ではどちらの手法で説明しているか、注意する必要がある。

関連項目[編集]