出典: フリー百科事典『ウィキペディア(Wikipedia)』
情報理論において、交差エントロピー(こうさエントロピー)またはクロスエントロピー(英: cross entropy)は、2つの確率分布の間に定義される尺度である。符号化方式が、真の確率分布
ではなく、ある所定の確率分布
に基づいている場合に、とりうる複数の事象の中からひとつの事象を特定するために必要となるビット数の平均値を表す。
同じ確率空間における2つの分布
と
において、
の
に対する交差エントロピーは、次のように定義される。
![\mathrm{H}(p, q) = \mathrm{E}_p[-\log q] = \mathrm{H}(p) + D_{\mathrm{KL}}(p \| q)\!](https://wikimedia.org/api/rest_v1/media/math/render/svg/780998063a8f708e2e6b22a3bc071b492212f0cd)
ここで、
は
のエントロピー、
は
から
のカルバック・ライブラー情報量(相対エントロピー)である。
と
が離散確率変数なら、これは次のようになる。

連続確率変数なら、同様に次のようになる。

なお、
という記法は交差エントロピーだけでなく、結合エントロピーにも使われるので、注意が必要である。
対数尤度との関係[編集]
分類問題において、異なる事象の確率を推定したいとする。N サンプルからなる訓練集合内における事象
の頻度(経験的確率)が
である一方、事象
の確率が
と推定されたとすると、訓練集合の尤度は次のようになる。

この対数尤度をNで割ると、

となり、この尤度を最大化することは、交差エントロピーを最小化することと同義となる。
交差エントロピー最小化[編集]
交差エントロピー最小化は、最適化問題と希少事象の予測によく使われる技法である(交差エントロピー法)。
確率分布
を参照用固定確率分布
と比較したとき、交差エントロピーとカルバック・ライブラー情報量は(
が固定なので)付加的な定数を除いて同一である。どちらも
であるとき最小値となり、カルバック・ライブラーの値は
、交差エントロピーの値は
となる。
ただし、カルバック・ライブラー情報量参照のとおり、q を固定の参照用確率分布とし、p を最適化して q に近づけるようにすることもある。この場合の最小化は交差エントロピーの最小化とはならない。文献ではどちらの手法で説明しているか、注意する必要がある。
交差エントロピー誤差関数とロジスティック回帰[編集]
交差エントロピーは機械学習および最適化における損失関数を定義するために使うことができる。真の確率
が真のラベルであり、与えられた分布
が現在のモデルの予測値である。
より具体的に、ロジスティック回帰を考えてみる。ロジスティック回帰は(その最も基本的な形式において)任意のデータ点のセットを2つの可能なクラス(一般的に
および
とラベル付けされる)への分類を扱う。ロジスティック回帰モデルはしたがって入力ベクトル
を与えられると出力
を予測する。確率は標準シグモイド関数
を使ってモデル化される。すなわち、出力
を見出す確率は式

によって与えられる。上式において、重み
のベクトルは最急降下法といったいくつかの適切なアルゴリズムによって最適化される。同様に、出力
を見出す余事象の確率は式

によって与えられる。
真の(観察された)確率は同様に
および
として表すことができる。
本記事の記法を使って
、
とすると、
と
との間の非類似性の尺度を得るために交差エントロピーを使うことができる。

ロジスティック回帰で用いられる典型的な損失関数は、サンプル中の全ての交差エントロピーの平均を取ることによって計算される。例えば、それぞれのサンプルが
によってラベル付けされた
個のサンプルを持っていることを仮定する。損失関数は次に以下の式となる。
![{\displaystyle {\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80f87a71d3a616a0939f5360cec24d702d2593a2)
上式において、
であり、
は標準シグモイド関数である。
ロジスティック損失は交差エントロピー損失と呼ばれることがある。また、log lossとも呼ばれる(この場合、二値ラベルは {-1,+1} で示されることが多い)[1]。
- ^ Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029
関連項目[編集]