最大事後確率

最大事後確率（さいだいじごかくりつ、英: Maximum a posteriori, MAP）推定は、統計学において、実測データに基づいて未知の量の点推定を行う手法である。ロナルド・フィッシャーの最尤法 (ML) に密接に関連するが、推定したい量の事前分布を利用して最適化された結果を得る。したがってMAP推定は、ML推定の正規化と見ることができる。

概要

$x$ の観測に基づいて、未知の母集団パラメータ $\theta$ を推定したいとする。 $x$ の標本分布を $f$ とすると、母集団パラメータを $\theta$ としたときの $x$ の確率は $f(x|\theta )$ となる。すると

\theta \mapsto f(x|\theta )\!

という関数は尤度関数であり、

{\hat {\theta }}_{\mathrm {ML} }(x)=\arg \max _{\theta }f(x|\theta )\!

は $\theta$ の最尤推定である。

ここで、 $\theta$ の事前分布を $g$ とする。すると、 $\theta$ をベイズ推定における確率変数として扱える。 $\theta$ の事後確率は次のようになる。

\theta \mapsto {\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}\!

ここで $g$ は $\theta$ の密度関数、 $\Theta$ は $g$ の定義域である。これはベイズの定理の直接的な応用である。

最大事後確率推定の手法では、次に $\theta$ をこの確率変数の事後分布の最頻値として推定する。

{\hat {\theta }}_{\mathrm {MAP} }(x)=\arg \max _{\theta }{\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\Theta }f(x|\theta ')\,g(\theta ')\,d\theta '}}=\arg \max _{\theta }f(x|\theta )\,g(\theta )\!

事後分布の分母は $\theta$ に依存していないので、最適化には何の役割も果たさない。 $\theta$ のMAP推定の結果は、ML推定で事前分布 $g$ が一様分布の場合に一致する。MAP推定は、一様損失関数におけるベイズ推定関数である。

MAP推定の計算方法はいくつか存在する。

閉形式で事前分布の最頻値が与えられるとき、解析的に解ける。この場合、共役事前分布を使う。
数値的最適値を得るには、共役勾配法やニュートン法がある。これには1次または2次の導関数が必要とされ、それを解析的または数値的に評価する必要がある。
期待値最大化法を変形して用いる。この場合、事後密度の導関数は不要である。

例

ある並び $(x_{1},\dots ,x_{n})$ の独立な確率変数 $N(\mu ,\sigma _{v}^{2})$ があり、 $\mu$ の事前分布は $N(0,\sigma _{m}^{2})$ で与えられるとする。ここで $\mu$ のMAP推定値を求める。

最大化すべき関数は次のようになる。

\pi (\mu )L(\mu )={\frac {1}{{\sqrt {2\pi }}\sigma _{m}}}\exp \left(-{\frac {1}{2}}\left({\frac {\mu }{\sigma _{m}}}\right)^{2}\right)\prod _{j=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma _{v}}}\exp \left(-{\frac {1}{2}}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right)

これは、次の式で $\mu$ を最小化することと等価である。

\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}+\left({\frac {\mu }{\sigma _{m}}}\right)^{2}

従って μ のMAP推定値は以下のようになる。

{\hat {\mu }}_{MAP}={\frac {\sigma _{m}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\sum _{j=1}^{n}x_{j}

$\sigma _{m}\to \infty$ の場合を無情報事前分布（non-informative prior）と呼び、この例では ${\hat {\mu }}_{MAP}\to {\hat {\mu }}_{MLE}$ である。

参考文献

M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970).
Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker.

概要

例

関連項目

参考文献