相互情報量

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

相互情報量(そうごじょうほうりょう、: Mutual information)または伝達情報量(でんたつじょうほうりょう、: Transinformation)は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表すである。最も典型的な相互情報量の物理単位ビットであり、2 を底とする対数が使われることが多い。

定義[編集]

形式的には、2つの離散確率変数 XY の相互情報量は以下で定義される。

 I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \frac{p(x,y)}{p(x)\,p(y)}, \!

ここで、p(x,y)XY同時分布関数、p(x)p(y) はそれぞれ XY周辺確率分布関数である。

連続の場合、総和の代わりに二重の定積分を用いる。

 I(X;Y) = \int_Y \int_X p(x,y) \log \frac{p(x,y)}{p(x)\,p(y)} \; dx \,dy, \!

ここでの p(x,y) は XY の同時分布密度関数であり、p(x) と p(y) はそれぞれ XY の周辺確率密度関数である。

これらの定義は対数の底が明示されていないため曖昧である。明確化するため、関数 II(X,Y,b) のように3つの引数を持つとして定義することがある(ここで b は対数の底である)。一方、最も一般的な相互情報量の尺度はビットであるため、底として 2 を指定することが多い。

直観的には、相互情報量は XY が共有する情報量の尺度である。一方の変数を知ることでもう一方をどれだけ推測できるようになるかを示す。例えば、XY が独立であれば、X をいくら知っても Y に関する情報は得られないし、逆も同様である。従って、相互情報量はゼロである。逆に、XY が同じであれば、XY は全情報を共有していると言う事ができ、X を知れば Y も知ることになり、逆も同様である。結果として、相互情報量は Y(または X)単独の不確かさ、すなわち Y(または X)のエントロピーと同じとなる。

相互情報量は、XY が独立な場合の同時分布と実際の同時分布の距離を示す量である。また、以下のような意味で相互の依存性の尺度でもある。すなわち、I(X; Y) = 0 であるのは、XY が全く依存しない、独立な確率変数である場合だけである(同値)。これは一方向から考えると分かり易い。XY が独立なら、p(x,y) = p(x) × p(y) であるから、次が成り立つ。

 \log \frac{p(x,y)}{p(x)\,p(y)} = \log 1 = 0. \!

さらに、相互情報量は負とならず(I(X;Y) ≥ 0; 後述)、対称性がある(I(X;Y) = I(Y;X))。

他の情報量との関係[編集]

相互情報量は次のようにも表せる。


\begin{align}
I(X;Y) & {} = H(X) - H(X|Y) \\ 
& {} = H(Y) - H(Y|X) \\ 
& {} = H(X) + H(Y) - H(X,Y)
\end{align}

ここで H(X) と H(Y) は周辺エントロピーH(X|Y) と H(Y|X) は条件付きエントロピーH(X,Y) は XY結合エントロピーである。H(X) ≥ H(X|Y) であるため、これは上述の非負性とも一貫している。

直観的に、エントロピー H(X) が確率変数の不確かさの尺度であるとすれば、H(X|Y) は「Y を知った後にも残る X の不確かさの量」と見ることができ、最初の行の右辺は「X の不確かさの量から Y を知った後に残った X の不確かさの量を引いたもの」となり、「Y を知ったことで削減される X の不確かさの量」と等価である。これは、相互情報量が2つの確率変数について互いにもう一方を知ったことで得られる別の一方に関する情報量という直観的定義とも合っている。

離散の場合、H(X|X) = 0 であるから、H(X) = I(X;X) となる。従って I(X;X) ≥ I(X;Y) であり、ある確率変数は他のどんな確率変数よりも自分自身についての情報を多くもたらすという基本原理が定式化されている。

相互情報量は、2つの確率変数 XY周辺分布英語版の積 p(x) × p(y) と同時分布 p(x,y) のカルバック・ライブラー情報量で表すこともできる。

 I(X;Y) = D_{\mathrm{KL}}(p(x,y)\|p(x)p(y)).

さらに、p(x|y) = p(x, y) / p(y) とする。すると、次のようになる。


\begin{align}
I(X;Y) & {} = \sum_y p(y) \sum_x p(x|y) \log_2 \frac{p(x|y)}{p(x)} \\
& {} =  \sum_y p(y) \; D_{\mathrm{KL}}(p(x|y)\|p(x)) \\
& {} = \mathbb{E}_Y\{D_{\mathrm{KL}}(p(x|y)\|p(x))\}.
\end{align}

従って、相互情報量は、Y を与えられた時の X の条件付き分布 p(x|y) から X の確率分布 p(x) のカルバック・ライブラー情報量の期待値と解釈することもできる。p(x|y) と p(x) の分布に差があればあるほど、情報利得(カルバック・ライブラー情報量)は大きくなる。

応用[編集]

多くの場合、相互情報量を最大化させ(つまり相互依存性を強め)、条件付きエントロピーを最小化させるという方向で使われる。以下のような例がある。

参考文献[編集]

  • Cilibrasi, R.; Paul Vitányi (2005). “Clustering by compression” (PDF). IEEE Transactions on Information Theory 51 (4): 1523-1545. http://www.cwi.nl/~paulv/papers/cluster.pdf. 
  • Coombs, C. H., Dawes, R. M. & Tversky, A. (1970), Mathematical Psychology: An Elementary Introduction, Prentice-Hall, Englewood Cliffs, NJ.
  • Cronbach L. J. (1954). On the non-rational application of information measures in psychology, in H Quastler, ed., Information Theory in Psychology: Problems and Methods, Free Press, Glencoe, Illinois, pp. 14—30.
  • Kenneth Ward Church and Patrick Hanks. Word association norms, mutual information, and lexicography, Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, 1989.
  • Guiasu, Silviu (1977), Information Theory with Applications, McGraw-Hill, New York.
  • Li, Ming; Paul Vitányi (February 1997). An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. ISBN 0387948686. 
  • Lockhead G. R. (1970). Identification and the form of multidimensional discrimination space, Journal of Experimental Psychology 85(1), 1-10.
  • Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.)
  • Press, W. H., Flannery, B. P., Teukolsky, S. A. & Vetterling, W. T. (1988), Numerical Recipes in C: The Art of Scientific Computing, Cambridge University Press, Cambridge.
  • Strehl, Alexander; Joydeep Ghosh (2002). “Cluster ensembles -- a knowledge reuse framework for combining multiple partitions” (PDF). Journal of Machine Learning Research 3: 583-617. http://strehl.com/download/strehl-jmlr02.pdf. 
  • Witten, Ian H. & Frank, Eibe (2005), Data Mining: Practical Machine Learning Tools and Techniques, Morgan Kaufmann, Amsterdam.
  • Yao, Y. Y. (2003) Information-theoretic measures for knowledge discovery and data mining, in Entropy Measures, Maximum Entropy Principle and Emerging Applications , Karmeshu (ed.), Springer, pp. 115-136.
  • Peng, H.C., Long, F., and Ding, C., "Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 27, No. 8, pp.1226-1238, 2005. Program

外部リンク[編集]