最小記述長
最小記述長(さいしょうきじゅつちょう)は、情報理論に基づくモデル選択基準である。MDL (minimum description length)。
モデル選択とは、一連のデータをモデル(1つの数式)で説明するのに、どのようなモデルが適切かを考えることである。誤差が少ないモデルが好ましいのは当然だが、たとえばモデルとして多項式を使うなら、次数を増やせば誤差が減るのは当たり前であり、次数が違うモデル同士を比べるには工夫が必要になる。
MDLは、1978年、Jorma Rissanen により導入された。MDLでは、モデルの情報量で決まる符号長が最小であるモデルが、データの説明として最適であるとする。このモデルの符号長をMDLという。
MDLはモデルの最大尤度 L 、データ数 n、モデル次数(自由パラメータの数) k から
で得られる。
MDLは (AICと違い) 離散データを扱う情報理論に基盤を置いているので、連続値データに対し使うときは注意を要する。
AIC・BICとの比較
MDLは、G. Schwartz がベイズ理論から導出したベイズ情報量規準 (BIC) のちょうど半分であり、MDL原理はBIC最小化と同じである。
赤池情報量基準 (AIC) は第2項(いわゆるペナルティ項)がBICより小さい。そのため、MDL (BIC) はAICよりモデル次数を少なく見積もる傾向がある。AICとMDL (BIC) は立脚している仮定が違うので、対象とするデータやモデルの性質に応じどちらを使うかを慎重に決める必要がある。