分配函数 (数学)

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

確率論情報科学力学系で使用されている分配函数(partition function)は、統計力学で定義されている分配函数の一般化である。確率論では、正規化された値の分配函数が、ボルツマン分布である。分配函数は、多くの概念と互いに固く結び付いて、様々な種類の量を計算することが可能な一般的なフレームワークを提供する。特に、分配函数はどのように期待値グリーン函数を計算するのかを示していて、フレドホルム理論への橋渡しともなっている。

複素射影空間英語版射影ヒルベルト空間英語版上の確率変数の設定が、フビニ・スタディ計量を持つよう幾何学化されると、量子力学の理論や、より一般的には場の量子論を結果としてもたらす。これらの理論での分配函数は、経路積分定式化により非常に優れた開発がなされ、大きく成功している。そこでは、本記事でレビューする多くの公式とほぼ同じ公式を導くことができる。しかしながら、基礎となっている測度空間は、確率論では実数に値をとり単純であったことに対し、(量子力学や場の理論の中では)複素数に値をとり、多くの公式の中に余剰なファクタである i が現れる。このファクタを追跡することは困難であるので、ここでは行わない。本記事では、はじめに確率の総和が 1 である古典的な確率論へ焦点を当てる。

別な話題として、分配函数は、情報理論への自然な情報幾何学英語版的アプローチを可能とする。そこの分野では、フィッシャー情報計量英語版(Fisher information metric)を分配函数から導出された相関函数であると理解できる。情報幾何学では、リーマン多様体を定義するということが起きる。

確率論では、多くの問題の中に分配函数が発生する。自然な対称性を持つ状況下では、状況に付帯する確率測度であるギッブス測度英語版(Gibbs measure)はマルコフ性を持つ。このことは、分配函数が遷移的な対称性を持つ場合にのみ発生することを意味している。しかし、そのような変化する状況下では、神経ネットワーク(ホップフィールド・ネットワーク(Hopfield network))やゲノミクスコーパス言語学人工知能などの分野への応用があり、マルコフネットワーク英語版(Markov network)やマルコフ論理ネットワーク英語版(Markov logic network)という考え方がある。ギッブス測度は、固定されたエネルギー期待値のエントロピーを最大とする性質を持つ唯一の測度でもある。最大エントロピー原理や、これから得られたアルゴリズムの中に分配函数が現れることが、これらの背景となっている。

定義[編集]

x_i をとる 確率変数 X_i の組みと、あるポテンシャル函数、あるいはあるハミルトニアン H(x_1,x_2,\dots) が与えられると、分配函数は次のように定義される。

Z(\beta) = \sum_{x_i} \exp \left(-\beta H(x_1,x_2,\dots) \right)

函数 H は状態の空間 \{X_1,X_2,\cdots\} の上の実数に値を持つ函数であり、\beta は実数に値を取る自由なパラメータ(伝統的には逆温度)である。x_i の和は、各々の確率変数 X_i が取りうる全ての可能な値を渡る和である。このように、和は X_i が離散的ではなく連続函数のときには、積分によって与えられることとなる。従って、連続的に変化する X_i の場合は、

Z(\beta) = \int \exp \left(-\beta H(x_1,x_2,\dots) \right) dx_1 dx_2 \cdots.

となる。

H が有限次元の行列や無限次元のヒルベルト空間上の作用素C*-環のような観測可能量のとき、トレースとして表すことが一般的であるので、

Z(\beta) = \mbox{tr}\left(\exp\left(-\beta H\right)\right)

と表す。H が無限次元のときにも、上記の記述が意味を持つには、アーギュメントがトレースクラス、つまり和が存在して有界であるような形をしている必要がある。

確率変数 X_i の個数は可算である必要はなく、その場合には和が汎函数積分英語版に置き換わる。汎函数積分には多くの記法があるが、一般的な書き方をすると

Z = \int \mathcal{D} \phi \exp \left(- \beta H[\phi] \right)

となる。

これは場の量子論の分配函数である。

一般的に、分配函数を変形するには、補助函数を導入することが必要となる。このことは、分配函数を場の量子論の相関函数母函数として使うことの例を与える。この詳細は以下で議論する。

パラメータ β[編集]

パラメータ \beta の役割と意味は、様々に理解される。古典熱力学では、\beta逆温度である。さらに一般的には、確率変数 X を持つ函数の共役変数 (熱力学)英語版である。ここでの共役とは、ラグランジュ力学での一般化座標系の共役という意味であり、特に \betaラグランジュの未定乗数と言う。\beta のことを、一般化された力英語版(generalized force)と言うこともある。一般に、この考え方は、複数の変数が複雑な方法で相互に関連づけられて変化するとき、ある変数を一つだけ取り出し、その変数がある値に固定されるようにして考える考え方である。今の場合には、たとえ多くの異なる確率分布が、(たまたま)ある固定された値に一致することがあったとしても、固定された値は函数 H期待値になるようにする。

一般の場合には、確率変数 X_i に依存する函数 \{H_k(x_1,\cdots)\} の集合を考える。これらの函数は、何らかの理由で期待値が定数として保持されるよう選択する。この方法では期待値を固定するため、ラグランジュの未定乗数法を使い、エントロピー最大原理により、ものごとがどのようになるかを決定する。

いくつかの具体例を順番に述べる。基本的な熱力学の問題では、カノニカル分布を使うとき、まさにパラメータ \beta を使う。この使い方は、自由エネルギー英語版(free energy)(エネルギー保存則のおかげで)を定数として保持されべきものこそが期待値であるという事実の反映である。化学反応を扱う化学の問題では、グランドカノニカル分布が適切な基礎をもたらす。そこには 2つのラグランジュ未定乗数が存在する。一つはエネルギーを定数とする(保存量とする)方法で、もうひとつはフガシティーの方法で、この方法は粒子数を保存量とする方法である(化学反応が原子の数を固定することを考えると)。

一般的な場合は、下記のようになる。

Z(\beta) = \sum_{x_i} \exp \left(-\sum_k\beta_k H_k(x_i) \right).

ここの \beta=(\beta_1, \beta_2,\cdots) は空間の点である。

観測可能量 H_k の集合に対し、

Z(\beta) = \mbox{tr}\left[\,\exp \left(-\sum_k\beta_k H_k\right)\right]

と書く。前述のように、 tr の引数はトレースクラスの議論を前提としている。

従って、対応するギッブス測度英語版は各々の H_k の期待値が一定値であるような確率分布をもたらす。さらに詳しくは、

\frac{\partial}{\partial \beta_k} \left(- \log Z \right) = \langle H_k\rangle = \mathrm{E}\left[H_k\right]

となり、この引数のブラケット \langle H_k \rangleH_k の期待値を表し、\mathrm{E}[\;] は期待値を表す別の記法である。期待値の定義の詳細は、下記で与えられる。

\beta の値は、普通、実数である。しかし一般には必ずしも実数である必要はない。このことは以下の正規化のセクションで議論する。\beta の値はある空間の座標と解釈され、この空間は以下でスケッチするように実際、多様体である。この空間の多様体としての研究は、情報幾何学英語版の分野へも寄与している。

対称性[編集]

ポテンシャル函数自身は、普通は次の和の形を取る。

H(x_1,x_2,\dots) = \sum_s V(s)

ここに s 上の和は、集合 X=\lbrace x_1,x_2,\dots \rbraceべき集合 P(X) の部分集合を渡る和を取る。例えば、イジングモデル(Ising model)のような統計力学では、和は最も近くのペアを渡る和を取る。マルコフネットワーク英語版(Markov networks)のような確率論では、和はグラフのクリーク(cliques)を渡る和をとることになる。従って、イジングモデルや他の格子モデル英語版(lattice model)では、最大クリークとして辺(edges)を取ることとなる。

ポテンシャル函数を和として書くことができるという事実は、普通、変換不変性英語版(translational invariance)のような群対称性による作用で不変であるという事実を反映する。対称性は離散的か連続的かであり、(以下で議論する)ランダム変数の相関函数の中に実現されている。このようにハミルトニアンの中の対称性は、相関函数の対称性となり、逆に相関函数の対称性はハミルトニアンの中の対称性となる。

対称性は確率論で極めて重要な解釈を持っている。この対称性とは、ギッブス測度英語版マルコフ性(Markov property)を持っていることである。すなわち、ここでは対称性が確率変数と独立であることを意味する。同じことだが、測度は対称性の同値類の上で同一視することができる。このことから、ホップフィールド・ネットワークのようなマルコフ性をもった問題では、分配函数が広く現れてくることになる。

測度として[編集]

\exp \left(-\beta H(x_1,x_2,\dots) \right)

の値は、系の中で値 (x_1,x_2,\dots) を取る特定の構成空間(configuration space)の近傍と解釈することができる。従って、特定の構成 (x_1,x_2,\dots) が与えられると、

P(x_1,x_2,\dots) = \frac{1}{Z(\beta)} \exp \left(-\beta H(x_1,x_2,\dots) \right)

は、系で発生する構成 (x_1,x_2,\dots)確率密度函数であり、ここで 0\le P(x_1,x_2,\dots)\le 1 となるように正規化すると、すべての構成の和を取ると結果が 1 となる。このようにして、分配函数は確率空間上に、測度(正確には、確率測度)をもたらすことが分かる。形式的には、この測度をギップス測度英語版(Gibbs measure)と呼ぶ。統計力学では、ギッブス測度がグランドカノニカル集団カノニカル集団の上へ一般化される。

少なくとの一つは構成 (x_1,x_2,\dots) が確率を最大とするものとして存在する。この構成は、便宜上、基底状態と呼ばれる。構成が一意的であれば、基底状態は非退化(non-degenerate)と言われ、系はエルゴード的英語版と呼ぶ。そうでない場合の基底状態を退化していると呼ばれ、基底状態は、対称性の生成子と可換かもしれないし、非可換かもしれない。可換であれば、不変測度と呼ばれる。非可換の場合は、対称性が自発的に対称性が破れていると呼ばれる。

基底状態が一意に存在する条件は、カルーシュ・キューン・タッカー条件(Karush–Kuhn–Tucker conditions)によって与えられる。これらの条件は、ギッブス測度を使い、最大エントロピー問題で評価される。

正規化(Normalization)[編集]

\beta の取る値は、ランダムに場が変動する数学的な空間に依存している。従って、実数に値を取るランダムな場は、単体[1]に値を持つ。このことは、確率の和が 1 とすることが可能なであることを幾何学的に言っている。量子力学では、複素射影空間英語版(あるいは複素数値射影ヒルベルト空間英語版)の上の確率変数の振幅は、確率振幅英語版と解釈される。ここで強調したいことは、「射影的」という単語で、振幅として 1 へ正規化されている。ポテンシャル函数の正規化は、適当な数学的空間のヤコビ行列(Jacobian)である。通常の確率では 1 であり、ヒルベルト空間では i である。場の量子論では、-\beta H というよりもむしろ指数として -it H とする。分配函数は場の量子論の経路積分による定式化で非常に多く研究開発され、大きな成果を収めている。場の理論は、一般的な方法というよりも 4次元時空の上で定式化するという違いこそあるものの、上記で提示したものと非常に似通っている。

期待値[編集]

分配函数は、共通にランダム変数の様々な函数の期待値母函数として使われる。従って、例えば、\beta を調整パラメータとしてとることは、\beta に関しての \log(Z(\beta)) の微分をとることになり、

\bold{E}[H] = \langle H \rangle = -\frac {\partial \log(Z(\beta))} {\partial \beta}

は H の平均値(期待値)を与える。物理では、これは系の平均エネルギーと呼ばれる。

上記の確率測度の定義が与えられると、ランダム変数 X の任意の函数 f の期待値は、予想通りに書き表される。また、離散的な値 X に対しては、

\begin{align}
\langle f\rangle 
& = \sum_{x_i} f(x_1,x_2,\dots) P(x_1,x_2,\dots) \\
& = \frac{1}{Z(\beta)} \sum_{x_i} f(x_1,x_2,\dots) \exp \left(-\beta H(x_1,x_2,\dots) \right)
\end{align}

と表す。

上の記法は、有限個の離散的な確率変数に対しては厳密で正しいが、連続変数に対してはいくらか「非公式」に見えるかもしれない。特に、上の和は確率空間を定義することに使う、基礎となるシグマ代数に置き換わる必要がある。測度空間の上で個別に定式化されたとき、等式が保持されることを言っている。

このようにして、例えば、エントロピーは次の式で与えられる。

\begin{align} S
& = -k_B \langle\ln P\rangle \\
& = -k_B\sum_{x_i} P(x_1,x_2,\dots) \ln P(x_1,x_2,\dots) \\
& = k_B(\beta \langle H\rangle + \log Z(\beta))
\end{align}

ギッブス測度は、一意な統計分布であり、固定したエネルギー値に対してエントロピーを最大化する。この基礎には最大エントロピー原理が使われる。

情報幾何学[編集]

\beta は空間を形成すると解釈され、特にこの空間は多様体となる。この多様体はどのような構造を持つかという疑問が当然に起きる。これを情報幾何学英語版という。

ラグランジュ未定乗数に関する多重微分は、半正定値の分散共分散行列を引き起こす。

g_{ij}(\beta) = \frac{\partial^2}{\partial \beta^i\partial \beta^j} \left(-\log Z(\beta)\right) = 
\langle \left(H_i-\langle H_i\rangle\right)\left( H_j-\langle H_j\right)\rangle

この行列は半正定値行列で、計量テンソルと解釈され、リーマン計量と見なせる。このことにより、上記の方法で計量を持つラグランジュ未定乗数の空間は、リーマン多様体となることが分かる。[2] この多様体の研究は「情報幾何学」と呼ばれ、上記の計量はフィッシャー情報計量英語版と呼ばれる。上記では \beta は多様体上の座標である。上記の定義と、これに動機付けられた単純化されたフィッシャー情報とを比較することは面白いことかもしれない。

上記がフィッシャー情報計量を定義することは、期待値を明示的に代入することにより容易に理解することができる。

\begin{align} g_{ij}(\beta) 
& = \langle \left(H_i-\langle H_i\rangle\right)\left( H_j-\langle H_j\right)\rangle \\
& = \sum_{x} P(x) \left(H_i-\langle H_i\rangle\right)\left( H_j-\langle H_j\rangle\right) \\
& = \sum_{x} P(x)
\left(H_i + \frac{\partial\log Z}{\partial \beta_i}\right)
\left(H_j + \frac{\partial\log Z}{\partial \beta_j}\right)
\\
& = \sum_{x} P(x)
\frac{\partial \log P(x)}{\partial \beta^i}
\frac{\partial \log P(x)}{\partial \beta^j} \\
\end{align}

ここに、P(x_1,x_2,\dots)P(x) と記すことして、和は確率変数 X_k のすべてを渡るものとする。もちろん、連続した値をとる確率変数に対して、和は積分に置き換わる。

奇妙なことに、フィッシャー情報計量ついての主要な記事[3]に記載されているように、適当に変数変換した後ではフィッシャー情報計量英語版は、平坦なユークリッド計量として理解することもできる。\beta が複素数であるときには、結果として現れる計量はフビニ・スタディ計量である。純粋状態に代って、混合状態で書くときは、ビュレス計量英語版として知られている。

相関函数[編集]

人工的に適当な函数 J_k を分配函数に導入すると、確率変数の期待値を得ることができる。このようにすると、例えば、

\begin{align} Z(\beta,J) 
& = Z(\beta,J_1,J_2,\dots) \\
& = \sum_{x_i} \exp \left(-\beta H(x_1,x_2,\dots) +
\sum_n J_n x_n
\right)
\end{align}

と書き直すことにより、

\bold{E}[x_k] = \langle x_k \rangle = \left.
\frac{\partial}{\partial J_k}
\log Z(\beta,J)\right|_{J=0}

x_k の期待値として得ることができる。場の量子論経路積分による定式化では、これらの任意函数は、みな共通にソース場英語版の影響を受ける。

多重微分は、確率変数の相関函数を導く。このようにして変数 x_jx_k の間の相関函数は、次の式で与えられる。

C(x_j,x_k) = \left.
\frac{\partial}{\partial J_j}
\frac{\partial}{\partial J_k}
\log Z(\beta,J)\right|_{J=0}

H微分作用素を持つ二次形式として書くことができる場合には、つまり次の式で書くことができる場合には、

H = \frac{1}{2} \sum_n x_n D x_n

相関函数 C(x_j,x_k) は微分作用素(さらにフレドホルム理論となる)のグリーン函数であることと理解できる。場の量子論の設定では、この函数をプロパゲータ(propagator)と言う。より高次のオーダーの相関は、n-点函数と呼ばれ、理論の有効作用英語版(effective action)の定義に使われる。

一般的性質[編集]

分配函数は、臨界指数普遍性 (力学系)英語版を議論する際に使用され、繰り込み群の主題でもある。

関連項目[編集]

脚注[編集]

  1. ^ ここは、日本語版の「単体」の説明と英語版の"simplex"の説明は異なっています。本パラグラフ”正規化”(normalization)の説明には、英語版を参照ください。
  2. ^ Gavin E. Crooks, "Measuring thermodynamic length" (2007) 参照
  3. ^ Fisher information metricを参照

参考文献[編集]

  • Gavin E. Crooks, "Measuring thermodynamic length" (2007), ArXiv 0706.0559