ワッサースタイン計量

ワッサースタイン計量（ワッサースタインけいりょう、英: Wasserstein metric）とは、与えられた距離空間 M上の確率分布の間に定義される距離函数である。

直感的な説明としては、各分布をM上に堆積した土の単位量と見なすとき、ワッサースタイン計量とは一つの堆積を別の物へと移すときにかかる最小のコストである。そのようなコストは、移されるべき土の量に移す距離を掛けた値であるとされる。このアナロジーに従い、この計量は計算機科学の分野においてEMD（英語版）（earth mover's distance）として知られている。

「ワッサースタイン計量」という名前は、この概念を1969年に導入したロシアの数学者レオニード・ワッサースタイン（英語版）の名にちなみ、1970年にローランド・ドブルシン（英語版）によって付けられた。多くの英語の出版物においてはドイツ語のスペル "Wasserstein" が用いられている（これは、"Vasershtein" という名がドイツに起源を持つことに起因している）。

定義[編集]

(M, d) を、M上のすべての確率測度がラドン測度であるような距離空間（いわゆるラドン空間）とする。p ≥ 1 に対し、有限p次モーメントを備えるM上のすべての確率測度μの系を P_p(M) で表す。すなわち、そのようなμはM内のあるx₀ に対して

\int _{M}d(x,x_{0})^{p}\,\mathrm {d} \mu (x)<+\infty

を満たすようなものである。このとき、P_p(M) に含まれる二つの確率測度μとνの間のワッサースタイン計量（ワッサースタイン距離）は、

W_{p}(\mu ,\nu ):=\left(\inf _{\gamma \in \Gamma (\mu ,\nu )}\int _{M\times M}d(x,y)^{p}\,\mathrm {d} \gamma (x,y)\right)^{1/p}

で定義される。ここで Γ(μ, ν) は第一変数と第二変数にそれぞれ周辺分布μとνを備えるM × M上のすべての測度の系を表す。集合 Γ(μ, ν) はμとνのすべてのカップリングからなる集合とも呼ばれる。

上述の距離は通常 W_p(μ, ν) （"Wasserstein"という綴りより）、あるいは ℓ_p(μ, ν) （"Vasershtein"という綴りより）の記号によって表される。この記事の残りの部分ではW_pを使用する。

ワッサースタイン計量には、次のような同値な定義も存在する。

W_{p}(\mu ,\nu )^{p}=\inf \mathbf {E} {\big [}d(X,Y)^{p}{\big ]}.

ここで E[Z] は確率変数Zの期待値を表し、下限はそれぞれ周辺分布μ とνを備える確率変数XとYのすべての結合分布に対して取られる。

応用[編集]

ワッサースタイン計量は、一つの変数がもう一方の（確率論的あるいは決定論的に）非一様な小さい摂動によって得られるような、二つの変数 X と Y の確率分布を比較する際に自然に用いられる。

例えば計算機科学の分野においては、二つのデジタル画像の色ヒストグラム（英語版）といった離散分布を比較する際に、ワッサースタイン計量 W₁ が広く用いられている。詳細についてはEMD（英語版）を参照されたい。

性質[編集]

距離構造[編集]

W_p は、P_p(M) 上の距離の公理をすべて満たすことが示される。さらに、W_p についての収束は、通常の測度の弱収束（英語版）に初めの p 次モーメント収束を加えたものと同値である。

W₁ の双対表現[編集]

次に挙げる W₁ の双対表現は、カントロヴィチとルビンスタインの双対定理（1958年）の特別な場合である：μ と ν が有界な台を持つとき、

W_{1}(\mu ,\nu )=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\right|{\mbox{continuous }}f:M\to \mathbb {R} ,\mathrm {Lip} (f)\leq 1\right\}

が成立する。ここで Lip(f) は f に関する最小のリプシッツ定数を表す。

これを、ラドン計量の定義と比較する：

\rho (\mu ,\nu ):=\sup \left\{\left.\int _{M}f(x)\,\mathrm {d} (\mu -\nu )(x)\right|{\mbox{continuous }}f:M\to [-1,1]\right\}.

もし計量 d がある定数 C によって抑えられているなら、

2W_{1}(\mu ,\nu )\leq C\rho (\mu ,\nu )

が得られる。したがって、ラドン計量における収束（M がポーランド空間であるときの全変動収束に等しい）は、ワッサースタイン計量における収束を意味する。しかしその逆は一般には成り立たない。

可分性と完備性[編集]

任意の p ≥ 1 に対し、計量空間 (P_p(M), W_p) が可分および完備であるための十分条件は、(M, d) が可分および完備であることである。

参考文献[編集]

Ambrosio, L., Gigli, N. & Savaré, G. (2005). Gradient Flows in Metric Spaces and in the Space of Probability Measures. Basel: ETH Zürich, Birkhäuser Verlag. ISBN 3-7643-2428-7
Jordan, Richard; Kinderlehrer, David and Otto, Felix (1998). “The variational formulation of the Fokker-Planck equation”. SIAM J. Math. Anal. 29 (1): 1–17 (electronic). doi:10.1137/S0036141096303359. ISSN 0036-1410. MR1617171.
Rüschendorf, L. (2001), “Wasserstein metric”, in Hazewinkel, Michiel, Encyclopedia of Mathematics, Springer, ISBN 978-1-55608-010-4