ワッサースタイン計量

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索

数学の分野におけるワッサースタイン計量(ワッサースタインけいりょう、: Wasserstein metric)とは、与えられた距離空間 M 上の確率分布の間に定義される距離函数である。

直感的に、M 上に堆積した「汚れ」の単位量として各分布を見なすとき、ワッサースタイン計量とは、一つの堆積を別の物へと移すときにかかる「コスト」の最小である。そのようなコストは、移されるべき汚れの量に、移す距離を掛けた値であるとされる。このアナロジーに従い、この計量は計算機科学の分野においてEMD英語版(earth mover's distance)として知られている。

「ワッサースタイン計量」という名前は、この概念を1969年に導入したロシア数学者レオニード・ワッサースタイン英語版の名にちなみ、1970年にローランド・ドブルシン英語版によって付けられた。多くの英語の出版物においてはドイツ語のスペル "Wasserstein" が用いられている(これは、"Vasershtein" という名がドイツに起源を持つことに起因している)。

定義[編集]

(Md) を、M 上のすべての確率測度がラドン測度であるような距離空間(いわゆるラドン空間)とする。p ≥ 1 に対し、有限 p 次モーメントを備える M 上のすべての確率測度 μ の系を Pp(M) で表す。すなわち、そのような μM 内のある x0 に対して

\int_{M} d(x, x_{0})^{p} \, \mathrm{d} \mu (x) < +\infty

を満たすようなものである。このとき、Pp(M) に含まれる二つの確率測度 μν の間のワッサースタイン計量(ワッサースタイン距離)は、

W_{p} (\mu, \nu):=\left( \inf_{\gamma \in \Gamma (\mu, \nu)} \int_{M \times M} d(x, y)^{p} \, \mathrm{d} \gamma (x, y) \right)^{1/p}

で定義される。ここで Γ(μν) は第一変数と第二変数にそれぞれ周辺 μν を備える M × M 上のすべての測度の系を表す(集合 Γ(μν) はまた μν のすべてのカップリングからなる集合とも呼ばれる)。

上述の距離は通常 Wp(μν) ("Wasserstein" の綴りを好む研究者によって)、あるいは ℓp(μν) ("Vasershtein" の綴りを好む研究者によって)の記号によって表される。この記事の残りの部分では Wp を使用する。

ワッサースタイン計量には、次のような同値な定義も存在する。

W_{p} (\mu, \nu)^{p} = \inf \mathbf{E} \big[ d( X , Y )^{p} \big].

ここで E[Z] は確率変数 Z期待値を表し、下限はそれぞれ周辺 μν を備える確率変数 XY のすべての結合分布に対して取られる。

応用[編集]

ワッサースタイン計量は、一つの変数がもう一方の(確率論的あるいは決定論的に)非一様な小さい摂動によって得られるような、二つの変数 XY の確率分布を比較する際に自然に用いられる。

例えば計算機科学の分野においては、二つのデジタル画像色ヒストグラム英語版といった離散分布を比較する際に、ワッサースタイン計量 W1 が広く用いられている。詳細についてはEMD英語版を参照されたい。

性質[編集]

距離構造[編集]

Wp は、Pp(M) 上の距離公理をすべて満たすことが示される。さらに、Wp についての収束は、通常の測度の弱収束英語版に初めの p 次モーメント収束を加えたものと同値である。

W1 の双対表現[編集]

次に挙げる W1 の双対表現は、カントロヴィチとルビンスタインの双対定理(1958年)の特別な場合である:μν有界を持つとき、

W_{1} (\mu, \nu) = \sup \left\{ \left. \int_{M} f(x) \, \mathrm{d} (\mu - \nu) (x) \right| \mbox{continuous } f : M \to \mathbb{R}, \mathrm{Lip} (f) \leq 1 \right\}

が成立する。ここで Lip(f) は f に関する最小のリプシッツ定数を表す。

これを、ラドン計量の定義と比較する:

\rho (\mu, \nu) := \sup \left\{ \left. \int_{M} f(x) \, \mathrm{d} (\mu - \nu) (x) \right| \mbox{continuous } f : M \to [-1, 1] \right\}.

もし計量 d がある定数 C によって抑えられているなら、

2 W_{1} (\mu, \nu) \leq C \rho (\mu, \nu)

が得られる。したがって、ラドン計量における収束(Mポーランド空間であるときの全変動収束に等しい)は、ワッサースタイン計量における収束を意味する。しかしその逆は一般には成り立たない。

可分性と完備性[編集]

任意の p ≥ 1 に対し、計量空間 (Pp(M), Wp) が可分および完備であるための十分条件は、(M, d) が可分および完備であることである。

関連項目[編集]

参考文献[編集]