基本行列 (コンピュータビジョン)

出典: フリー百科事典『ウィキペディア(Wikipedia)』

基本行列(きほんぎょうれつ、英 : essential matrixコンピュータビジョンの分野で用いられる 行列であり、カメラがピンホールカメラモデルを満たすことを仮定したステレオ画像ペア間の対応する2点の関係を表す。

概要[編集]

より具体的には、 をそれぞれ画像1と2の同次正規化画像座標とし、がシーン内の同じ3次元点に対応する場合、以下の式が成り立つ。


基本行列を定義する上記の関係は、1981年にH.クリストファー・ロンゲ・ヒギンズによって発表され、この概念がコンピュータービジョンコミュニティに紹介された。 リチャード・ハートレーアンドリュー・ジサーマンの著書では、類似の行列がもっと以前から写真測量法に登場していたと報告されている。 ロンゲ・ヒギンズの論文には、対応する正規化画像座標の組から推定するためのアルゴリズムと、が既知である場合に2台のカメラの相対的な位置と向きを決定するためのアルゴリズムが含まれている。そして最終的に、基本行列を用いて画像上の点の3次元座標を決定する方法を示している。

利用[編集]

基本行列は、基礎行列の前身とみなせる。いずれの行列も画像上の点ペア間の制約を確立できるが、基本行列は正規化を行うためにカメラの内部パラメータ(行列)を知る必要があるため、キャリブレーションされたカメラ間の関係にのみ使用できる。カメラがキャリブレーション済みである場合には、基本行列はカメラ間の相対的な位置と方向、および対応する画像上の点の3次元位置の両方を決定するために利用できる。基本行列は、基礎行列と次の関係がある。

導出と定義[編集]

ここではロンゲ・ヒギンズによる論文に従って導出を行う。

正規化済みの2つのカメラが、それぞれの画像平面に3次元世界を投影しているとする。点Pの3次元座標を各カメラの座標系に対してとする。カメラは正規化済みであるからピンホールカメラモデルが適用でき、対応する画像座標は

 と 

と表せる。

2つの画像座標の同次表現は、次の式で与えられる。

 と 

これは、

 と 

のようにコンパクトに書くこともできる。ここでは、二次元画像座標の同次表現であり、は適切な3次元座標だが、2つは異なる座標系である

正規化されたカメラのもう1つの結果は、各座標系を平行移動と回転によって関連付けられることである。これは、3次元座標の組が次のように式で関係付けられることを意味する。

ここで 回転行列、は3次元平行移動ベクトルである。

基本行列は次のように定義される。

ここで外積の行列表現である。注: ここで、変換は2番目のビューの点を1番目のビューに変換する。

の定義では、正規化された画像座標の方向のみに関心がある[1](参照 : 三重積)。そのため画像座標を基本方程式(英 : essential equation)に代入する際、平行移動成分は必要がない。このの定義が対応する2つの画像座標間の制約を表すことを確認するには、次のようにの左右から2つの異なる座標系の点Pの3次元座標かければ良い。

  1. 上で述べた間の関係と、を用いたの定義を代入。
  2. は回転行列であるから、
  3. 外積の行列表現の性質。

最後に、いずれのカメラからも見えていることから, > 0 であると想定できる。これは次の式を与える。

これは、基本行列が対応する画像上の点間で定義する制約である。

性質[編集]

すべての 行列が、何かしらのステレオカメラにとっての基本行列になるわけではない。(基本行列は1つの回転行列と1つの交代行列(いずれも 行列)の行列積として定義されていることに注意。)。交代行列は等しい2つの特異値と0であるもう1つの特異値を持つ。回転行列の乗算は特異値を変えない。これは、基本行列もまた等しい2つの特異値と0であるもう1つの特異値をもつことを意味する。この性質は、しばしば基本行列の内部制約(英 : internal constraints)と呼ばれる。

基本行列にゼロ以外のスカラーを掛けても、その結果はと全く同じ制約を与える基本行列となる。これは射影空間の元とみなせることを意味する。すなわち、一方が他方のゼロ以外のスカラー倍である場合、2つの行列は等価とみなされる。これは、例えばが画像データから推定される場合の適切な考え方である。一方、を次のように定義することも考えられる。

ここで、であり、このときwell-definedな「スケーリング」を持つ。どちらの考え方がより適切かは、その利用場面によって異なる。

制約は、次のようにも表せる。

また、

ここで、最後の式は行列制約で、各行列要素に1つずつ、9つの制約とみなせる。これらの制約は、5組の対応する点のペアから基本行列を決定するためによく用いられる。

基本行列には、射影要素として表示されるかどうかに応じて、5つまたは6つの自由度がある。回転行列と平行移動ベクトルにはそれぞれ 3 つの自由度があり、合計で6つである。一方で基本行列を射影要素とみなす場合は、スカラー倍に関連する1つの自由度を差し引く必要があり、計5つの自由度となる。

推定[編集]

対応する画像上の点のセットが与えられると、セット内のすべての点について定義されるエピポーラ制約を満たす基本行列を推定できる。ただし、(実際の状況ではよくあることだが)画像点がノイズの影響を受ける場合、すべての制約を正確に満たす基本行列を見つけることはできない。

各制約に関連する誤差がどのように測定されるかに応じて、対応する画像上の点の特定のセットの制約を最適に満たす基本行列を決定または推定できる。最も簡単なアプローチは、一般に8点アルゴリズムとして知られる最小二乗問題を設定することである。

回転と平行移動の抽出[編集]

上記の推定方法などによりステレオカメラペアの基本行列が分かっている場合、この情報を用いて2つのカメラ座標系間の回転行列と平行移動(スケーリングを含む)も決定できる。これらの導出においてはwell-definedに決定されたスケーリングを持つというよりは射影要素であるとみなされる。

1つの解を見つける[編集]

を決定する次の方法は、特異値分解に基づく(ハートレーとジサーマンの本を参照)。 [2]特異値分解を用いずにを決定することもできる(ロンゲ・ヒギンズの論文等)。

に対して特異値分解を実行すると次が得られる。

ここでの直行行列で、は次のようなの対角行列である。

の対角要素はの特異値であり、基本行列の内部制約に従い等しい2つの値と1つのゼロ値で構成される必要がある。また、次を定義する。

 と 

そして、次のアンザッツを設定する。

実際のカメラ画像などのデータを扱う場合、は制約を完全には満たさない可能性があるため、代わりに次を用いると役立つ場合がある。

 と 

証明[編集]

第一に、を表現している式は、以下より、基本行列の定義式を満たす。

第二に、このがあるの外積の行列表現であることを示さなければならない。まず、

であるから、は交代行列、すなわち である。これは次のようにについても同様に当てはまる。

外積の行列表現の一般的な性質によれば、はただ1つのベクトルの外積演算子でなければならない。

第三に、が回転行列であることも示す必要がある。は3つの直交行列の積である。従ってもまた直交し、である。回転行列であるためには、でなければならないが、ここではは射影要素とみなされているため、必要であればの符号を反転することで実現できる。

すべての解を見つける[編集]

ここまでで、が与えられた場合にの1つの可能な解を求める手段が確立されている。しかし、これは唯一の可能な解ではなく、実用の観点からは有効な解でない可能性さえある。まず、のスケーリングが定義されていないため、のスケーリングも定義されていない。次の式が成り立つため、これは零空間にある必要がある。

しかしこの後の解の分析のためにはの厳密なスケーリングは、その「符号」、つまりどの方向を指しているかほど重要ではない。の零空間で正規化されたベクトルとする。このときの両方がに対して有効な平行移動ベクトルになる。上で述べたの導出では、に変更することもできる。この変更は、平行移動ベクトルに対しては符号の変更のみを起こす。これについては可能性として既に説明した。一方で回転に対しては、少なくとも一般的なケースでは、これは異なる変換を生成する。

要約すると、与えられたには、に対して可能な2つの正反対な方向があり、この基本行列に準じた2つの異なる回転がある。これにより、2つのカメラ座標系間の回転と平行移動に対して計4つの解のクラスが得られる。その上、選択された平行移動方向の未知のスケーリング も存在する。

ただし、4つの解のクラスのうち、実際に実現できるのは1つだけである。対応する画像座標のペアが与えられたとき、3つの解のクラスは常に2つのカメラのうち少なくとも1つの後方に3次元点を生成してしまいカメラから見ることができない。4つのクラスのうちの1つだけが、常に両方のカメラの前方に3次元点を生成する。これが正しい解であるはずである。ただしそれでも、平行移動成分に関する未定の正のスケーリングがある。

上記のの決定はが基本行列の内部制約を満たすことを前提としている。これが当てはまらない場合、典型的には例えばが実際の(ノイズの多い)画像データから推定されている場合には、内部制約をほぼ満たしていると想定する必要がある。ベクトルは、最小の特異値に対応するの右特異ベクトルとして選択される。

対応する画像上の点からの3次元点[編集]

対応する正規化された画像座標が与えられた場合、基本行列が既知であり対応する回転および平行移動が決定されていれば、を計算する多くの方法が存在する。

関連項目[編集]

ツール[編集]

外部リンク[編集]

参考文献[編集]

  1. ^ Photogrammetric Computer Vision: Statistics, Geometry, Orientation and Reconstruction (1st ed.) 
  2. ^ Hartley, Richard; Andrew Zisserman (2004). Multiple view geometry in computer vision (2nd ed.). Cambridge, UK. ISBN 978-0-511-18711-7. OCLC 171123855 
  • David Nistér (June 2004). “An efficient solution to the five-point relative pose problem”. IEEE Transactions on Pattern Analysis and Machine Intelligence 26 (6): 756–777. doi:10.1109/TPAMI.2004.17. PMID 18579936. 
  • H. Stewénius and C. Engels and D. Nistér (June 2006). “Recent Developments on Direct Relative Orientation”. ISPRS Journal of Photogrammetry and Remote Sensing 60 (4): 284–294. Bibcode2006JPRS...60..284S. doi:10.1016/j.isprsjprs.2006.03.005. 
  • H. Christopher Longuet-Higgins (September 1981). “A computer algorithm for reconstructing a scene from two projections”. Nature 293 (5828): 133–135. Bibcode1981Natur.293..133L. doi:10.1038/293133a0. 
  • Richard Hartley and Andrew Zisserman (2003). Multiple View Geometry in computer vision. Cambridge University Press. ISBN 978-0-521-54051-3 
  • Yi Ma; Stefano Soatto; Jana Košecká; S. Shankar Sastry (2004). An Invitation to 3-D Vision. Springer. ISBN 978-0-387-00893-6 
  • Gang Xu and Zhengyou Zhang (1996). Epipolar geometry in Stereo, Motion and Object Recognition. Kluwer Academic Publishers. ISBN 978-0-7923-4199-4 
  • Förstner, Wolfgang and Wrobel, Bernhard P. (2016). Photogrammetric Computer Vision: Statistics, Geometry, Orientation and Reconstruction (1st ed.). Springer Publishing Company, Incorporated. ISBN 3319115499