モーションエスティメーション

モーションエスティメーション（英語: Motion estimation）は、ある2D画像から別の2D画像への変換を表す動きベクトルを決定するプロセス。通常、ビデオシーケンス内の隣接するフレームから。モーションは3次元であるため、これは不適切な問題で、画像は3Dシーンを2D平面に投影したものである。動きベクトルは、画像全体（グローバルモーション推定）または長方形のブロック、任意の形状のパッチ、さらにはピクセルごとなどの特定の部分に関連する場合がある。モーションベクトルは、3次元すべてでの回転や平行移動、ズームなど、実際のビデオカメラのモーションを近似できる並進モデルまたは他の多くのモデルで表すことができる。

アルゴリズム[編集]

運動ベクトルを見つけるための方法は、ピクセルベースの方法（「直接」）と特徴ベースの方法（「間接」）に分類することができる。有名な討論の結果、対立する派閥から2つの論文が作成され、結論を確立しようとした^[2]^[3]。

直接法[編集]

ブロックマッチングアルゴリズム（英語版）
位相相関（英語版）法と周波数領域法
ピクセル再帰アルゴリズム
オプティカルフロー

間接的な方法[編集]

間接的な方法では、コーナー検出などの機能を使用し、フレーム間で対応する機能を照合する。通常は、ローカルまたはグローバル領域に統計関数を適用します。統計関数の目的は、実際の動きに対応しない一致を削除することである。

正常に使用された統計関数には、RANSAC（英語版）が含まれる。

分類に関する追加の注記[編集]

ほとんどすべての方法は、一致基準のある種の定義を必要であると主張できる。違いは、最初にローカル画像領域を要約してから、要約を比較するかどうかだけである（機能ベースの方法など）。または、最初に各ピクセルを比較し（差の二乗など）、次にローカル画像領域で要約する（ブロックベースモーションとフィルターベースモーション）。新たなタイプの一致基準は、最初にすべてのピクセル位置に対してローカル画像領域を要約し（ラプラス変換などのいくつかの特徴変換を介して）、要約された各ピクセルを比較し、ローカル画像領域を再度要約する^[4]。一部の一致基準には、良好な一致スコアを生成しているにもかかわらず実際には互いに対応していないポイントを除外する機能があり、他の一致基準にはこの機能がないが、それらは依然として一致基準である。

アプリケーション[編集]

ビデオコーディング[編集]

動きベクトルを画像に適用して次の画像への変換を合成することを動き補償と呼ぶ^[5]。コーディングはブロックで実行されるため、離散コサイン変換（DCT）ベースのビデオコーディングフォーマット（英語版）に最も簡単に適用する^[6]。

時間的冗長性を活用する方法として、モーションの推定と補正はビデオ圧縮の重要な部分である。ほとんどすべてのビデオコーディング規格は、最新のHEVCを含むMPEGシリーズなどのブロックベースのモーション推定と補正を使用している。

3D再構成[編集]

同時ローカリゼーションとマッピングでは、シーンの3Dモデルが、移動するカメラからの画像を使用して再構築される^[7]。

脚注[編集]

^ John X. Liu (2006). Computer Vision and Robotics. Nova Publishers. ISBN 978-1-59454-357-9
^ Philip H.S. Torr and Andrew Zisserman: Feature Based Methods for Structure and Motion Estimation, ICCV Workshop on Vision Algorithms, pages 278-294, 1999
^ Michal Irani and P. Anandan: About Direct Methods, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.
^ Rui Xu, David Taubman & Aous Thabit Naman, 'Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding', in Image Processing, IEEE Transactions on, vol.25, no.3, pp.1095-1108, March 2016.
^ Borko Furht; Joshua Greenberg; Raymond Westwater (6 December 2012). Motion Estimation Algorithms for Video Compression. Springer Science & Business Media. ISBN 978-1-4615-6241-2
^ Swartz, Charles S. (2005). Understanding Digital Cinema: A Professional Handbook. Taylor & Francis. p. 143. ISBN 9780240806174
^ Kerl, Christian, Jürgen Sturm, and Daniel Cremers. "Dense visual SLAM for RGB-D cameras." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.

[Liu2006-1] John X. Liu (2006). Computer Vision and Robotics. Nova Publishers. ISBN 978-1-59454-357-9

[2] Philip H.S. Torr and Andrew Zisserman: Feature Based Methods for Structure and Motion Estimation, ICCV Workshop on Vision Algorithms, pages 278-294, 1999

[3] Michal Irani and P. Anandan: About Direct Methods, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.

[4] Rui Xu, David Taubman & Aous Thabit Naman, 'Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding', in Image Processing, IEEE Transactions on, vol.25, no.3, pp.1095-1108, March 2016.

[FurhtGreenberg2012-5] Borko Furht; Joshua Greenberg; Raymond Westwater (6 December 2012). Motion Estimation Algorithms for Video Compression. Springer Science & Business Media. ISBN 978-1-4615-6241-2

[6] Swartz, Charles S. (2005). Understanding Digital Cinema: A Professional Handbook. Taylor & Francis. p. 143. ISBN 9780240806174

[7] Kerl, Christian, Jürgen Sturm, and Daniel Cremers. "Dense visual SLAM for RGB-D cameras." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.

[1]

[2]

[3]

[4]

[5]

[6]

[7]