R-CNN

領域ベースの畳み込みニューラルネットワーク (Region Based Convolutional Neural Networks, R-CNN)は、コンピュータビジョン、特に物体（オブジェクト）検出のための機械学習モデルの 1 つ。

歴史[編集]

R-CNN の当初の目的は、入力画像を受け取り、出力としてバウンディングボックスの集合を生成することだった。各バウンディングボックスには、物体とそのカテゴリ（車や歩行者など）が含まれる。最近では、R-CNN は拡張され、他のコンピュータビジョンタスクを実行できるようになった。これまでに開発された R-CNN のバージョンをいくつか紹介する。

R-CNN^[1]（2013 年 11 月）: R-CNN は、入力画像が与えられると、選択的検索（selective search）と呼ばれる手法を適用して関心領域（regions of interest; ROI）を抽出する。一つ一つの ROI は画像内の物体の境界を表す長方形である。シナリオによっては、2,000 もの ROI が存在する。その後、各 ROI をニューラルネットワークに通し、特徴量を出力する。各 ROI が出力した特徴量に対して、一連のサポートベクターマシン分類器を使用し、その ROI に含まれる物体のカテゴリを決定する。 ^[2]

Fast R-CNN^[3]（2015 年 4 月）: オリジナルの R-CNN では、関心領域（ROI）のそれぞれについてニューラルネットワークの特徴量を独立して計算したが、Fast R-CNN は、画像全体に対して 1 回だけニューラルネットワークを実行する。ネットワークの最後には ROI プーリングと呼ばれる新しい手法があり、ネットワークの出力テンソルから各 ROI を切り出し、形状を変更して分類する。オリジナルの R-CNN 同様、選択的検索を使用して ROI を抽出する^[4]。

Faster R-CNN^[5]（2015 年 6 月）: R-CNN では選択的検索を用いて ROI を抽出したが、Faster R-CNN では、選択的検索ではなく、ROI 生成をニューラルネットワーク自体に統合している。

Mask R-CNN^[6]（2017 年 3 月）: 物体検出に加え、インスタンスのセグメンテーションも行う。ROI プーリングを ROI Align と呼ばれる新しい手法に置き換え、ピクセルの断片を表現できるようにした^[7] ^[8]。

Mesh R-CNN（2019 年 6 月）: 2D 画像から 3D メッシュを生成する機能が追加されている^[9]。

応用[編集]

R-CNN は、ドローンに搭載されたカメラからのオブジェクトの追跡^[10]、画像内のテキストの位置の特定^[11]、Google レンズでのオブジェクト検出などで使用されている^[12]。Mask R-CNN による物体検出は、ニューラルネットワークの学習速度を競う MLPerf トレーニングベンチマークにおける 7 つのタスクのうち 1 つに位置付けられている^[13]。

参考文献[編集]

^ Girshick, Ross. "Rich feature hierarchies for accurate object detection and semantic segmentation". arXiv:1311.2524。
^ Gandhi, Rohith (2018年7月9日). “R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Object Detection Algorithms”. Towards Data Science 2020年3月12日閲覧。
^ Girshick, Ross. "Fast R-CNN". arXiv:1504.08083。
^ Bhatia, Richa (2018年9月10日). “What is region of interest pooling?”. Analytics India 2020年3月12日閲覧。
^ Ren, Shaoqing. "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks". arXiv:1506.01497。
^ He, Kaiming. "Mask R-CNN". arXiv:1703.06870。
^ Farooq, Umer (2018年2月15日). “From R-CNN to Mask R-CNN”. Medium 2020年3月12日閲覧。
^ Weng, Lilian (2017年12月31日). “Object Detection for Dummies Part 3: R-CNN Family”. Lil'Log 2020年3月12日閲覧。
^ Wiggers, Kyle (2019年10月29日). “Facebook highlights AI that converts 2D objects into 3D shapes”. VentureBeat 2020年3月12日閲覧。
^ Nene, Vidi (2019年8月2日). “Deep Learning-Based Real-Time Multiple-Object Detection and Tracking via Drone”. Drone Below 2020年3月28日閲覧。
^ Ray, Tiernan (2018年9月11日). “Facebook pumps up character recognition to mine memes”. ZDnet 2020年3月28日閲覧。
^ Sagar, Ram (2019年9月9日). “These machine learning methods make google lens a success”. Analytics India 2020年3月28日閲覧。
^ Mattson, Peter (2019). "MLPerf Training Benchmark". arXiv:1910.01500v3 [math.LG]。

[1] Girshick, Ross. "Rich feature hierarchies for accurate object detection and semantic segmentation". arXiv:1311.2524。

[2] Gandhi, Rohith (2018年7月9日). “R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Object Detection Algorithms”. Towards Data Science 2020年3月12日閲覧。

[3] Girshick, Ross. "Fast R-CNN". arXiv:1504.08083。

[:0-4] Bhatia, Richa (2018年9月10日). “What is region of interest pooling?”. Analytics India 2020年3月12日閲覧。

[5] Ren, Shaoqing. "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks". arXiv:1506.01497。

[6] He, Kaiming. "Mask R-CNN". arXiv:1703.06870。

[7] Farooq, Umer (2018年2月15日). “From R-CNN to Mask R-CNN”. Medium 2020年3月12日閲覧。

[8] Weng, Lilian (2017年12月31日). “Object Detection for Dummies Part 3: R-CNN Family”. Lil'Log 2020年3月12日閲覧。

[9] Wiggers, Kyle (2019年10月29日). “Facebook highlights AI that converts 2D objects into 3D shapes”. VentureBeat 2020年3月12日閲覧。

[10] Nene, Vidi (2019年8月2日). “Deep Learning-Based Real-Time Multiple-Object Detection and Tracking via Drone”. Drone Below 2020年3月28日閲覧。

[11] Ray, Tiernan (2018年9月11日). “Facebook pumps up character recognition to mine memes”. ZDnet 2020年3月28日閲覧。

[12] Sagar, Ram (2019年9月9日). “These machine learning methods make google lens a success”. Analytics India 2020年3月28日閲覧。

[13] Mattson, Peter (2019). "MLPerf Training Benchmark". arXiv:1910.01500v3 [math.LG]。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]