畳み込みニューラルネットワーク

出典: フリー百科事典『ウィキペディア(Wikipedia)』
ナビゲーションに移動 検索に移動

機械学習において、畳み込みニューラルネットワーク(たたみこみニューラルネットワーク、: Convolutional neural network、略称: CNNまたはConvNet)は、順伝播型英語版人工ディープニューラルネットワークの一種である。画像や動画認識に広く使われているモデルである。

CNNは福島邦彦によって提唱されたネオコグニトロンに起源を持ち、最小限のデータ前処理しか必要としないように設計された多層パーセプトロンのバリエーションを使用する[1][2][3]。CNNは、その重み(行列の)共有構造と並進不変特性に基づいて、シフト不変(shift invariant)あるいは位置不変(space invariant)人工ニューラルネットワークSIANN)とも呼ばれている[4][5]

畳み込みネットワークは生物学的過程から発想を得た[6]。畳み込みネットワーク中のニューロン間の結合パターンは、動物の視覚野の配置から着想を得ている。視野[要リンク修正][要曖昧さ回避]の限定された領域における刺激にのみ応答する個々の皮質ニューロン受容野と呼ばれる。異なるニューロンの受容野は全視野を覆うように部分的に重なり合っている。

一般的なCNNは以下のように定式化される[7]はj番目の出力チャネルを、相互相関関数を意味する。

すなわち各出力チャネル ごとに入力チャネル 枚分の畳み込みカーネル が用意され、カーネルを用いた各入力チャネルの畳み込みの総和へバイアス項 が付与され各チャネル出力となっている。式からわかるように、入力チャネル間は畳み込み処理ではなく和で計算され、また入力チャネル と畳みこまれるカーネルは出力チャネルごとに異なる。

がスカラーになっている場合(例: 2DConvにおける1x1カーネル)、この畳み込みはしばしば pointwise convolution と呼称される[8]。このとき畳み込みは入力チャネルの重み付けに相当するため、処理全体は入力チャネル群の加重平均を出力チャネルごとに違う重み付けでおこなうことと同義である。実装上ではチャネルを含めたテンソルとして表現されるので、例えば2DConvの場合weightテンソルは で表現される。

畳み込みの変種として grouped convolution がある。通常の畳み込みでは全入力チャネルの畳み込み和を計算するが、grouped convolutionでは入出力チャネルをいくつかのグループに分割しグループ内で通常の畳み込みと和をおこなう[9][10]。これによりカーネル枚数・計算量の削減、複数GPUを用いた学習、別技術と組み合わせた性能の向上などが可能になる(c.f. AlexNet, ResNeXt)。グループ数をチャネル数と一致させる、すなわちチャネル間の和をなくしたものは特にdepthwise convolutionと呼称される[11]

CNNは他の画像分類アルゴリズムと比較して比較的小さい前処理を用いる。これは、CNNが、伝統的なアルゴリズムでは人の手で設計されていたフィルターを学習することを意味する。この特徴量設計における予備知識と人間の努力からの独立がCNNの大きな利点である。

CNNは画像・動画認識レコメンダシステム[12]自然言語処理[13]に応用されている。

脚注[編集]

  1. ^ Fukushima, K. (2007). “Neocognitron”. Scholarpedia 2 (1): 1717. doi:10.4249/scholarpedia.1717. 
  2. ^ Fukushima, Kunihiko (1980). “Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position”. Biological Cybernetics 36 (4): 193–202. doi:10.1007/BF00344251. PMID 7370364. http://www.cs.princeton.edu/courses/archive/spr08/cos598B/Readings/Fukushima1980.pdf 2013年11月16日閲覧。. 
  3. ^ LeCun, Yann. “LeNet-5, convolutional neural networks”. 2013年11月16日閲覧。
  4. ^ Zhang, Wei (1988). “Shift-invariant pattern recognition neural network and its optical architecture”. Proceedings of annual conference of the Japan Society of Applied Physics. https://drive.google.com/file/d/0B65v6Wo67Tk5Zm03Tm1kaEdIYkE/view?usp=sharing. 
  5. ^ Zhang, Wei (1990). “Parallel distributed processing model with local space-invariant interconnections and its optical architecture”. Applied Optics 29 (32). https://drive.google.com/file/d/0B65v6Wo67Tk5ODRzZmhSR29VeDg/view?usp=sharing. 
  6. ^ Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda (2003). “Subject independent facial expression recognition with robust face detection using a convolutional neural network”. Neural Networks 16 (5): 555–559. doi:10.1016/S0893-6080(03)00115-1. http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_expression_conv_nnet.pdf 2013年11月17日閲覧。. 
  7. ^ Conv2d — PyTorch 1.6.0 documentation”. pytorch.org. 2020年10月3日閲覧。
  8. ^ "a 1×1 convolution called a pointwise convolution." Andrew (2017) MobileNets Arxiv
  9. ^ "In a group conv layer ..., input and output channels are divided into C groups, and convolutions are separately performed within each group." Saining (2017). Aggregated Residual Transformations for Deep Neural Networks. Arxiv
  10. ^ "groups controls the connections between inputs and outputs. ... At groups=1, all inputs are convolved to all outputs ... At groups= in_channels, each input channel is convolved with its own set of filters" PyTorch nn.Conv2d
  11. ^ "Depthwise convolution with one filter per input channel (input depth)" Andrew G. Howard. (2017). MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. Arxiv
  12. ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013-01-01). Burges, C. J. C.. ed. Deep content-based music recommendation. Curran Associates, Inc.. pp. 2643–2651. http://papers.nips.cc/paper/5004-deep-content-based-music-recommendation.pdf 
  13. ^ Collobert, Ronan; Weston, Jason (2008-01-01). “A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning”. Proceedings of the 25th International Conference on Machine Learning. ICML '08 (New York, NY, USA: ACM): 160–167. doi:10.1145/1390156.1390177. ISBN 978-1-60558-205-4. https://doiorg/10.1145/1390156.1390177. 

関連項目[編集]