ディープラーニング

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Jump to navigation Jump to search

ディープラーニングまたは深層学習(しんそうがくしゅう、: deep learning)とは、(狭義には4層以上[1][注釈 1]の)多層のニューラルネットワーク(ディープニューラルネットワーク、: deep neural network)による機械学習手法である[2]。深層学習登場以前、4層以上の深層ニューラルネットは、局所最適解や勾配消失などの技術的な問題によって十分学習させられず、性能も芳しくなかった。しかし、近年、ヒントンらによる多層ニューラルネットワークの学習の研究や、学習に必要な計算機の能力向上、および、Webの発達による訓練データ調達の容易化によって、十分学習させられるようになった。その結果、音声・画像・自然言語を対象とする問題に対し、他の手法を圧倒する高い性能を示し[3]、2010年代に普及した[4]

概要[編集]

深層学習の登場以前、2層構造のパーセプトロン、3層構造の階層型ニューラルネットよりも多くの層を持つ、4層以上の多層ニューラルネットの学習は、局所最適解や勾配消失などの技術的な問題によって、十分に学習させられず、性能も芳しくない冬の時代が長く続いた。しかし、2006年にニューラルネットワークの代表的な研究者であるジェフリー・ヒントンらの研究チームが、制限ボルツマンマシンによるオートエンコーダの深層化に成功し、再び注目を集めるようになる。この際、発表した論文から、これまでの多層ニューラルネットよりもさらに深いネットワーク構造を意味する、ディープネットワークの用語が定着した。この研究成果が、現在のディープラーニングに直接繋がる技術的ブレイクスルーだったと見られている。元々はジェフリー・ヒントンらの開発したディープラーニングは層が直列されたシンプルな構造をしていたが、現在のアルゴリズムは複数の分岐やループのある複雑なグラフ構造を持つ。そのため、基本技術をまとめて複雑なグラフ構造を簡単に実現できるようにしたフレームワークも公開されている。

深層学習では、バックプロパゲーションと呼ばれる計算手法により学習を行う。バックプロパゲーション自体は従来からある手法だが、ディープ・オートエンコーダを併用することで、従来困難だった4層以上の多層ニューラルネットを学習[注釈 2]させられることに新規性がある。バックプロパゲーションでは、画像や音声などそれぞれのデータの研究者、技術者が手動で設定していた特徴量[5][6]一緒に抽出される。このため、手作業での特徴量抽出が不要な点が、大きな利点の一つである。特徴量とは、問題の解決に必要な本質的な変数であったり、特定の概念を特徴づける変数である[7]

ニューラルネットワークの多層化の発想自体はコンピュータ黎明期からあり続けたものの、莫大な学習時間と計算コストが問題となって長らく低迷していたが[8]、近年のコンピュータのハード性能の急激な進歩や、CPUよりも単純な演算の並列処理に優れたGPUの低価格化により、2012年頃からは急速に研究が活発となり、第三次人工知能ブームが到来したとされている[9]

歴史[編集]

人間の脳の構造を模した機械学習における最初の手法であるパーセプトロンが考案されたのは1957年であるが、マシンスペックの大幅な不足や、排他的論理和の認識ができないなどの欠点が露呈したため、研究が大きく続けられることはなかった[10]。その後、1980年代より、排他的論理和の問題を解決したバックプロパゲーションが開発されたが、非効率的なメカニズムや、動詞の過去形など複雑な認識ができない(そもそも3層ニューラルネットで任意関数は全て近似可能であり、大脳新皮質がなぜ3層以上存在するのかが不明であった)などの要因により、1990年代後半には沈静化した[11][12]

長らく冬の時代が続いていたニューラルネットワークであるが、2006年にジェフリー・ヒントンによってスタックドオートエンコーダなど多層にネットワークを積み重ねても精度を損なわない手法が提唱され、さらに2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがディープラーニングによって従来の手法(エラー率26%)に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。その後もILSVRCでは毎年上位はディープラーニングを使ったチームが占めるようになり、エラー率はすでに5%程度にまで改善している[13]

今日のディープラーニングにつながる世界的に最も先駆的研究として、日本の福島邦彦(NHK放送技術研究所、その後大阪大学基礎工学部生物工学科)によって1979年に発表されたネオコグニトロン[14][15]が挙げられる[16][17]。ネオコグニトロンには自己組織化機能があり、自ら学習することによってパターン認識能力を獲得(概念の形成)していく。応用例として、福島らは手書き文字データベース(ビッグデータ)から自己学習によって手書き文字認識能力(各文字の概念)が獲得されることを実証した。しかし、当時は「手書き文字認識方式の一つ」と誤解され、その重要性についての認識が世間に広がらなかった。

利用[編集]

ディープラーニングは物体認識を中心にさまざまな分野で活用されている。また、Googleをはじめとした多くのIT企業が研究開発に力を入れている。また、自動運転車の障害物センサーにも使われている[18]

GoogleのAndroid 4.3[19]は、音声認識にディープラーニング技術を活用することで、精度を25から50パーセント向上させた[20]。2012年、スタンフォード大学との共同研究であるグーグル・ブレイン英語版(Google brain)は、1,000のサーバーの16,000のコアを使い、3日間で猫の画像に反応するニューラルネットワークを構築したと発表して話題となった[21][22]。この研究では、200ドット四方の1,000万枚の画像を解析させている。ただし、人間の脳には遠く及ばないと指摘されている[23]。GoogleLeNetと呼ばれるチームによるトロント大学との共同研究では、画像の説明文を自動で生成できる「Image to Text」と呼ばれるシステムを開発した。これは、コンピュータビジョンと自然言語処理を組み合わせ、ユーザーがアップロードした画像を認識し、説明文を表示するもの[24][25][26]である。2015年3月、Schroffらは800万人の2億枚の画像を99.6%の精度で判定した(22層)[27]。2016年1月、AlphaGoと呼ばれるシステムが中国系フランス人のヨーロッパ囲碁王者である樊麾英語版と2015年10月に対局し、5戦全勝の成績を収めていたことが発表された。主に開発に携わったのは2013年にGoogleが買収したDeepMind。囲碁はチェスよりも盤面が広いために打てる手数の多さは比較にならないほどで人間のプロと互角に打てるようになるまでさらに10年はかかるという予測を覆した点と、囲碁に特化したエキスパートマシンではなく汎用的にも用いる事ができるシステムを使っている点に注目が集まった[28][29]。また、2016年から2017年にかけて、世界最強の棋士にも名が挙がる韓国李世乭中国柯潔と対戦した際は殆ど中押し勝ちをして圧勝した[30][31]

中国では天網に代表されるようにディープラーニングが国民に対する当局の監視強化を目的に急速に普及しており[32][33][34]、世界のディープラーニング用サーバーの4分の3を占めてるとされる[35]。米国政府によれば2013年からディープラーニングに関する論文数では中国が米国を超えて世界一となってる[36]

Facebookは、ユーザーがアップロードした画像を、ディープラーニングによって認識させ、何が写っているかの判別精度を向上させている[20]。また、人工知能研究ラボを2013年に立ち上げ[37]、その成果としてディープラーニング開発環境を2015年1月16日にオープンソースで公開した。これは、GPU環境において、従来のコードの23.5倍の速度を実現しており[38]、ディープラーニングの研究開発の促進が期待されている[39]

ネットワークモデル[編集]

ネットワークモデルは現在も盛んに研究されており、毎年新しいものが提案されている。

畳み込みニューラルネットワーク[編集]

畳み込みニューラルネットワーク (Convolutional Neural Networks: CNN) とは、全結合していない順伝播型ニューラルネットワークの一種。特に2次元の畳込みニューラルネットワークは人間の視覚野のニューロンの結合と似たニューラルネットワークであり、人間の認知とよく似た学習が行われることが期待される。結合がスパース(疎)であるため、全結合しているニューラルネットワークに比べて学習が高速である。

1979年に福島邦彦が発表したネオコグニトロンから発展し、1988年にHomma Toshiteruらが音素の認識に[40]、1989年にYann LeCunらが文字画像の認識に使用し[41][42]、1998年にLeCunらが発表したLeNet-5へと続き、2012年にILSVRCでの物体カテゴリ認識で優勝したアルゴリズムも深層畳み込みニューラルネットワークである[43]。ネオコグニトロンの時から深層であったが、近年は深層であることを強調するため、深層が頭につき、深層畳み込みニューラルネットワークと呼ばれる事もある。自然言語処理に対する応用もなされはじめた。

スタックドオートエンコーダ[編集]

まず3層のオートエンコーダで学習を行い、学習が完了したら次の層(4層目)をオートエンコーダとして学習する。これを必要な分だけ繰り返していき、最後に全層の学習を行う。事前学習とも呼ばれる。類似技術にディープビリーフネットワーク、ディープボルツマンマシンなどがある。

Residual network[編集]

入力データを出力に変える変換を学習するのではなく、残差を学習する。通常の多層ニューラルネットより勾配消失がおきにくく、はるかに多層化できる。実験的には1000層まで学習されたものもある。欠点としては、入力次元数と出力次元数を変えることができない。

敵対的生成ネットワーク[編集]

2つのネットワークが相反した目的のもとに学習するネットワークモデル。

ボルツマンマシン[編集]

統計的な変動をもちいたホップフィールド・ネットワークの一種。

制限ボルツマンマシン[編集]

同一層間では接続を持たないボルツマンマシン。

回帰結合型ニューラルネットワーク[編集]

回帰結合型ニューラルネットワーク英語版 (Recurrent Neural Network: RNN) とは、有向閉路を持つニューラルネットワークの事。それ以前の入力によって変化する状態を保持する(オートマトン)。動画像、音声、言語など、入力データの順序によって出力が変わる場合に有効である。

1980年代から研究が始まり、1982年に発表されたホップフィールド・ネットワークが初期の研究。その後ElmanネットワークやJordanネットワークが発表され、1997年にS. HochreiterおよびJ. SchmidhuberらがLSTMネットワーク (長・短期記憶英語版、Long short-term memory) を発表した。

特有の問題[編集]

勾配消失問題[編集]

確率的勾配法は誤差から勾配を計算して中間層のウェイトを修正するが、シグモイド関数などは見てすぐにわかる通り、勾配が0に近い領域が存在する。偶然その領域に進むと勾配が0に近くなり、ウェイトがほぼ修正されなくなる。多層NNでは一カ所でも勾配が0に近い層が存在すると、それより下の層の勾配も全て0に近くなるため、確率的には層数が増えるほど学習が難しくなる。詳しくはバックプロパゲーション活性化関数も参照のこと。

過学習[編集]

トレーニングデータでは高識別率を達成しながら、テストデータでは識別率が低い現象。過剰適合も参照のこと。

局所最適解へのトラップ[編集]

学習が、最も最適な大域的最適解ではなく、局所的には最適な解へと収束し、抜け出せなくなること。

テクニック[編集]

データ拡張[編集]

深層学習以外でも広く使われているが、入力データが画像など、どのようなテストデータが来るかあらかじめある程度の想定(モデル化)ができる場合は、たとえば画像の回転や引き延ばしを行うことで入力データ数を増やすことも昔から行われている。

活性化関数[編集]

古くからニューラルネットワークにおいてはシグモイド関数がよく使われていたが、勾配消失問題などにより、近年では別の関数が使われるようになった。詳しくは活性化関数を参照。

ReLU[編集]

ReLU(rectified linear unit ランプ関数とも呼ばれる)

出力が0.0~1.0に規格化されないため勾配消失問題が起きにくく、またシグモイド関数に比べると単純であるために計算量が小さく学習が速く進む等のメリットがある[44]

maxout[編集]

複数の次元の最大値を出力する関数。CNNのプーリングと同じ計算である。高性能と言われるが、性質上、次元が減少する。特徴選択も兼ねていると言える。

ドロップアウト[編集]

ドロップアウトはランダムに任意のニューロン(次元)を何割か無視してしまう技術である。入力データを増やせずとも、次元を減らすことで解の有意性を上げることができる。ドロップアウトして得た学習結果は、テスト時には同時に使用し、結果は平均して用いる。これはRandom forestと同様、検出率の低い識別器でも並列化することで信頼度を上げることができるためである。

スパースコーディング[編集]

Lasso回帰英語版とも呼ばれる。辞書行列と係数行列の内積(線形結合)で入力データ(列ベクトル)を近似するとき、係数行列は疎行列(非零の要素が僅かしかない行列)になる。L1正則化のこと。

フレームワーク[編集]

  • Caffe - Python, C++
  • torch - Lua
  • Theano - Python。関数型言語。並列化に特化し、GPUのコードが自動的に生成される。
  • Pylearn2 - Python
  • Blocks - Python
  • Keras - Python。TensorFlowのラッパー。Theanoでも動作可能。
  • Lasagne - Python
  • deepy - Python
  • Deeplearning4j - Java、Scalaが使用されている。
  • EBlearn - C++で書かれているCNN用ライブラリ。
  • cuda-convnet - 基本的な機能はEBlearnと同じ。
  • Chainer - Python
  • TensorFlow - Python, C++
  • ReNom - Python
  • PyTorch
  • Microsoft Cognitive Toolkit - Python, C++, C#、以前はCNTKと呼ばれていた。
  • DyNet - Python, C++

応用[編集]

注釈[編集]

  1. ^ 2層ならパーセプトロン。3層なら階層型ニューラルネット。これらと比較して深い層の階層型ニューラルネットを、深層(階層型)ニューラルネットと呼ぶ。
  2. ^ 学習手法については、テクニックを参照。

参考文献[編集]

  1. ^ 深層学習 人工知能学会 深層学習手法の全体像xiv
  2. ^ 深層学習 人工知能学会 深層学習手法の全体像xiii
  3. ^ 岡谷貴之 深層学習 (機械学習プロフェッショナルシリーズ)、2015年4月8日、まえがき、ISBN 978-4061529021
  4. ^ 深層学習 人工知能学会、2015年11月5日、xiv、ISBN-13: 978-4764904873
  5. ^ ディープラーニングの先にあるものとは? - 東大 松尾准教授が語った人工知能の未来(前編)”. biglobeニュース (2015年5月29日). 2015年5月31日閲覧。
  6. ^ 小林雅一 2015, p. 118.
  7. ^ 小林雅一 2015, p. 120.
  8. ^ 小林雅一 2015, p. 107.
  9. ^ 【第四回】今、最も熱いディープラーニングを体験してみよう(2ページ)”. エンタープライズ (2015年1月14日). 2015年5月30日閲覧。
  10. ^ 小林雅一 2013, p. 92.
  11. ^ ディープラーニングはビジネスにどう使えるか?”. WirelessWire News (2015年5月20日). 2015年5月21日閲覧。
  12. ^ 小林雅一 2013, p. 94.
  13. ^ http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/091800010/
  14. ^ ネオコグニトロン”. 2015年6月30日閲覧。
  15. ^ 位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---”. 電子通信学会論文誌A (1979年10月1日). 2017年8月16日閲覧。
  16. ^ 「ネオコグニトロンはまだ進化する」、画像向けディープラーニング「CNN」の父に聞く” (2015年5月22日). 2015年9月3日閲覧。
  17. ^ [CEDEC 2015]画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する”. 4gamer (2015年8月29日). 2015年9月1日閲覧。
  18. ^ 人とくるまのテクノロジー展2015 - 「ディープラーニング」を採用したZMPのRoboCar MiniVan”. マイナビニュース (2015年5月20日). 2015年5月26日閲覧。
  19. ^ Googleのディープラーニングはレトロゲームを自分で学習してプレイする”. ascii×デジタル (2015年3月21日). 2015年5月21日閲覧。
  20. ^ a b 小林雅一 2015, p. 29.
  21. ^ 小林雅一 2015, p. 28.
  22. ^ グーグルが開発を進めている、写真を「自動的に説明する」技術”. wired (2014年11月20日). 2015年5月18日閲覧。
  23. ^ ディープラーニングというGPUの新市場”. PC Watch (2014年4月17日). 2015年5月21日閲覧。
  24. ^ 画像をアップすると自動で説明文を生成してくれる「Images to Text」”. GIGAZINE (2014年12月13日). 2015年5月21日閲覧。
  25. ^ グーグルが開発を進めている、写真を「自動的に説明する」技術”. WIRED (2014年11月20日). 2015年5月30日閲覧。
  26. ^ 人工知能は世界をもっと認識できる:グーグルのコンピューターヴィジョン”. WIRED (2014年9月9日). 2015年5月30日閲覧。
  27. ^ CEDEC 2015 画像認識ではすでに人間を凌駕。ディープラーニングが日本を再生する松尾豊東京大学大学院准教授の発表スライドから
  28. ^ ITTOUSAI (2016年1月28日). “Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達”. Engadget. 2016年3月2日閲覧。
  29. ^ CADE METZ (2016年1月31日). “「囲碁の謎」を解いたグーグルの超知能は、人工知能の進化を10年早めた”. WIRED. 2016年3月2日閲覧。
  30. ^ “<囲碁:人間vs人工知能>李世ドル「必ず勝ちたかったが、3連敗した時より今日のほうが辛かった」”. 中央日報. (2016年3月16日). http://japanese.joins.com/article/276/213276.html 2018年2月7日閲覧。 
  31. ^ AlphaGoが最終戦も勝利で3連勝”. 日本棋院 (2017年5月27日). 2018年2月7日閲覧。
  32. ^ “顔認証で市民監視、中国の新たなAIツール”. ウォール・ストリート・ジャーナル. (2017年6月30日). http://jp.wsj.com/articles/SB11588421679375374726504583234572468806316 2018年2月7日閲覧。 
  33. ^ “アングル:中国の顔認証技術に活況投資、監視用の需要も後押し”. ロイター. (2017年11月18日). https://jp.reuters.com/article/china-facial-recognition-firms-idJPKBN1DF0PT 2018年2月7日閲覧。 
  34. ^ “中国の「超AI監視社会」--新疆ウイグル自治区では“体内”まで監視!”. 集英社. (2018年2月3日). http://wpb.shueisha.co.jp/2018/02/03/99109/ 2018年2月7日閲覧。 
  35. ^ “中国、新疆ウイグル自治区で顔認識システム運用をテスト。指定地域から300m以上離れると当局に警告”. Engadget. (2018年1月20日). http://japanese.engadget.com/2018/01/19/300m/ 2018年2月7日閲覧。 
  36. ^ “中国が「AI超大国」になる動きは、もはや誰にも止められない”. WIRED. (2017年8月16日). https://wired.jp/2017/08/16/america-china-ai-ascension/ 2018年2月7日閲覧。 
  37. ^ Facebook、人工知能研究ラボを立ち上げ”. ITMedia News (2013年12月10日). 2015年5月22日閲覧。
  38. ^ Facebook、ディープラーニング開発環境「Torch」向けモジュールをオープンソースで公開”. ITMedia News (2015年1月19日). 2015年5月22日閲覧。
  39. ^ Facebook、ディープラーニング技術をオープンソースに”. ZDNet Japan (2015年1月19日). 2015年5月22日閲覧。
  40. ^ Homma, Toshiteru; Les Atlas; Robert Marks II (1988). “An Artificial Neural Network for Spatio-Temporal Bipolar Patters: Application to Phoneme Classification”. Advances in Neural Information Processing Systems 1: 31–40. http://papers.nips.cc/paper/20-an-artificial-neural-network-for-spatio-temporal-bipolar-patterns-application-to-phoneme-classification.pdf. 
  41. ^ Yann Le Cun (June 1989). Generalization and Network Design Strategies. http://yann.lecun.com/exdb/publis/pdf/lecun-89.pdf. 
  42. ^ Y. LeCun; B. Boser; J. S. Denker; D. Henderson; R. E. Howard; W. Hubbard; L. D. Jackel (1989). “Backpropagation applied to handwritten zip code recognition”. Neural Computation 1 (4): 541-551. 
  43. ^ Alex Krizhevsky; Ilya Sutskever; Geoffrey E. Hinton (2012). “ImageNet Classification with Deep Convolutional Neural Networks”. Advances in Neural Information Processing Systems 25: 1097-1105. http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-. 
  44. ^ 岡谷貴之 深層学習 p11
  • 小林雅一 『AIの衝撃 人工知能は人類の敵か』 講談社〈講談社現代新書〉、2015年3月20日、第1刷。ISBN 978-4-06-288307-8
  • 小林雅一 『クラウドからAIへ アップル、グーグル、フェイスブックの次なる主戦場』 朝日新聞出版〈朝日新書〉、2013年7月30日、第1刷。ISBN 978-4-02-273515-7
  • 松尾豊 『人工知能は人間を超えるか ディープラーニングの先にあるもの』 KADOKAWA〈角川EPUB選書〉、2015年3月11日、第1刷。ISBN 978-4040800202

関連項目[編集]