「AIアクセラレータ」の版間の差分

出典: フリー百科事典『ウィキペディア(Wikipedia)』
削除された内容 追加された内容
ページ「AI accelerator」の翻訳により作成
(相違点なし)

2020年7月23日 (木) 08:11時点における版

AIアクセラレータ(AI accelerator)は、人工知能(AI)アプリケーション、特に人工ニューラルネットワークマシンビジョン機械学習を高速化するために設計された特殊なハードウェアアクセラレータ[1]またはコンピュータシステム[2][3]のクラスである。代表的なアプリケーションには、ロボット工学モノのインターネット、その他のデータ集約型またはセンサー駆動型のタスクのためのアルゴリズムが含まれる[4]。それらは多くの場合、メニーコア設計であり、一般的には低精度演算、斬新なデータフロー・アーキテクチャ英語版、またはインメモリ・コンピューティング英語版機能に焦点を当てている[5]。2018年現在、典型的なAI集積回路チップには数十億英語版個のMOSFETトランジスタが含まれている[6]

このカテゴリのデバイスには、多くのベンダー固有の用語が存在しており、これは支配的デザイン英語版のない新技術英語版である。

AIアクセラレーションの歴史

コンピュータシステムは、コ・プロセッサと呼ばれる特殊なタスクのための特殊な目的のアクセラレータでCPUを補完することが頻繁に行われてた。注目されるアプリケーション固有ハードウェアユニットには、グラフィックスビデオカードサウンドカードグラフィックス処理装置デジタル信号処理装置などがある。2010年代にディープラーニング人工知能のワークロードが注目されるようになると、これらのタスクを高速化するために、特殊なハードウェアユニットが開発されたり、既存の製品から採用されたりした。

初期の試み

早くも1993年には、デジタル・シグナル・プロセッサがニューラルネットワークのアクセラレータとして使用され、例えば光学文字認識ソフトウェアを高速化するために使用されていた[7]。1990年代には、ニューラルネットワーク・シミュレーションを含む様々なアプリケーションを目的としたワークステーション用の並列ハイスループットシステムの開発も試みもあった[8][9][10]FPGAベースのアクセラレータも1990年代に推論[11]とトレーニング[12]の両方のために最初に検討された。ANNAはYann LeCun英語版によって開発されたニューラルネットCMOSアクセラレータである[13]

ヘテロジニアス・コンピューティング

ヘテロジニアス・コンピューティング(異機種コンピューティング)とは、1 つのシステム、あるいは1つのチップに、特定のタイプのタスクに最適化された多数の特化したプロセッサを組み込むことを意味する。セル・マイクロプロセッサ(cell microprocessor)のようなアーキテクチャは[14]、パック化低精度演算(packed low precision arithmetic)のサポート、データフロー・アーキテクチャ、レイテンシよりも「スループット」を優先するなど、AIアクセラレータと大きく重複する特徴を持っている。セル・マイクロプロセッサはその後、AIを含む多くのタスク[15][16][17]に応用された[18][19][20]

2000年代には、CPUは、ビデオやゲームのワークロードに牽引されて、SIMDユニットのデータ幅をますます広げ、低精度のデータ型パック化してサポートするようになった[21]

GPUの利用

グラフィックス・プロセッシング・ユニット (GPU)は、画像を操作したり、局所的な画像特性を計算するための特殊なハードウェアである。ニューラルネットワークと画像操作の数学的基礎は類似しており、行列を含む厄介なほど並列英語版なタスクであり、GPUが機械学習タスクにますます使用されるようになってきている[22][23][24]。2016年現在、GPUはAI作業で人気があり、自動運転車[25]などのデバイスでのトレーニング[26]と推論の両方でディープラーニングを促進にする方向に進化し続けている。Nvidia NVLinkなどのGPU開発者は、AIがもたらすデータフロー・ワークロードの種類のための追加の接続機能を開発している[27]。GPUのAIアクセラレーションへの応用が進むにつれ、GPUメーカは、ニューラルネットワーク特化したハードウェアを組み込んで、これらのタスクをさらに高速化している[28][29]Tensor Core英語版(テンソルコア)は、ニューラルネットワークのトレーニングを高速化することを目的としている[28]

FPGAの利用

ディープラーニングのフレームワークはまだ進化の途上にあり、カスタムのハードウェアを設計するのは難しい。FPGA (Field-Programmable Gate Array)のような再構成可能なデバイスにより、ハードウェア、フレームワーク、ソフトウェアを相互に進化させることが容易になる[30][31][32]

マイクロソフトは、FPGAチップを使って推論[33]を高速化している。FPGAをAIアクセラレーションに適用することは、インテルアルテラを買収することを動機付け、サーバCPUにFPGAを統合することで、汎用的なタスクだけでなくAIも加速できるようにすることを目的としている[34]

AIアクセラレータ専用ASICの登場

AI関連のタスクでは、GPUとFPGAの方がCPUよりもはるかに優れた性能を発揮するが、ASIC (Application Specific Integrated Circuit)を介したより特殊な設計では[要出典]、最大で10倍の効率性[35][36]が得られる可能性がある。これらのアクセラレータは、最適化されたメモリ使用英語版[要出典]、低精度演算 (英語版を使用して計算を高速化し、計算のスループットを向上させるなどの戦略を採用している[37][38]。AIアクセラレーションで採用されている低精度浮動小数点フォーマットには、半精度浮動小数点フォーマットやbfloat16浮動小数点フォーマット (英語版がある[39][40][41][42][43][44][45]

インメモリ・コンピューティング・アーキテクチャ

2017年6月、IBMの研究者は、ヘテロジニアス・コンピューティング大規模並列システムに一般化するアプローチを目的とした、時間的相関検出に適用されるインメモリ・コンピューティング英語版相変化メモリ・アレイに基づくフォン・ノイマン・アーキテクチャとは対照的なアーキテクチャを発表した[46]。2018年10月、IBMの研究者は、インメモリ処理に基づく、人間の脳のシナプスネットワークをモデルにしたアーキテクチャ (英語版を発表し、ディープニューラルネットワークを高速化した[47]。このシステムは相変化メモリアレイに基づいている[48]

命名法

2016年現在、この分野はまだ流動的であり、ベンダーは自社のデザインとAPI支配的デザイン英語版になることを期待して、「AIアクセラレータ」に相当するものについて独自のマーケティング用語を推薦している。これらのデバイス間の境界線についても、正確な形式についても合意はないが、いくつかの例は明らかにこの新しい空間を埋めることを目的としており、かなりの量の機能が重複している。

コンシューマー向けのグラフィックス・アクセラレータが登場した過去の業界では、Direct3Dが提示したモデルを実装した全体的なパイプラインに落ち着くまでに、さまざまな形式をとってきた「グラフィックスアクセラレータ」の総称として、最終的にはNvidiaの「GPU」[49]という独自の用語を採用した。

潜在的なアプリケーション

関連項目

参考文献

  1. ^ Intel unveils Movidius Compute Stick USB AI Accelerator” (2017年7月21日). 2017年8月11日時点のオリジナルよりアーカイブ。2017年8月11日閲覧。
  2. ^ Inspurs unveils GX4 AI Accelerator” (2017年6月21日). 2020年7月23日閲覧。
  3. ^ Wiggers, Kyle (November 6, 2019), Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors, オリジナルの2020-03-06時点におけるアーカイブ。, https://web.archive.org/web/20200306120524/https://venturebeat.com/2019/11/06/neural-magic-raises-15-million-to-boost-ai-training-speed-on-off-the-shelf-processors/ 2020年3月14日閲覧。 
  4. ^ Google Developing AI Processors”. 2020年7月23日閲覧。Google using its own AI accelerators.
  5. ^ "A Survey of ReRAM-based Architectures for Processing-in-memory and Neural Networks", S. Mittal, Machine Learning and Knowledge Extraction, 2018
  6. ^ 13 Sextillion & Counting: The Long & Winding Road to the Most Frequently Manufactured Human Artifact in History”. Computer History Museum (2018年4月2日). 2019年7月28日閲覧。
  7. ^ convolutional neural network demo from 1993 featuring DSP32 accelerator”. 2020年7月23日閲覧。
  8. ^ design of a connectionist network supercomputer”. 2020年7月23日閲覧。
  9. ^ The end of general purpose computers (not)”. 2020年7月23日閲覧。This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)
  10. ^ Ramacher, U.; Raab, W.; Hachmann, J.A.U.; Beichter, J.; Bruls, N.; Wesseling, M.; Sicheneder, E.; Glass, J. et al. (1995). Proceedings of 9th International Parallel Processing Symposium. pp. 774–781. doi:10.1109/IPPS.1995.395862. ISBN 978-0-8186-7074-9 
  11. ^ Space Efficient Neural Net Implementation”. 2020年7月23日閲覧。
  12. ^ Gschwind, M.; Salapura, V.; Maischberger, O. (1996). “A Generic Building Block for Hopfield Neural Networks with On-Chip Learning”. 1996 IEEE International Symposium on Circuits and Systems. Circuits and Systems Connecting the World. ISCAS 96. pp. 49–52. doi:10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0 
  13. ^ Application of the ANNA Neural Network Chip to High-Speed Character Recognition
  14. ^ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). “Synergistic Processing in Cell's Multicore Architecture”. IEEE Micro 26 (2): 10–24. doi:10.1109/MM.2006.41. 
  15. ^ De Fabritiis, G. (2007). “Performance of Cell processor for biomolecular simulations”. Computer Physics Communications 176 (11–12): 660–664. arXiv:physics/0611201. doi:10.1016/j.cpc.2007.02.107. 
  16. ^ Video Processing and Retrieval on Cell architecture. 
  17. ^ Benthin, Carsten; Wald, Ingo; Scherbaum, Michael; Friedrich, Heiko (2006). 2006 IEEE Symposium on Interactive Ray Tracing. pp. 15–23. doi:10.1109/RT.2006.280210. ISBN 978-1-4244-0693-7 
  18. ^ Kwon, Bomjun; Choi, Taiho; Chung, Heejin; Kim, Geonho (2008). 2008 5th IEEE Consumer Communications and Networking Conference. pp. 1030–1034. doi:10.1109/ccnc08.2007.235. ISBN 978-1-4244-1457-4 
  19. ^ Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals”. 2020年7月23日閲覧。
  20. ^ Duan, Rubing; Strey, Alfred (2008). Euro-Par 2008 – Parallel Processing. Lecture Notes in Computer Science. 5168. pp. 665–675. doi:10.1007/978-3-540-85451-7_71. ISBN 978-3-540-85450-0 
  21. ^ Improving the performance of video with AVX” (2012年2月8日). 2020年7月23日閲覧。
  22. ^ microsoft research/pixel shaders/MNIST”. 2020年7月23日閲覧。
  23. ^ how the gpu came to be used for general computation”. 2020年7月23日閲覧。
  24. ^ imagenet classification with deep convolutional neural networks”. 2020年7月23日閲覧。
  25. ^ nvidia introduces supercomputer for self driving cars” (2016年1月6日). 2020年7月23日閲覧。
  26. ^ nvidia driving the development of deep learning” (2016年5月17日). 2020年7月23日閲覧。
  27. ^ how nvlink will enable faster easier multi GPU computing” (2014年11月14日). 2020年7月23日閲覧。
  28. ^ a b Harris, Mark (2017年5月11日). “CUDA 9 Features Revealed: Volta, Cooperative Groups and More”. 2017年8月12日閲覧。
  29. ^ "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform", 2019
  30. ^ Space Efficient Neural Net Implementation”. 2020年7月23日閲覧。
  31. ^ Gschwind, M.; Salapura, V.; Maischberger, O. (1996). “A Generic Building Block for Hopfield Neural Networks with On-Chip Learning”. 1996 IEEE International Symposium on Circuits and Systems. Circuits and Systems Connecting the World. ISCAS 96. pp. 49–52. doi:10.1109/ISCAS.1996.598474. ISBN 0-7803-3073-0 
  32. ^ FPGA Based Deep Learning Accelerators Take on ASICs”. The Next Platform (2016年8月23日). 2016年9月7日閲覧。
  33. ^ Project Brainwave” (英語). Microsoft Research. 2020年6月16日閲覧。
  34. ^ "A Survey of FPGA-based Accelerators for Convolutional Neural Networks", Mittal et al., NCAA, 2018
  35. ^ Google boosts machine learning with its Tensor Processing Unit” (2016年5月19日). 2016年9月13日閲覧。
  36. ^ Chip could bring deep learning to mobile devices”. www.sciencedaily.com (2016年2月3日). 2016年9月13日閲覧。
  37. ^ Deep Learning with Limited Numerical Precision”. 2020年7月23日閲覧。
  38. ^ Rastegari, Mohammad; Ordonez, Vicente; Redmon, Joseph; Farhadi, Ali (2016). "XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks". arXiv:1603.05279 [cs.CV]。
  39. ^ Khari Johnson (2018年5月23日). “Intel unveils Nervana Neural Net L-1000 for accelerated AI training”. VentureBeat. 2018年5月23日閲覧。 “...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.”
  40. ^ Michael Feldman (2018年5月23日). “Intel Lays Out New Roadmap for AI Portfolio”. TOP500 Supercomputer Sites. 2018年5月23日閲覧。 “Intel plans to support this format across all their AI products, including the Xeon and FPGA lines”
  41. ^ Lucian Armasu (2018年5月23日). “Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019”. Tom's Hardware. 2018年5月23日閲覧。 “Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.”
  42. ^ Available TensorFlow Ops | Cloud TPU | Google Cloud”. Google Cloud. 2018年5月23日閲覧。 “This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.”
  43. ^ Tensorflow Authors (2018年2月28日). “ResNet-50 using BFloat16 on TPU”. Google. 2018年5月23日閲覧。[リンク切れ]
  44. ^ Elmar Haußmann (2018年4月26日). “Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50”. RiseML Blog. 2018年4月26日時点のオリジナルよりアーカイブ。2018年5月23日閲覧。 “For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.”
  45. ^ Joshua V. Dillon; Ian Langmore; Dustin Tran; Eugene Brevdo; Srinivas Vasudevan; Dave Moore; Brian Patton; Alex Alemi; Matt Hoffman; Rif A. Saurous (28 November 2017). TensorFlow Distributions (Report). arXiv:1711.10604. Bibcode:2017arXiv171110604D. Accessed 2018-05-23. All operations in TensorFlow Distributions are numerically stable across half, single, and double floating-point precisions (as TensorFlow dtypes: tf.bfloat16 (truncated floating point), tf.float16, tf.float32, tf.float64). Class constructors have a validate_args flag for numerical asserts
  46. ^ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). “Temporal correlation detection using computational phase-change memory”. Nature Communications 8. arXiv:1706.00511. doi:10.1038/s41467-017-01481-9. PMID 29062022. 
  47. ^ “A new brain-inspired architecture could improve how computers handle data and advance AI”. American Institute of Physics. (2018年10月3日). https://phys.org/news/2018-10-brain-inspired-architecture-advance-ai.html 2018年10月5日閲覧。 
  48. ^ Carlos Ríos; Nathan Youngblood; Zengguang Cheng; Manuel Le Gallo; Wolfram H.P. Pernice; C David Wright; Abu Sebastian; Harish Bhaskaran (2018). "In-memory computing on a photonic platform". arXiv:1801.06228 [cs.ET]。
  49. ^ NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256”. 2020年7月23日閲覧。
  50. ^ drive px”. Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  51. ^ design of a machine vision system for weed control”. 2010年6月23日時点のオリジナルよりアーカイブ。2016年6月17日閲覧。
  52. ^ qualcomm research brings server class machine learning to every data devices” (2015年10月). Template:Cite webの呼び出しエラー:引数 accessdate は必須です。
  53. ^ movidius powers worlds most intelligent drone” (2016年3月16日). Template:Cite webの呼び出しエラー:引数 accessdate は必須です。

外部リンク