「GPGPU」の版間の差分

削除された内容追加された内容

インライン

2015年3月13日 (金) 17:58時点における版

GPGPU（General-purpose computing on graphics processing units; GPUによる汎目的計算）とは、GPUの演算資源を画像処理以外の目的に応用する技術のことである。

概要

GPUは一般的に画像処理を専門とする演算装置であり、多くの場合、CPUと呼ばれる主演算装置の制御の下で用いられる動画信号生成専用の補助演算用ICである。動画像の実時間内での生成は高負荷な演算能力が要求されるが、その多くが定式化された単純な演算の繰り返しであるためハードウェア化に向いており、GPUを製造している半導体メーカー数社からは、高速なメモリ・インターフェース機能と高い画像演算能力を備えたIC製品のシリーズがいくつも製造・販売されている。

特に1990年代中盤以降は3D描画性能が劇的に向上し、それに伴いベクトル・行列演算を中心としたSIMD演算機の色彩が強くなってきた。2000年代に入ると、表現力の向上を求めて固定機能シェーダーからプログラマブルシェーダーへの移行が進み、演算の自由度・柔軟性（プログラマビリティ）が飛躍的に増した。そこでこれをグラフィックス・レンダリングのみならず、他の数値演算にも利用しようというのがGPGPUのコンセプトである。

2015年現在、GPUの浮動小数点演算能力は単精度で5TFLOPSをオーバーした一方で、CPUはサーバー向けでも単精度は1TFLOPS台に留まっている。GPUは構成が単純であるために浮動小数点演算での効率がよく、GPU専用にローカル接続されたメモリIC (VRAM) とのメモリバンド幅を広く備えるために、CPUと比べて性能比で安価かつ成長の伸び率が高い^[1]。またGPUの主な使途がゲーム（PCゲーム）と動画再生で、ゲームをしないユーザーにとって余り気味の資源ということもあって注目されている。

GPGPU専用製品として、AMDは自社のGPU「R580」をベースとしたストリームプロセッシング向けのGPU製品「AMD Stream Processor」を2006年に発表、一方でNVIDIAは自社のGPU「G80」をベースとしたHPC向けのGPU製品「Tesla C870」を2007年に投入、さらにAMDは2007年に倍精度浮動小数点対応の「AMD FireStream 9170」をNVIDIAに先んじて科学技術分野のHPC市場向けに投入するなど、従来のベクトル計算機からの置き換えを視野に置いた製品展開を行なっている。

GPGPUアプリケーション開発の環境およびAPIとしては、ハードウェア内部構造自体が汎用性を増したDirectX 10世代の統合型シェーダーアーキテクチャGPUの登場以降、NVIDIAによるGPGPU専用の統合開発環境「CUDA」や、AMDの「AMD Stream」（旧称ATI Stream）、そしてKhronosグループによる標準規格「OpenCL」が現われ、GPGPU活用の幅が広がりつつある。

なお、DirectX (Direct3D) はバージョン11でGPUによる汎用演算用のステージであるコンピュートシェーダー（DirectCompute）を、またOpenGLはバージョン4.3で同様のコンピュートシェーダーを導入する^[2]など、グラフィックスAPIのほうにも従来のパイプラインに加えてGPGPU機能を活用するための変化が現れつつある。

その他、マイクロソフトの「C++ AMP」や、PGIの「OpenACC」^[3]など、DirectCompute/OpenCL/CUDAといったローレベルAPIをバックエンドとしながら、従来のC/C++やFortranにおけるOpenMPに近い高レベル並列プログラミング環境を提供するアクセラレータ系ライブラリ・言語拡張も出現している。

特徴と課題

メモリにシーケンシャルにアクセスし、かつ、条件分岐の無い計算に強い。そのような例に行列計算がある。苦手な物の代表として二分探索がある。二分探索は条件分岐だらけなうえ、メモリにランダムアクセスする。ポインタをたどる操作もメモリにランダムアクセスするため、連結リストや木構造なども苦手である。密行列は得意だが、疎行列は苦手で、東京大学情報基盤センターによると100倍遅い^[4]。グラフ計算においては、例えば最短経路問題では、完全グラフのような密グラフに対しては高速に計算できるが、頂点から数本しか辺が出ていないような疎グラフに対しては遅い^[5]。

条件分岐

GPUはシェーダープロセッサ（ストリームプロセッサ^[6]、ストリーミングプロセッサ^[7]とも）と呼ばれる演算ユニットを多数持ち、複数のシェーダープロセッサをまとめてクラスタとしている。これらの演算器に命令を与えるインストラクション・ユニットはクラスタごとに1台しか無く、クラスタを構成するシェーダープロセッサはそれぞれ異なるデータを与えられ、そのデータに対して同じ命令内容を一度に実行する。このようなSIMD型データ処理は3次元演算やマルチメディア処理に効果を発揮する一方で、命令中に条件分岐による分岐が入るとオーバーヘッドがかさみ、途端に効率を落としてしまう。今日のCPUでは、このようなペナルティを最小限にするためにプリフェッチ／プリデコードや投機実行／レジスタ・リネーミングといった機能を備えているが、GPUでは備えていない（限定的な条件付きで投機的実行を行なえるものもある。GPUでの動的分岐はDirectX 9.0c世代以降でようやく現実的になった^[8]^[9]）。

また、シェーダープロセッサ間でデータをやりとりする場合、遠くのデータバスを経由することになり、それがボトルネックとなってしまう。この点に関しては、DirectX 10世代の統合型シェーダーアーキテクチャ以降のハードウェアに搭載されている、小容量だがプロセッサグループ内で共有することのできる高速なキャッシュメモリ（共有メモリ）を介することで、プロセッサグループ内でのデータ交換やメモリI/Oの効率を高めることができる^[10] ^[11]。

一般のアプリケーションで条件分岐が存在しないものは珍しく、こういった制約によってGPUはオフィス・スイートのようなアプリケーションの実行には不向きである。GPGPUの発展にはいかに効率を落とさず条件分岐を行うかというのが1つの課題となっている。原理的にはシンプルなアルゴリズム構造を持ったプログラムによって、並列データ処理に最適化することがGPGPUの特長を最大限引き出すことにつながるといえる。

浮動小数点演算

AMDは2006年にR5xxコアを使用した単精度浮動小数点演算向けのストリームプロセッシング向け製品「AMD Stream Processor」（第1世代AMD FireStream）を発売^[12]、続いて2007年にR6xxコアを使用した業界初の倍精度浮動小数点演算対応HPC向けGPUである第2世代AMD FireStreamを発売^[13]した（ただし倍精度演算の速度は単精度の場合の半分となる^[14]）。また2008年に発売されたRADEON HD 4850は1チップでは世界初の1TFLOPSを達成し、このRADEON HD 4850にも使用されたR7xxコアを使用して低価格かつ高性能を売りに、HPC分野向けに第3世代AMD FireStreamを発売^[15]することになった。2010年には、さらに高性能化した第4世代AMD FireStreamを発売している。

NVIDIAも、2010年に発売された Fermi マイクロアーキテクチャの NVIDIA Tesla 20 シリーズ^[16]^[17]では倍精度演算を単精度の場合の半分の速度、2012年に発売された Kepler マイクロアーキテクチャでは1/3の速度で実行できるようになったが、依然としてGPUは倍精度の浮動小数点演算が不得意である。GPGPU 用の Tesla では倍精度用の物を載せているが、コンシューマ向けのGPUでは、多くの画像演算（特にリアルタイム3Dグラフィックス）では、整数演算や単精度の浮動小数点演算で足りてしまうために浮動小数点演算器は仮数部が24ビット程度とそれほど広くなく、コンシューマ向けでは単精度の演算器で倍精度の浮動小数点演算を行なうには、分割して幾度も演算器を使っている。

メモリ

メモリ環境についても、演算入力は少数の格子点データと幾分大きなテクスチャ・データだけであり^{[疑問点 – ノート]}、演算出力は画像1枚程度の大きさのピクセルごとに3色^{[疑問点 – ノート]}のデータを保持しながら順次それらを送り出すだけで済むため、相応に大きな^{[疑問点 – ノート]}外部の半導体メモリ（グラフィックスメモリ／ビデオメモリ／デバイスメモリ／VRAM）とかなり広い^{[疑問点 – ノート]}メモリバンド幅による接続で十分に対応しており、演算対象データの局所性が高いのでグラフィックスメモリと内部キャッシュによってデータの読み書き性能が向上すると同時に演算も途切れずに順次行える傾向が強い。

NVIDIA Tesla の Kepler マイクロアーキテクチャでは1SMXあたり最大48KBの共有メモリが使用でき、この中に収まればメモリに対するランダムアクセスは遅くはないが、この外にある DRAM にアクセスする場合、シーケンシャルアクセスだと遅くはないが、ランダムアクセスだと NVIDIA は 100 倍遅くなると表現しており^[18]、共有メモリにコピーしてから計算することを推奨している。しかしながら、48KBしかない共有メモリがアルゴリズムの幅に制限をかけている。インテルの CPU の場合、キャッシュメモリが Kepler に比べて大きいため、DRAM に対するランダムアクセスの遅さを隠蔽している。

基本的にGPUは、配列構造の単純なデータを半精度／単精度程度の浮動小数点演算によって順番に処理することで2次元の動画像データを実時間内に生成することに特化しているため、それ以外の用途ではあまり高い性能は期待できない。リアルタイム画像処理専用ICの流用では、科学技術計算でも倍精度以上の浮動小数点演算（拡張倍精度・四倍精度など）を必要とするものや、演算の局所性が低いものではそれほど高い性能は得られない。リアルタイム画像処理専用ではなく、GPUから派生して新たに開発されたGPGPU用のICでは、倍精度浮動小数点演算やより広いメモリ空間に対応したものがあり、これらは広範な科学技術計算への利用が期待される。なお、コンシューマー向けの画像処理分野ではほとんど必要とされないメモリの冗長機構であるECCがHPC分野では必須とされるため、ICを共用する場合に制約となる^[19]。

PCI-Express の遅さ

その他、コンピュータのマザーボードとディスクリートGPUを接続するPCI-Express規格は、CPU-システムメモリ間やGPU-ビデオメモリ間の帯域幅と比べてはるかに狭く、安易にGPGPUを導入しようとするとメモリ転送がボトルネックとなって逆に性能の低下を招いてしまう可能性もありうる^[20]。この点に関しては、NVIDIAが開発を進めているNVLink^[21]や、AMDが推進しているHSA (Heterogeneous System Architecture)^[22] におけるhUMA (heterogeneous Uniform Memory Access) といった解決策が模索されている。

開発およびチューニングの難しさと移植性

2015年現在、GPGPU対応プログラムの開発環境・APIとして代表的なものはCUDA、OpenCL、C++ AMP (DirectCompute) であり、GPGPU黎明期の開発環境に比べればはるかに開発しやすくなっているものの、依然としてアクセラレーターとなるハードウェアを意識したGPGPU特有のプログラミング知識が不可欠である。また、規格によってある程度標準化・抽象化されているとはいえ、いずれもデバイスとの通信を行なうローレベルのAPIを使いこなさなければならないなど、通常の C/C++ や Fortran を用いたソフトウェア開発とは次元の異なる難しさがあり、導入のハードルが高い。特に OpenCL と DirectCompute はハードウェアに共通にアクセスできる API を規定しているだけであり、低レベルの抽象度である。この点に関しては、アクセラレーターの存在を抽象化し、従来のCPUベース並列プログラミング用の共通規格 OpenMP に近い高レベルプログラミング環境を提供する OpenACC や C++ AMP といった規格も徐々に整備されつつある^[23]。

CPU上で動作するプログラムは組み込み環境を除き、ライブラリも含めて高レベルに洗練された開発環境が整っていることが多い。例えば単純な連続メモリの配列構造だけでなく、リンクリスト・二分探索木・ハッシュテーブルといった基本的なデータ構造はプログラミング言語標準ライブラリで提供されていることがほとんどだが、GPUプログラミングの場合は高速に処理できないという理由から基本的には配列構造しか用意されていない。複雑なデータ構造をGPU上で扱おうとすると、条件分岐で遅くなることや、キャッシュの小ささに起因するメモリのランダムアクセスのあまりの遅さにより、CPU で実行するよりも遅くなってしまい、CPU より高速な処理を実現するには非常に困難となる場合が多く、多くのアルゴリズムで未解決問題である^[24]。

GPGPUプログラムの移植性に関しては、CUDAはNVIDIAハードウェア専用であり、また DirectCompute (DirectX) はMicrosoftプラットフォーム（Microsoft Windows、Xbox Oneなど）専用という制約がある。一方でOpenCLは、GPUだけでなく対応するあらゆるハードウェア・あらゆるプラットフォームへ展開できる高い移植性を持っているが、性能に関するポータビリティは必ずしも確保・保証されず、場合によってはデバイスやチップごとにコードをチューニングする必要がある^[25]^[26]^[27]。

適合分野

GPGPUで性能が向上するアプリケーションとしては、

HPC
- シミュレーション（分子動力学法、格子ボルツマン法）
- 暗号解読
- 音声処理
- データベース処理
- 市況分析
- 機械学習（ニューラルネットワークなど行列計算による物）
- 最適化問題（DRAM にランダムアクセスしない物）

演算としては、

行列演算
フーリエ変換

などが期待されている^[28]。

実用ソフトウェアの登場

GPGPU技術の話題は、コンピュータ（特に資源やスペースの制約が強いパーソナルコンピュータ）の進化において近年^[いつ?]のトレンドであり課題であった。しかし、デモンストレーションばかりが先行し、実際に活用できるソフトウェアが発売されることがなかった。そもそも、CUDAやOpenCLなどの汎用APIや、それらに対応するDirectX 10世代の統合アーキテクチャGPUが出現するまでは、GPGPU開発環境は制約の強いリアルタイムグラフィックス向けAPIを直接利用したものであり、ハードルも高く、決して開発効率や再利用性が良いとは言えなかった^[29]。

2008年秋から、S3がGPUを利用したGPGPU用写真修正ソフトウェア「S3FotoPro」を発表^[30]、また動画編集加工ソフトでは動画エンコードソフトの代表格であるTMPGEncがCUDAに対応した^[31]ことを皮切りに、CyberlinkのPowerDirector 7がCUDAとATI Streamに対応した^[32]。さらに、2009年にはSuper LoiLoScope (Pixel Shader 2.0を活用) が発売^[33]、CyberlinkがMediaShow Espresso (CUDAとATI Streamに対応) を発売している。GPGPUを利用した無料で利用可能な動画エンコードソフトとして、AMDのATI AVIVO (完全無料) やNvidiaのBadaboom (30日間無料体験版) 、MediacoderのCUDAエンコーダがあげられる。

米Adobe社はCreative Suite 4 (CS4) の一部製品においてCUDAベースのGPUアクセラレーションをサポートしていたが^[34]、2010年5月28日に発売^[35]したCreative Suite 5 (CS5) においてGPGPUを正式にサポートした^[要出典]。CS5はOpenCLベースで開発されており、ほとんどすべての機能において^[要出典]GPGPUによる演算を行うことができる。本来GPUは画像処理を得意とするため、画像処理を主体とする同社のアプリケーションへの適性は高い。また、After Effects CCでは、レイトレーシングエンジンにNVIDIA OptiX（英語版）を採用している^[36]。その他にも、V-Rayなど、レイトレーシングのアクセラレータとしてGPUを活用しているレンダラーが存在する^[37]。

オープンソースの統合型3DCG作成ソフトウェアBlenderでは、GIレンダリングエンジンであるCyclesにおいてNVIDIA CUDAによるGPUレンダリングが可能となっている。なお、バージョン2.6時点ではOpenCLによるGPUレンダリングも試験的に実装が進められている^[38]。また、Autodesk 3ds Maxサブスクリプションなどに搭載されている物理ベースのGIレンダリングエンジンであるNVIDIA Irayでは、CUDAベースのGPUアクセラレーションが行なわれる^[39] ^[40] ^[41]。

その他、ネットワーク上の仮想通貨ビットコインの採掘処理にもGPUが使われている^[42]。

このように、学術・研究目的や産業用途以外にも、一般的なプロダクション向け・コンシューマー向けに関してもGPGPU技術を利用したソフトウェアが続々と登場しており、ようやくGPGPUを本格的に活用できる環境が整ってきたといえる。

脚注

[脚注の使い方]

^ GPGPUのキラーアプリケーションは「グラフィックス」－＠IT
^ 4Gamer.net ― OpenGLはDirectX 11を超え，OpenGL ESは据え置き型ゲーム機と同等以上に。Khronosの最新動向レポート
^ PGI GPU用アクセラレータコンパイラ情報サイト　－　GPU / GPGPU / CUDA 対応、CUDA Fortran
^ これからの並列計算のためのGPGPU連載講座(V) 疎行列ベクトル積を題材としたCUDA最適化プログラミング
^ Harish, Pawan; Narayanan, P. J. (2007). “Accelerating large graph algorithms on the GPU using CUDA”. Lecture Notes in Computer Science (Springer Berlin Heidelberg) 4873: 197-208. doi:10.1007/978-3-540-77220-0_21.
^ 【レビュー】549ドルのGeForce GTX TITAN対抗馬「Radeon R9 290X」をベンチマーク - PC Watch
^ 【4Gamer.net】［特集］「GeForce 8800」のポイントをブロックダイアグラムから探る
^ 【4Gamer.net】－西川善司の3Dゲームエクスタシー－ ATI, Radeon X1000シリーズ発表でSM3.0世代に突入
^ 【後藤弘茂のWeekly海外ニュース】GTCの目玉の1つ「Tegra 4/4i」のCPUアーキテクチャ
^ コンピュータアーキテクチャの話 (322) GPUが用いるメモリのアクセス時間の短縮方法 | マイナビニュース
^ 第５回　GPUの構造 | G-DEP
^ AMD、R580コアをベースにしたHPC専用プロセッサ「Stream Processor」 | マイナビニュース
^ AMDのGPGPU戦略は新章へ - ATI Streamの展望、DirectX Compute Shaderの衝撃 (1) Radeon HD 4000シリーズでネイティブGPGPU | マイナビニュース
^ AMD's RV670 does double-precision at half the speed | TG Daily
^ AMD FireStream™9250 - FirePro Server - 製品情報 - 株式会社エーキューブ
^ Tesla C2050 / C2070 GPUコンピューティングプロセッサ
^ NVIDIA TESLA C2050 - 株式会社エルザジャパン
^ Using Shared Memory in CUDA C/C++ | Parallel Forall
^ ハイブリッドアーキテクチャでスパコン市場に挑むNVIDIA - 後藤弘茂のWeekly海外ニュース（PC Watch, Impress社、2012年4月16日配信、2012年4月16日閲覧）
^ 【1カ月集中講座】骨まで理解するPCアーキテクチャ(GPU編) 第4回～GPGPU性能引き上げのカギとなるCPUとGPUの連携 - PC Watch
^ 【後藤弘茂のWeekly海外ニュース】NVIDIAの次期GPU「Pascal」の概要 - PC Watch
^ 【後藤弘茂のWeekly海外ニュース】AMD、新GPU「Tonga」がHSAの最終形であることを明らかに - PC Watch
^ 4Gamer.net ― 見えてきたAMDの次世代GPUアーキテクチャ。なぜAMDはVLIWを捨てるのか
^ レンダリング手法について-CPU or GPU? | KeyShot™総合サイト
^ » コンパイラ、そしてもっと：アクセラレーター・プログラミング
^ KAKEN - GPUによるFFT計算の自動チューニング手法の研究(22680002) - 2011年度研究実績報告書
^ GPUとXeon Phi、どちらが計算処理アクセラレータに最適か? - 実際の実行性能を比較するワークショップを首都大学東京が開催 (4) アクセラレータの課題と問題点が語られたパネルディスカッション | マイナビニュース
^ 変わった例ではカスペルスキー・ラボが現在Radeon HD 2900で行っている実証試験として、GPUのパワーを使ってセキュリティソフトによる大まかなセキュリティチェックを行う機能を開発している。これによりCPUへの負担を減らすことができるとしている[1]。
^ "これからの並列計算のためのGPGPU連載講座(I) GPUとGPGPUの歴史と特徴", 東京大学情報基盤センター, 大島聡史
^ [2]
^ [3]
^ [4]
^ [5]
^ [6]
^ ZDNet Japan Staff (2010年4月12日). “アドビ、クリエイティブ製品の最新版「CS5」を5月28日に一斉発売”. CNET Japan. 2010年8月18日閲覧。
^ GPU changes (for CUDA and OpenGL) in After Effects CC (12.1) | After Effects region of interest
^ GPUレイトレーシング | NVIDIA
^ Doc:JA/2.6/Manual/Render/Cycles/GPU Rendering - BlenderWiki
^ NVIDIA iray | NVIDIA
^ NVIDIA iray - Design Rendering with CUDA Parallel Processing | NVIDIA
^ NVIDIA Advanced Rendering: NVIDIA Iray
^ Bitcoinマイニングはまさに軍拡競争、素人お断りの現状とは？ - GIGAZINE

@@ 17行目: / 17行目: @@
 == 特徴と課題 ==
-メモリにシーケンシャルにアクセスし、かつ、条件分岐の無い計算に強い。そのような例に[[行列]]計算がある。苦手な物の代表として[[二分探索]]がある。二分探索は条件分岐だらけなうえ、メモリにランダムアクセスする。ポインタをたどる操作もメモリにランダムアクセスするため、[[連結リスト]]や[[木構造_(データ構造)|木構造]]なども苦手である。密行列は得意だが、[[疎行列]]は苦手で、[[東京大学情報基盤センター]]によると100倍遅い<ref>[http://www.cc.u-tokyo.ac.jp/support/press/news/VOL12/No5/201009_gpgpu.pdf これからの並列計算のためのGPGPU連載講座(V) 疎行列ベクトル積を題材としたCUDA最適化プログラミング]</ref>。
+メモリにシーケンシャルにアクセスし、かつ、条件分岐の無い計算に強い。そのような例に[[行列]]計算がある。苦手な物の代表として[[二分探索]]がある。二分探索は条件分岐だらけなうえ、メモリにランダムアクセスする。ポインタをたどる操作もメモリにランダムアクセスするため、[[連結リスト]]や[[木構造_(データ構造)|木構造]]なども苦手である。密行列は得意だが、[[疎行列]]は苦手で、[[東京大学情報基盤センター]]によると100倍遅い<ref>[http://www.cc.u-tokyo.ac.jp/support/press/news/VOL12/No5/201009_gpgpu.pdf これからの並列計算のためのGPGPU連載講座(V) 疎行列ベクトル積を題材としたCUDA最適化プログラミング]</ref>。グラフ計算においては、例えば[[最短経路問題]]では、[[完全グラフ]]のような密グラフに対しては高速に計算できるが、頂点から数本しか辺が出ていないような疎グラフに対しては遅い<ref>{{Cite journal
+ |first=Pawan
+ |last=Harish
+ |first2=P. J.
+ |last2=Narayanan
+ |title=Accelerating large graph algorithms on the GPU using CUDA
+ |journal=Lecture Notes in Computer Science
+ |volume=4873
+ |year=2007
+ |publisher=Springer Berlin Heidelberg
+ |pages=197-208
+ |doi=10.1007/978-3-540-77220-0_21
+ |url=http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.102.4206
+ }}</ref>。
 === 条件分岐 ===