OpenCL

OpenCL
作者	Apple Inc.
開発元	Khronos Group
最新版	2.1 revision 23 / 2015年11月11日 (8年前)
対応OS	クロスプラットフォーム
種別	API
ライセンス	ロイヤリティフリー
公式サイト	www.khronos.org/opencl; www.khronos.org/webcl
	テンプレートを表示

OpenCL（オープンシーエル、英: Open Computing Language）は、OpenCL C言語による、マルチコア CPUやGPU、Cellプロセッサ、DSPなどによる異種混在の計算資源（ヘテロジニアス環境、ヘテロジニアス・コンピューティング、英: Heterogeneous）を利用した並列コンピューティングのためのクロスプラットフォームなフレームワークである。用途には高性能計算サーバやパーソナルコンピュータのシステムのほか、携帯機器などでの利用も想定されており、組み込みシステム向けに必要条件を下げたOpenCL Embedded Profileが存在する。

仕様

OpenCLの仕様はアップル社によって提案されたのち、標準化団体クロノス・グループの作業部会OpenCL Working Group（旧Compute Working Group）によって策定されている。仕様はロイヤリティフリーなオープン標準として公開されており、仕様に基づいたフレームワークの実装はサードパーティによって行われる。ただし、実装されたフレームワークに対して許諾される商標ライセンスに必要な仕様一致性テストには、'nominal fee'（名目上の手数料）が必要である^[2]。

特徴

OpenCLには次のような特徴がある。

CPU（CL_DEVICE_TYPE_CPU）、GPU（CL_DEVICE_TYPE_GPU）、およびCellやXeon Phi^[3]など（CL_DEVICE_TYPE_ACCELERATOR）の各種計算資源のサポート
C言語（ISO C99規格）をベースにしたOpenCL C、あるいはC++言語（ISO C++14規格）をベースにしたOpenCL C++プログラミング言語によるカーネル記述
- 組み込みのベクトル型およびベクトル演算のサポート（float2型、float4型などや、Swizzle演算など）
- オンラインのOpenCL Cコンパイラ
SPIR（英語版）およびSPIR-V中間表現のサポート（SPIR 1.2/2.0 for OpenCL 1.2/2.0, SPIR-V 1.0 for OpenCL 2.1）
データ並列およびタスク並列のプログラミングモデルのサポート
同期ポイント以外での内容の一貫性（Consistency）を保証しない、緩和型一貫性共有メモリモデル（relaxed-consistency shared memory model）
同期ポイントおよびOpenCLアトミック操作でのホスト・デバイス間のメモリ一貫性を保証する共有仮想メモリ（shared virtual memory: SVM, OpenCL 2.0）[1]
IEEE 754準拠の単精度浮動小数点数（float型）演算のサポート
- ポインタ渡しおよびfloat型との相互変換関数経由でのアクセスに限定されるIEEE 754-2008準拠の半精度浮動小数点数（half型）
  - OpenCL 1.0においては、half型の直接演算は拡張による任意サポートに留まる
- OpenCL 1.0においては、倍精度浮動小数点数（double型）は拡張による任意サポートに留まる
2次元／3次元のイメージオブジェクトのサポート
OpenGLおよびOpenGL ESのバッファ、テクスチャ、レンダーバッファとの連携（cl_gl.h、OpenCL 1.0以降の拡張^[4]）
OpenGL ESのイメージ、ディスプレイ、同期オブジェクトとの連携（cl_egl.h、OpenCL 1.2以降の拡張）
Direct3D 10のバッファおよびテクスチャとの連携（cl_d3d10.h、OpenCL 1.0以降の拡張）
Direct3D 11のバッファおよびテクスチャとの連携（cl_d3d11.h、OpenCL 1.2以降の拡張）
DirectX 9のメディアサーフェイス連携（cl_dx9_media_sharing.h、OpenCL 1.2以降の拡張）

OpenCL類似技術にNVIDIAのCUDA（後述）が存在するが、OpenCLにはCUDA同様に、3DグラフィックスAPIであるOpenGL（クロスプラットフォーム）およびDirect3D（Windowsプラットフォーム専用）との相互運用性（Interoperability）がAPIレベルで確保されている。

なお、OpenCLの動作ターゲットとしての用件を満たしたGPU（主にDirectX 10世代以上の統合型シェーダーアーキテクチャを採用したGPU）で使用できるDirect3D API（Direct3D 10およびDirect3D 11）との相互運用機能は、クロノスが管理しているOpenCL API公式拡張でサポートされるが、Direct3D 9との相互運用機能は、OpenCL 2.0時点でもベンダーごとの拡張機能依存となっている（cl_d3d9_ext.h）。

OpenCLでのhalf型のサポート状況は、CUDAとよく似ている^[5]。また、OpenGL/Direct3Dでは浮動小数点テクスチャ（データストレージ）のフォーマットとしてFP32のほかにFP16を選択できるが、シェーダープログラム中で利用できる演算精度は一般的には単精度となる（GPUが得意とする演算精度は単精度であるため）。

歴史

2008年6月10日（日本時間）のWorldwide Developers Conferenceにおいて、Mac OS X Snow Leopard（v10.5 Leopardの次期メジャーバージョンとされる）に搭載される予定の技術の1つとして初めて発表された^[6]。

標準化団体クロノス・グループの2008年6月16日に発足した作業部会Compute Working Group (CWG) において、アップル社によってOpenCLの仕様草案が提案された^[7]。CWGはGPUとCPUのヘテロジニアス（異種混在）な計算技術のロイヤリティフリーな標準化を目的としており、発足時点では3Dlabs、AMD、アップル、ARM、Codeplay、エリクソン、フリースケール・セミコンダクタ、Graphic Remedy、IBM、イマジネーション・テクノロジーズ（英語版）、インテル、ノキア、NVIDIA、モトローラ、QNX、クアルコム、サムスン、Seaweed、テキサス・インスツルメンツ、スウェーデン・ウメオ大学が参加している。

2008年8月のSIGGRAPH 2008および同年11月のSupercomputing 2008 (SC08)において、仕様策定の進捗状況が発表され、同時期にCompute Working Groupは名称をOpenCL Working Groupと改められ、新たにアクティビジョン・ブリザード、バルコ、ブロードコム、エレクトロニック・アーツ、エイチアイ、ケストレル研究所、Movidia、RapidMind（英語版）、TAKUMIが参加している。11月10日にはRapidMind社が自社の並列コンピューティング開発環境においてOpenCLを採用すると発表した^[8]。

2008年 12月9日のSIGGRAPH Asia 2008において、正式版となるOpenCL 1.0の仕様が発表された^[9]。またほぼ同時期に、AMD社とNVIDIA社はそれぞれ自社のGPGPU技術であるATI StreamおよびCUDAにおいてOpenCL 1.0を採用すると発表した^[10]^[11]。OpenCL 1.0対応の最初のプラットフォームとして、Mac OS X Snow Leopardが2009年 8月28日にリリースされた。

2010年 6月14日、OpenCL 1.1 を発表^[12]。 float3型の追加、clSetKernelArg()関数以外のスレッドセーフ化^[13]など。

2011年 11月15日、OpenCL 1.2 を発表^[14]。分割コンパイル＆リンク対応、SubDeviceの追加、SPIR 1.2拡張機能、3Dイメージの書き込み拡張機能^[15]など。

2013年 7月22日、OpenCL 2.0 を発表^[16]。 read_write修飾子^[17]、共有仮想メモリ (Shared Virtual Memory) や動的並列処理 (Dynamic Parallelism) 対応など。

2015年 11月16日、OpenCL 2.1を発表^[18]。カーネル記述言語へのC++14サブセット導入、SPIR-V中間言語によるVulkan API (OpenGL Next Generation, glNext) とのプログラミング基盤共通化など。

類似技術

OpenCLのように異種プロセッサをバックエンドとして活用するAPIは、GPGPU黎明期のものや、GPU専用のもの、特定のベンダー専用のもの、そして仕様が標準化されていないものまで含めると多数存在する。

CUDA（Compute Unified Device Architecture）: NVIDIA社によるGeForce／Quadro／Tesla／TegraシリーズGPU用のGPGPU開発・実行環境。C言語を拡張したCUDA Cによる開発を可能にする（Ver.2.2以降はC++言語を拡張したCUDA C++による開発も可能となっている）。NVIDIAによるコンパイラ実装nvccだけでなく、オープンソースコンパイラのLLVMでもCUDAコンパイラの実装が始まっている^[19] ^[20]。また、PGI社からはCUDA Fortran Compilerが提供されている^[21]。
Close to Metal（英語版）（CTM, Close To the Metal）: AMD社によるATI系GPUのストリームプロセッサインターフェイス。ハードウェアに近いローレベル制御を可能とする^[22]。
AMD Stream（旧ATI Stream）: AMD社によるATI系GPU用のGPGPU開発・実行環境。CTMをCompute Abstraction Layer（CAL）^[23]によって抽象化し、Brook言語をCAL用に拡張したBrook+言語による開発を可能にする。なおAMDは「GPGPUでDirectX 11およびOpenCLをフルサポートする」と発表し^[24] ^[25]、CCC 11.2でRadeon HDシリーズ以上のGPU向けにOpenCLドライバーが標準搭載された^{[疑問点 – ノート]}^[要出典]。; その後、同社はHSA推進とともに、独自規格ではなくOpenCLをヘテロジニアス戦略の中核とする方向に舵を切り直した。AMDによるCPU/GPU/APU対応の総合基盤テクノロジーは「AMD Accelerated Parallel Processing」（AMD APP）と呼ばれており、SDKの名称もATI Stream SDKからAMD APP SDKに変更・統一されている。
Sh（英語版）（libsh）: ウォータールー大学コンピュータグラフィックス研究室の成果に基づいた、RapidMind社によるシェーダープログラミングおよびGPGPUのためのメタプログラミング技術。C++言語による開発を可能にする。LGPLライセンスで公開されている。
RapidMind: RapidMind（英語版）社による商用並列コンピューティング開発環境。GPU／マルチコアCPU／Cellプロセッサをバックエンドに利用できる。C++言語による開発を可能にする。
BrookGPU（英語版）（Brook for GPU）: スタンフォード大学コンピュータグラフィックス研究室によるストリーム・コンピューティング開発環境。GPUおよびOpenMPによるマルチコアCPU演算をバックエンドに利用できる。C言語（ANSI C）を拡張したBrook言語による開発を可能にする。BSDライセンスおよびGPLライセンスで公開されている。
PeakStream: PeakStream社による商用ストリーム・コンピューティング開発環境。GPU／マルチコアCPU／Cellプロセッサをバックエンドに利用できる。PeakStream社は2007年6月頃までにGoogle社によって買収されている。
DirectCompute: マイクロソフトが開発・配布しているDirectXテクノロジーのひとつであり、DirectX 11/DirectX 12セットに含まれるGPGPU向けのAPI。GPGPU向けのシェーダーステージとして導入されたCompute Shaderを利用する。HLSLをカーネル記述言語とする。グラフィックス連携用途を重視している^[26]。動作環境はWindows Vista以降のWindows OSおよびXbox One。
C++ AMP: ハードウェアアクセラレートされた並列処理をC++言語で記述できるようにする高レベルのライブラリ・言語拡張。DirectComputeをバックエンドとするMicrosoft Visual C++実装のほか、OpenCLなどをバックエンドとするLinux向けのC++ AMPオープン実装もある^[27] ^[28]。
OpenGL Compute Shader: DirectXに搭載されている前述のCompute Shader同様、OpenGLでもバージョン4.3でGPGPU向けのシェーダーステージが標準化された。GLSLをカーネル記述言語とする。
OpenMP LEO (Language Extensions for Offload): IntelによるIntel MIC (Many Integrated Core) およびGFXへオフロードするためのOpenMP拡張。ICC (Intel C++ Compiler) に実装されている^[29]。
OpenMP 4.0以降: offloadに対応している。OpenMP®/Clangはoffloadに未対応^[30]。GCC 5.0はMICへのオフロードに対応する予定^[31]。
OpenACC: OpenMPのようにコード中にディレクティブを挿入することで、並列処理のハードウェアアクセラレートを行なえるようにする規格^[32]。PGI社が開発した技術で、同社のPGIコンパイラに初めて搭載された^[33]。そのほかには、GCC 5.0に搭載される^[34]。
SPMD Programming Language: Intelによって開発された、C言語を拡張したSPMD（英語版）対応言語であり、Intel SPMD Program Compiler (ISPC) でコンパイル可能^[35]。ISPCはオープンソースであり、バックエンドにLLVMを使用している^[35]。IntelのCPUやXeon Phiだけでなく、NVIDIA Kepler GPUにも対応している^[36]。ISPCを導入している例としては、オープンソースのレイトレーシングエンジンであるEmbreeがある^[37]。

OpenCL開発環境

OpenCLを使用したクライアントプログラムを開発するための代表的なソフトウェア開発キット（SDK）として、主に各ハードウェアベンダーから下記のSDKが提供されている。

NVIDIA CUDA Toolkit: Windows, Linux, OS X (Mac) 用が提供されている。かつてNVIDIAのOpenCL SDKは"NVIDIA GPU Computing SDK"に含まれていて、CUDA SDKとは独立していたが、CUDA 5.0からはCUDA Toolkitにすべて含まれるようになった。以前のバージョンのGPU Computing SDKはアーカイブとして公開されているが、CUDA Toolkitのページから直接たどることはできない^[60] ^[61]。"CUDA Toolkit 7.5"時点でOpenCL 1.2に対応している^[62] ^[63] ^[64]。
AMD Accelerated Parallel Processing SDK: Windows, Linux用が提供されている。"AMD APP SDK 3.0"時点でOpenCL 2.0、SPIR（英語版） 1.2に対応している^[65] ^[66] ^[67]。
Intel® SDK for OpenCL™ Applications, Intel Integrated Native Developer Experience (Intel INDE): Windows, Linux, Android 用が提供されている。単独の "Intel SDK for OpenCL" (Intel OpenCL SDK) のほか、2015年からは統合ツールとして Intel INDE も提供されている。OpenCL 2.0、SPIR（英語版） 1.2をサポートしている^[68] ^[69]。
Qualcomm Adreno SDK: Snapdragon 向け
ARM Mali OpenCL SDK: ARM Mali（英語版）を採用したSoC向け。SDK v1.1時点でOpenCL 1.1に対応している。
Imagination PowerVR SDK: Apple の SoC 等で使われている PowerVR 向け
IBM OpenCL SDK: Linux (x86, PowerPC) 用が提供されている。
Beignet (Intel): Linux用。オープンソース。LLVMベース。
OpenCL for OS X (Apple): OS Xの標準機能としてOpenCLをサポートしている^[70]。2015年4月時点で、OpenCL 1.2までをサポートする（ただし対応バージョンはハードウェアにもよる^[71]）。
Altera SDK for OpenCL: FPGA上で動作するOpenCLプログラムを開発することができる。x86プロセッサ対応のエミュレータも提供されている。
Xilinx SDAccel: FPGA上で動作するOpenCLプログラムを開発することができる。

各SDKには、標準OpenCL API用のC/C++言語用ヘッダーなどのほか、ベンダーごとに拡張された機能を使うためのライブラリなども含まれるため、ハードウェアベンダーやOSに依存しないOpenCLプログラムを開発する場合は注意が必要となる。

OpenCLのプログラムは、GLSLを利用したOpenGLプログラムとほぼ同じ要領で開発することができ、CUDAプログラムのような専用オフラインコンパイラ（nvcc）を必要としないため、様々なプラットフォームへの展開が容易となることが利点である。ただし初回の実行時コンパイル（オンラインコンパイル）に時間がかかるなどのデメリットも存在する。この点に関しては、実運用時にはclCreateProgramWithSource()関数によるオンラインコンパイルは行なわず、clGetProgramInfo()関数とclCreateProgramWithBinary()関数を用いてコンパイル済みバイナリからプログラムオブジェクトを生成する方法もある^[72] ^[73] ^[74] ^[75]（ただしベンダーごとのOpenCLバイナリ間における互換性は保証されない）。なお、OpenCL 1.2、2.0、2.1では、SPIR（英語版）およびSPIR-Vと呼ばれる中間表現（中間言語、バイトコード）をサポートすることにより、ベンダーに依存しないカーネルコードをコンパイル・実行することができるようになる^[76]。ただし、SPIR 1.2およびSPIR 2.0はOpenCL 1.2およびOpenCL 2.0の拡張機能（cl_khr_spir^[77]）となっており、サポート必須の機能ではない。一方、SPIR-VはOpenCL 2.1のコア機能となる^[78]。

OpenCLプロファイラー

OpenCL対応のプロファイラーが各社からリリースされている。従来の非並列プログラムと比較するとOpenCLプログラムはデバッグやチューニングが難しく、プロファイラーは性能ボトルネックの特定やコード改善に有効なツールである。

Intel VTune Amplifier（有償）: マルチコアCPU対応のプロファイラーだが、OpenCL^[79]のほか、DirectXにも対応している^[80]。
AMD CodeXL（無償）: CPU/GPUのデバッギング／プロファイリング用ツール。OpenCLのほか、OpenGLやDirect3D (DirectCompute) 開発にも使用できる^[81]。
NVIDIA Nsight（無償）: OpenCLのほか、CUDA、Direct3D (DirectCompute)、およびOpenGLに対応している^[82]。

OpenCLシミュレータ／エミュレータ

GPGPU-Sim（無償）: GPUのサイクルレベルシミュレータ。CUDAおよびOpenCLに対応している。Linux専用であり、また実行にはNVIDIAドライバーが必要となる^[83]。
AMD OpenCL™ Emulator-Debugger (ocl-emu)（無償）: AMDによるOpenCLソフトウェアエミュレータのオープンソース実装。2012年10月12日版において、OpenCL 1.2に対応している。対応OSはMicrosoft Windows XP以降で、ビルドにMicrosoft Visual Studio 2008/2010を必要とし、また実行プラットフォームとしてAMD Accelerated Parallel Processing (AMD APP) SDKを必要とする^[84]。

ラッパー

Khronosが公開しているOpenCL APIはC/C++言語向けのヘッダーおよびC++言語用ラッパークラスのヘッダー（cl.hpp）のみだが、各種言語用にラッパーライブラリがオープンソースコミュニティなどによって開発されている。

C++
C#
- Cloo - SourceForge.net
- The Open Toolkit library - SourceForge.net
D言語
- cl4d
ECMAScript (JavaScript)
- WebCL
  - node-webcl
  - Nokia (Firefox) - http://webcl.nokiaresearch.com/
  - Samsung (WebKit) - https://github.com/SRA-SiliconValley/webkit-webcl
- River Trail
Java
- Aparapi
- JogAmp - OpenCL, OpenGL, OpenAL, OpenMAX の Java ラッパー
- LWJGL - OpenCL, OpenGL, OpenAL などの Java ラッパー
LISP系
- Harlan
Python
- PyOpenCL
- PyOpenCL - SourceForge.net
Ruby
- Ruby-OpenCL
thinBasic
- OpenCL 1.1 headers

ベンチマーク

LuxMark - 定番のレンダリングベンチマーク。
x264 OpenCL - Phoronix Test Suiteに含まれるベンチマークの一つ^[85]。
CompuBench CL
Rodinia Benchmark Suite - 多種のベンチマークがある。
OpenDwarfs
Parboil Benchmarks
PolyBench/GPU
SHOC benchmark suite

採用事例

画像処理/映像処理においては、OpenCLもしくはCUDAによるGPGPU対応が進んでいる。また、3DCGの物理演算およびレンダリングも同様である。音声処理においては、DSPによる固定小数点処理が主流のため、GPGPUはあまり使われていない^[要出典]。

Adobe Premiere Pro CS6 ^[86]
Adobe Photoshop CC ^[87]
Blender ^[88]
LuxRender
V-Ray ^[89] ^[90] ^[91] ^[92]
OpenCV - OpenCV 2.4.3^[93]でOpenCLを使ったアクセラレータoclモジュールが追加された。
アルテラオプティカルフロー - 車載FPGAを利用した物体検知システム^[94] ^[95]。
OpenSubdiv ^[96]
ImageMagick
FFmpeg ^[97] - 一部のフィルタのみ。
x264 ^[85] - lookahead処理にOpenCLを使うことができる。
Bullet 3.x
Tesseract

脚注

[脚注の使い方]

^ Lee Howes (2015年11月11日). “The OpenCL Specification Version: 2.1; Document Revision: 23”. Khronos OpenCL Working Group. 2015年12月13日閲覧。
^ OpenCL Overview December 2008 (PDF) 、2008年12月
^ The OpenCL* Platform on Intel(R) Processors
^ Khronos OpenCL Registry
^ Accelerating GPU computation through mixed-precision methods
^ アップル、Mac OS X Snow Leopardをデベロッパにプレビュー、2008年6月10日
^ Khronos Launches Heterogeneous Computing Initiative、2008年6月16日
^ RapidMind Embraces Open Source and Standards Projects to Increase Focus on Simplifying Parallel Programming for Application Developers、2008年11月10日
^ The Khronos Group Releases OpenCL 1.0 Specification
^ AMD Adopts OpenCL™ 1.0 Specification Ratified Today by The Khronos™ Group, Reaffirms Commitment to Open Standards for CPU+GPU Compute、2008年12月8日
^ NVIDIA Adds OpenCL To Its Industry Leading GPU Computing Toolkit、2008年12月9日
^ Khronos Drives Momentum of Parallel Computing Standard with Release of OpenCL 1.1 Specification - Khronos Group Press Release
^ clSetKernelArg
^ Khronos Releases OpenCL 1.2 Specification - Khronos Group Press Release
^ write_image (3D)
^ Khronos Releases OpenCL 2.0 - Khronos Group Press Release
^ Access Qualifiers: read_writeはCUDA SurfaceやDirectCompute RWTextureといったDirectX 11世代の機能に相当する。
^ Khronos Releases OpenCL 2.1 and SPIR-V 1.0 Specifications for Heterogeneous Parallel Programming - Khronos Group Press Release
^ “How To Compile CUDA Code With LLVM”. Phoronix (2015年11月11日). 2015年11月15日閲覧。
^ “Compiling CUDA C/C++ with LLVM — LLVM 3.8 documentation”. LLVM Project (2015年11月13日). 2015年11月15日閲覧。
^ NVIDIAのCUDAアーキテクチャGPUにおけるFortranサポート
^ AMDのGPGPU戦略は新章へ - ATI Streamの展望、DirectX Compute Shaderの衝撃 (2) ATI Streamとは? | マイナビニュース
^ "Close to the Metal", Justin Hensley, AMD Graphics Product Group
^ AMD、DirectX 11/OpenCLのGPGPUをフルサポートへ
^ AMD Drives Adoption of Industry Standards in GPGPU Software Development
^ 後藤弘茂のWeekly海外ニュース
^ AMDとMS，GPU演算用途向けのコンパイラ「C＋＋ AMP v1.2」を発表 - 4Gamer.net
^ multicoreware / cppamp-driver-ng / wiki / Home — Bitbucket
^ Initiating an Offload on Intel® Graphics Technology Intel
^ OpenMP®/Clang
^ OpenMP 4.0 Offloading For Intel MIC Lands In GCC 5 Phoronix 2014年11月13日
^ OpenACC ディレクティブによるプログラミング by PGI Compilers
^ OpenACC ディレクティブによるプログラミング by PGI Compilers
^ OpenACC Changes Merged Today For GCC 5 Phoronix 2015年1月15日
^ ^a ^b Intel SPMD Program Compiler - Overview Intel Corporation
^ Intel SPMD Program Compiler User's Guide - Compiling For The NVIDIA Kepler GPU Intel Corporation
^ Embree Overview Intel Corporation
^ ^a ^b PTX and SASS Assembly Debugging NVIDIA
^ Kernelet: High-Throughput GPU Kernel Executions with Dynamic Slicing and Scheduling ( arXiv:1303.5164v1 [cs.DC] ) Jianlong Zhong, Bingsheng He
^ maxas - Getting Started Nervana Systems
^ MaxAs Nervana Systems
^ nervanagpu/nervanagpu/kernels/sass at master · NervanaSystems/nervanagpu · GitHub Nervana Systems
^ ^a ^b NVIDIA Compute - PTX: Parallel Thread Execution NVIDIA
^ Inline PTX Assembly in CUDA NVIDIA
^ NVIDIA OpenCL SDK Code Samples NVIDIA
^ Clang 3.0 Release Notes LLVM Project
^ User Guide for NVPTX Back-end LLVM Project
^ ^a ^b User Guide for NVPTX Back-end - Running the Kernel LLVM Project
^ “AMD Intermediate Language Reference Guide - October 2011 v.2.4”. AMD (2011年10月). 2015年11月15日閲覧。
^ AMD CAL Programming Guide
^ Mantle Programming Guide and API Reference; Revision 1.0; March 6, 2015
^ LLVM 3.3 Release Notes LLVM Project
^ A Detailed Look at the R600 Backend AMD
^ Fedora Package DB - intel-gen4asm Red Hat
^ TGSI — Gallium 0.4 documentation
^ “A Very Early Gallium3D TGSI Back-End For LLVM”. Phoronix (2013年4月22日). 2015年11月15日閲覧。
^ The first open standard intermediate language for parallel compute and graphics Khronos Group
^ “AMD Accelerated Parallel Processing OpenCL™ User Guide - December 2014 rev1.0”. AMD. p. 3-14 (2014年12月). 2015年11月15日閲覧。
^ 【後藤弘茂のWeekly海外ニュース】 AMD GPUとモバイルGPUで同じプログラムを走らせるHSA構想
^ CUDA Toolkit 4.1 - archive
^ CUDA Toolkit 4.2 - archive
^ CUDA Toolkit 7.0以前のバージョンに含まれるのはOpenCL 1.1対応のヘッダーとライブラリのみである。また、Fermi世代以前のハードウェアではOpenCL 1.1どまりとなる。
^ Release 349 Graphics Drivers for Windows, Version 350.12; RN-W35012-01v01 | April 13, 2015; Windows Vista / Windows 7 / Windows 8 / Windows 8.1 KeplerおよびMaxwell世代以降のGeForceはWindows用350.12ドライバーでOpenCL 1.2に正式対応している。
^ Release 352 Quadro, NVS, Tesla, GRID, & Notebook Drivers - Version 353.06; RN-WQ35306-01_v01 | June 1, 2015; Windows 7, Windows 8, & Windows 8.1; Release Notes KeplerおよびMaxwell世代以降のQuadroおよびTeslaはWindows用353.06ドライバーでOpenCL 1.2に正式対応している。
^ AMD's APP SDK 3.0 Beta with OpenCL 2.0 support
^ AMD APP SDK v3.0 Beta Developer Release Notes
^ AMD OpenCL™ 2.0 Driver AMD OpenCL 2.0ドライバーはGCN第1世代以降のAMDグラフィックス製品と互換性がある。
^ Intel® OpenCL™ Code Builder | Intel® Developer Zone
^ OpenCL* 2.0 の不均等なワークグループ | iSUS Broadwell世代以降のIntel CoreシリーズはOpenCL 2.0に対応している。
^ インテル® SDK for OpenCL Applications 2013 よくある問い合わせ | iSUS
^ Mac computers that use OpenCL and OpenGL graphics - Apple サポート
^ clGetProgramInfo
^ clCreateProgramWithBinary
^ OpenCL meets FPGA #1 入門編 - Qiita
^ Knowledge Base - AMD
^ クロノス・グループ、SPIR 2.0の暫定仕様を公開 - 日刊工業新聞 Business Line - 企業発表
^ cl_khr_spir
^ SPIR - The first open standard intermediate language for parallel compute and graphics
^ Intel® VTune™ Amplifier XE: Getting started with OpenCL* performance analysis on Intel® HD Graphics | Intel® Developer Zone
^ インテル® VTune™ Amplifier XE | iSUS
^ CodeXL for game developers: How to analyze your HLSL for GCN - AMD
^ NVIDIA Nsight Visual Studio Edition
^ gpgpu-sim/gpgpu-sim_distribution · GitHub
^ OpenCL Emu Documentation
^ ^a ^b Trying Intel OpenCL On Linux For Video Encoding Phoronix 2014年9月2日
^ CUDA/OpenCL/Mercury Playback Engine について（Adobe Premiere Pro）
^ Photoshop CC および CC 2014 GPU FAQ
^ Dev:2.6/Source/Render/Cycles/OpenCL - BlenderWiki
^ V-Ray Japanese official website - Chaos Group / Chaos Software / OakCorp.
^ V-Ray Japanese official website - Chaos Group / Chaos Software / OakCorp.
^ V-Ray RT and GPU rendering
^ GPUレイトレーシング | NVIDIA
^ OpenCV 2.2 Released - ROS robotics news
^ アルテラ、国際カーエレクトロクス技術展（カーエレJAPAN）に出展
^ オートモーティブワールド2015 開催直前情報：アルテラが披露するFPGAを活用した“今すぐ使える”車載向けソリューション - MONOist（モノイスト）
^ PixarAnimationStudios/OpenSubdiv · GitHub
^ FFmpeg 2.0 Released With OpenCL, Many Changes Phoronix 2013年7月10日

外部リンク

Khronos Group
- OpenCL - The open standard for parallel programming of heterogeneous systems（英語）
- Khronos OpenCL Registry（英語）
- Khronos SPIR Registry（英語）
- Khronos SPIR-V Registry（英語）

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[1] Lee Howes (2015年11月11日). “The OpenCL Specification Version: 2.1; Document Revision: 23”. Khronos OpenCL Working Group. 2015年12月13日閲覧。

[2] OpenCL Overview December 2008 (PDF) 、2008年12月

[3] The OpenCL* Platform on Intel(R) Processors

[4] Khronos OpenCL Registry

[5] Accelerating GPU computation through mixed-precision methods

[6] アップル、Mac OS X Snow Leopardをデベロッパにプレビュー、2008年6月10日

[7] Khronos Launches Heterogeneous Computing Initiative、2008年6月16日

[8] RapidMind Embraces Open Source and Standards Projects to Increase Focus on Simplifying Parallel Programming for Application Developers、2008年11月10日

[9] The Khronos Group Releases OpenCL 1.0 Specification

[10] AMD Adopts OpenCL™ 1.0 Specification Ratified Today by The Khronos™ Group, Reaffirms Commitment to Open Standards for CPU+GPU Compute、2008年12月8日

[11] NVIDIA Adds OpenCL To Its Industry Leading GPU Computing Toolkit、2008年12月9日

[12] Khronos Drives Momentum of Parallel Computing Standard with Release of OpenCL 1.1 Specification - Khronos Group Press Release

[13] SetKernelArg

[14] Khronos Releases OpenCL 1.2 Specification - Khronos Group Press Release

[15] write_image (3D)

[16] Khronos Releases OpenCL 2.0 - Khronos Group Press Release

[17] Access Qualifiers: read_writeはCUDA SurfaceやDirectCompute RWTextureといったDirectX 11世代の機能に相当する。

[18] Khronos Releases OpenCL 2.1 and SPIR-V 1.0 Specifications for Heterogeneous Parallel Programming - Khronos Group Press Release

[19] “How To Compile CUDA Code With LLVM”. Phoronix (2015年11月11日). 2015年11月15日閲覧。

[20] “Compiling CUDA C/C++ with LLVM — LLVM 3.8 documentation”. LLVM Project (2015年11月13日). 2015年11月15日閲覧。

[21] NVIDIAのCUDAアーキテクチャGPUにおけるFortranサポート

[22] AMDのGPGPU戦略は新章へ - ATI Streamの展望、DirectX Compute Shaderの衝撃 (2) ATI Streamとは? | マイナビニュース

[23] "Close to the Metal", Justin Hensley, AMD Graphics Product Group

[24] AMD、DirectX 11/OpenCLのGPGPUをフルサポートへ

[25] AMD Drives Adoption of Industry Standards in GPGPU Software Development

[26] 後藤弘茂のWeekly海外ニュース

[27] AMDとMS，GPU演算用途向けのコンパイラ「C＋＋ AMP v1.2」を発表 - 4Gamer.net

[28] ulticoreware / cppamp-driver-ng / wiki / Home — Bitbucket

[29] Initiating an Offload on Intel® Graphics Technology Intel

[30] OpenMP®/Clang

[31] OpenMP 4.0 Offloading For Intel MIC Lands In GCC 5 Phoronix 2014年11月13日

[32] OpenACC ディレクティブによるプログラミング by PGI Compilers

[33] OpenACC ディレクティブによるプログラミング by PGI Compilers

[34] OpenACC Changes Merged Today For GCC 5 Phoronix 2015年1月15日

[ISPC-overview-35] Intel SPMD Program Compiler - Overview Intel Corporation

[36] Intel SPMD Program Compiler User's Guide - Compiling For The NVIDIA Kepler GPU Intel Corporation

[37] Embree Overview Intel Corporation

[ptx-and-sass-38] PTX and SASS Assembly Debugging NVIDIA

[39] Kernelet: High-Throughput GPU Kernel Executions with Dynamic Slicing and Scheduling ( arXiv:1303.5164v1 [cs.DC] ) Jianlong Zhong, Bingsheng He

[40] xas - Getting Started Nervana Systems

[41] MaxAs Nervana Systems

[42] rvanagpu/nervanagpu/kernels/sass at master · NervanaSystems/nervanagpu · GitHub Nervana Systems

[ptx-isa-43] NVIDIA Compute - PTX: Parallel Thread Execution NVIDIA

[44] Inline PTX Assembly in CUDA NVIDIA

[45] NVIDIA OpenCL SDK Code Samples NVIDIA

[clang-3.0-46] Clang 3.0 Release Notes LLVM Project

[llvm-ptx-47] User Guide for NVPTX Back-end LLVM Project

[llvm-ptx-running-the-kernel-48] User Guide for NVPTX Back-end - Running the Kernel LLVM Project

[49] “AMD Intermediate Language Reference Guide - October 2011 v.2.4”. AMD (2011年10月). 2015年11月15日閲覧。

[50] AMD CAL Programming Guide

[51] Mantle Programming Guide and API Reference; Revision 1.0; March 6, 2015

[52] LLVM 3.3 Release Notes LLVM Project

[53] A Detailed Look at the R600 Backend AMD

[54] Fedora Package DB - intel-gen4asm Red Hat

[55] TGSI — Gallium 0.4 documentation

[56] “A Very Early Gallium3D TGSI Back-End For LLVM”. Phoronix (2013年4月22日). 2015年11月15日閲覧。

[57] The first open standard intermediate language for parallel compute and graphics Khronos Group

[58] “AMD Accelerated Parallel Processing OpenCL™ User Guide - December 2014 rev1.0”. AMD. p. 3-14 (2014年12月). 2015年11月15日閲覧。

[59] 【後藤弘茂のWeekly海外ニュース】 AMD GPUとモバイルGPUで同じプログラムを走らせるHSA構想

[60] CUDA Toolkit 4.1 - archive

[61] CUDA Toolkit 4.2 - archive

[62] CUDA Toolkit 7.0以前のバージョンに含まれるのはOpenCL 1.1対応のヘッダーとライブラリのみである。また、Fermi世代以前のハードウェアではOpenCL 1.1どまりとなる。

[63] Release 349 Graphics Drivers for Windows, Version 350.12; RN-W35012-01v01 | April 13, 2015; Windows Vista / Windows 7 / Windows 8 / Windows 8.1 KeplerおよびMaxwell世代以降のGeForceはWindows用350.12ドライバーでOpenCL 1.2に正式対応している。

[64] Release 352 Quadro, NVS, Tesla, GRID, & Notebook Drivers - Version 353.06; RN-WQ35306-01_v01 | June 1, 2015; Windows 7, Windows 8, & Windows 8.1; Release Notes KeplerおよびMaxwell世代以降のQuadroおよびTeslaはWindows用353.06ドライバーでOpenCL 1.2に正式対応している。

[65] AMD's APP SDK 3.0 Beta with OpenCL 2.0 support

[66] AMD APP SDK v3.0 Beta Developer Release Notes

[67] AMD OpenCL™ 2.0 Driver AMD OpenCL 2.0ドライバーはGCN第1世代以降のAMDグラフィックス製品と互換性がある。

[68] Intel® OpenCL™ Code Builder | Intel® Developer Zone

[69] OpenCL* 2.0 の不均等なワークグループ | iSUS Broadwell世代以降のIntel CoreシリーズはOpenCL 2.0に対応している。

[70] インテル® SDK for OpenCL Applications 2013 よくある問い合わせ | iSUS

[71] Mac computers that use OpenCL and OpenGL graphics - Apple サポート

[72] GetProgramInfo

[73] CreateProgramWithBinary

[74] OpenCL meets FPGA #1 入門編 - Qiita

[75] Knowledge Base - AMD

[76] クロノス・グループ、SPIR 2.0の暫定仕様を公開 - 日刊工業新聞 Business Line - 企業発表

[77] _khr_spir

[78] SPIR - The first open standard intermediate language for parallel compute and graphics

[79] Intel® VTune™ Amplifier XE: Getting started with OpenCL* performance analysis on Intel® HD Graphics | Intel® Developer Zone

[80] インテル® VTune™ Amplifier XE | iSUS

[81] CodeXL for game developers: How to analyze your HLSL for GCN - AMD

[82] NVIDIA Nsight Visual Studio Edition

[83] u-sim/gpgpu-sim_distribution · GitHub

[84] OpenCL Emu Documentation

[phoronix-x264-opencl-85] Trying Intel OpenCL On Linux For Video Encoding Phoronix 2014年9月2日

[86] CUDA/OpenCL/Mercury Playback Engine について（Adobe Premiere Pro）

[87] Photoshop CC および CC 2014 GPU FAQ

[88] Dev:2.6/Source/Render/Cycles/OpenCL - BlenderWiki

[89] V-Ray Japanese official website - Chaos Group / Chaos Software / OakCorp.

[90] V-Ray Japanese official website - Chaos Group / Chaos Software / OakCorp.

[91] V-Ray RT and GPU rendering

[92] GPUレイトレーシング | NVIDIA

[93] OpenCV 2.2 Released - ROS robotics news

[94] アルテラ、国際カーエレクトロクス技術展（カーエレJAPAN）に出展

[95] オートモーティブワールド2015 開催直前情報：アルテラが披露するFPGAを活用した“今すぐ使える”車載向けソリューション - MONOist（モノイスト）

[96] PixarAnimationStudios/OpenSubdiv · GitHub

[97] FFmpeg 2.0 Released With OpenCL, Many Changes Phoronix 2013年7月10日

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

[96]

[97]

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハイパースレッディング
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチスレッディングマルチプロセッシングメモリコヒーレンス Cache invalidation（英語版） Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit parallelism（英語版） Explicit parallelism（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型マルチコアメモリ NUMA en:COMA en:分散型共有型分散共有型 SMT MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	en:Embarrassingly parallel en:Grand Challenge en:Software lockout
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング