C++ AMP

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動先: 案内検索

C++ AMP (C++ Accelerated Massive Parallelism) [1]とは、マイクロソフトが中心になって開発している、演算アクセラレータを活用した並列プログラミングのためのC++言語拡張およびライブラリである。バックエンドとしてDirectCompute (DirectX) やOpenCLなどを使用した実装が存在している。C++ AMPによって、DirectComputeやOpenCLよりも高レベルの並列プログラミングAPIが提供される。

概要[編集]

マイクロソフトはWindows上においてGPGPUを標準化するために、DirectX 11にてDirectComputeを導入した。しかし、DirectComputeはDirect3D APIを直接操作する必要があるため、OpenMPを利用した一般的なCPU向けのC++並列プログラミングなどと比較してハードルが高い[2]。マイクロソフトはより抽象化された純粋C++プログラミングに近いGPU並列プログラミングモデルを提供するAPIおよび言語拡張として、2012年にC++ AMPの仕様を公開した[3]。また、マイクロソフトによるC++ AMPの公式プロプライエタリ実装として、Microsoft Visual C++ 2012はDirectComputeをバックエンドとした最初のC++ AMP対応コンパイラとなっている。

C++ AMPのライブラリおよびC++ AMPに対応したVisual C++コンパイラが付属しているのはVisual Studio 2012以降であるが、Visual Studio 2013ではC++ AMP v1.2規格に対応し、さらにコンピュートシェーダー以外のシェーダーステージとの相互運用やテクスチャフィルタリング(サンプラー)などの機能が強化されている[4] [5] [6]

なお、C++ AMP自体はDirectCompute/Windows専用というわけではなく、またGPU専用というわけでもない[7]AMDとマイクロソフトは、OpenCLなどをバックエンドとするLinuxOS X向けのC++ AMP v1.2オープン実装を発表した[8]。その後、同コンパイラはMulticoreWareを経てRadeon Open Compute (ROCm) プラットフォームに移管され、Clamp, Kalmar, HCCと名前を変えながら開発が続けられている[9]。HCCでは、OpenCLのカーネル記述言語"OpenCL C"や中間言語"SPIR"[10]、およびHSA (Heterogeneous System Architecture英語版) の中間言語"HSAIL"[11]への変換層が提供され、Visual C++版よりもさらにヘテロジニアス環境向けを意識した実装となっている。

MSDNブログではCUDA、OpenCL、DirectComputeプログラマー向けに、各APIに対応するC++ AMP相当機能の比較資料が公開されている。

コード例[編集]

C++ AMPのコード例を示す。OpenMP#pragma omp parallel forのように、並列処理するコード単位すなわちカーネルを、C++11ラムダ式を使ってインラインで記述している部分が特徴的である。デフォルトのアクセラレーターを使用する場合、OpenCLやDirectComputeのような冗長なデバイス準備処理の記述も不要となる。

なおVisual C++実装では、実行環境にDirectX 11対応のGPUが搭載されている場合、restrict(amp)句が指定されたコードの実行にはGPUが使用される[12]。対応GPUが搭載されていない場合は、Direct3D WARPデバイスやREFデバイスなどによるCPUエミュレーション実行(フォールバック)が提供される[13]

等差数列を作成する例[編集]

#include <amp.h>
using namespace concurrency;

void main()
{
    const int ElemCount = 100;
    int ary[ElemCount];
    array_view<int, 1> av(ElemCount, ary);

    parallel_for_each(extent<1>(ElemCount),
    [=](index<1> idx) restrict(amp) 
    {
        int i = idx[0];
        av[i] = i;
    });
    av.synchronize();
}

多次元配列の例[編集]

#include <cstdio>
#include <amp.h>
#include <amp_graphics.h>

using namespace concurrency;
using namespace concurrency::graphics;

void main()
{
    const int width = 10;
    const int height = 3;
    const int depth = 2;
    const int elemCount = width * height * depth;

    std::vector<float_3> srcHost(elemCount);
    std::vector<float_3> dstHost(elemCount);

    for (int z = 0; z < depth; ++z)
        for (int y = 0; y < height; ++y)
            for (int x = 0; x < width; ++x)
            {
                srcHost[z * height * width + y * width + x] = float_3(float(x), float(y), float(z));
            }

    array_view<float_3, 3> srcView(depth, height, width, srcHost);
    array_view<float_3, 3> dstView(depth, height, width, dstHost);

    parallel_for_each(
        dstView.extent,
        [=](index<3> idx) restrict(amp)
    {
        const auto globalx = idx[2];
        const auto globaly = idx[1];
        const auto globalz = idx[0];
        auto temp = srcView[idx];
        if (globaly == 0)
        {
            temp += 0.5f;
        }
        if (globalz == 0)
        {
            temp *= -1;
        }
        dstView[idx] = temp;
    });

    dstView.synchronize();
    for (int z = 0; z < depth; ++z)
        for (int y = 0; y < height; ++y)
            for (int x = 0; x < width; ++x)
            {
                const auto val = dstHost[z * height * width + y * width + x];
                printf("[%d][%d][%d] = (%.1f, %.1f, %.1f)\n", z, y, x, val.x, val.y, val.z);
            }
}


関連項目[編集]

参照[編集]

外部リンク[編集]