シェーダー

シェーダー（英: shader）とは、3次元コンピュータグラフィックスにおいて、シェーディング（陰影処理）を行うコンピュータプログラムのこと。「shade」とは「次第に変化させる」「陰影・グラデーションを付ける」という意味で、「shader」は頂点色やピクセル色などを次々に変化させるもの（より具体的に、狭義の意味で言えば関数）を意味する。

概要[編集]

3DCGは様々な要素技術の集まりである。「物体」を三角形の集合で表現するモデリング、「動き」を計算するアニメーション・物理演算、「見た目」を生成するレンダリングなどである。その中でシェーダーはレンダリングの一部を担う。レンダリングは複数の段階からなるパイプライン（レンダリングパイプライン）で成っており、シェーダーはこのうちの「プログラム可能な部分」を意味する。例えば頂点シェーダーは頂点を入出力としてなんらかの処理を記述したものであり、例えばカメラを起点とする座標変換の記述に用いられる。

シェーダーはシェーディング言語を用いて記述される。頂点やピクセルが入出力に与えられ、座標変換/テクスチャマッピング/ライティングなどを含む任意の処理をプログラミングする。実行時には多くの場合シェーダープログラムはGPUへ引き渡され、頂点群やフラグメント群に対して並行的に呼び出されることで3DCGの「見た目」を生成する。

シェーダーはプログラムであるため、シェーディング言語と実行環境が許す任意の処理を記述できる。例えばピクセルシェーダーにおいて入力に含まれている色情報をすべて捨て去って真っ黒なピクセルを出力することも可能であるし、最新の研究に基づいた新しいライティングアルゴリズムを記述することもできる。シェーダーの用途（例: リアルタイムかプロダクションか、写実的かアニメ的か）によってシェーダーに記述される内容は異なり、これが3DCGの見た目の違いとなって現れる。

プロダクション用途のシェーダー[編集]

プロダクションレンダリングは、静止画あるいは動画の生成が最終目的であるが、動画の場合は複数枚の静止画をつなぎ合わせて最終的にコンポジットを行ない、動画を作り出す。

リアルタイム用途と比較すると、プロダクションレンダリングでは時間や資源の制約が少ない。例えば、映画作品の1シーンをレンダリングするために数時間から数日をかけ、高品質な映像を作り出してもかまわない。レンダリングのための膨大な一時情報（中間計算結果などのキャッシュデータ）がコンピュータの物理メモリに収まりきらない場合でも、ハードディスクなどの二次記憶領域に退避してレンダリングを続行することもできる。

プロダクション用途のシェーダーでは、時間はかかるが高品質でリアリティの高い結果を生成できる、レイトレーシングなどのより厳密な大域照明（グローバルイルミネーション）ベース・物理ベースの陰影計算モデルが用いられる。例えば、PIXARのRenderManはグローバルイルミネーションをサポートしている^[1]。

また、物体同士の相互反射光の計算や、ある物体から別の物体へ投影されるシャドウ（影）の計算は、シーン内のライト（光源）の数に比例して時間がかかるようになるが、プロダクションレンダリングではデザイナーの望む数だけ自由に光源を配置することができる。

リアルタイム用途のシェーダー[編集]

ゲームなどのリアルタイムレンダリングでは、例えば60FPSの場合1フレームの描画にかけられる時間は最大でもわずか16ミリ秒程度であり、また頂点情報やテクスチャデータの格納・参照に使用できるビデオメモリ（グラフィックスカードに直結実装されたVRAM）の容量といった制約条件が多い^[2]。そのため、リアルタイム用途のシェーダーでは、相互反射などを考慮しない、低品質だが簡潔で高速な局所照明（ローカルイルミネーション）ベースの陰影計算モデルやZバッファ技法が用いられることが大多数である。GPUの進化とリアルタイム用プログラマブルシェーダーの発展を受けて、アルゴリズムやデータ構造を工夫してグローバルイルミネーションをリアルタイム実装している例（PRT^[3]、ライトフィールド^[4]、ISPM^[5]、SVO-GI法^[6]やNVIDIA GI WorksのCLIPMAP法^[7]など）も出てきているが、高性能なハードウェアを要求するなど、2018年時点でも未だ発展途上の技術である。シャドウや多光源環境のライティングに関しても、CSM^[8]/PSSM^[9]といった種々のシャドウマップ派生技術、および遅延シェーディング・遅延ライティングなどが考案されているが、時間および資源の制約が足かせとなり、品質や柔軟性はプロダクションレンダリングに及ばない。

リアルタイム用途のシェーダーはしばしばCGプロダクションソフトウェアのプレビューにも用いられる。最終出力に必要な高資源・高品質なレンダリング（レンダリング方程式（英語版）に基づくレイトレーシングやラジオシティ、フォトンマッピングなど）の代わりにリアルタイム用途のシェーダーを用いることで素早いプレビューが可能になる。例えばAutodesk 3ds Max、Autodesk Maya、Autodesk Softimage、およびNewTek LightWave 3Dはいずれもプログラマブルシェーダーによるプレビューを実装している。また2DCGソフトウェアにもアクセラレータとしてしばしば導入される（例: Adobe PhotoshopやAdobe Flash）。GUIベースオペレーティングシステム (OS) のデスクトップ合成エンジンや標準2DグラフィックスAPIでも、Windows Aero/Direct2D (Windows) やQuartz Extreme/Core Image (macOS) などのように、GPUおよびプログラマブルシェーダーが活用される。

シェーダーステージ[編集]

多くのリアルタイム用途グラフィックスパイプラインは複数段のプログラマブルシェーダーと固定処理からなっている。プログラム可能な1つの段階（シェーダー）はシェーダーステージと呼ばれる^[10]。以下は典型的なシェーダーステージである。

表: シェーダーステージ
ステージ名	入力	出力	注記
頂点シェーダー	頂点	頂点
テッセレーション^[11]	プリミティブ	プリミティブ	しばしば "制御シェーダー" + "テッセレーション固定機能"
ジオメトリシェーダー^[12]	プリミティブ	プリミティブ
（ラスタライズ）	プリミティブ	フラグメント	固定機能
フラグメントシェーダー	フラグメント	フラグメント

OpenGL 3.2以降とDirect3D 10^[13]以降では3種類のシェーダーを使用できる。

頂点シェーダー（バーテックスシェーダー）[編集]

頂点シェーダー（英: Vertex Shader, VS）は主に入力頂点を座標変換（トランスフォーム）するための機能である。頂点シェーダーはオブジェクトを構成する頂点の集合（頂点配列、頂点バッファ）に対してのみ作用し、例えば3次元空間におけるXYZ位置座標や法線ベクトル、色、テクスチャマッピング座標（UV座標など）といった頂点の属性だけを参照・変換できる。3次元グラフィックスにおける主な座標変換にはワールド変換、ビュー変換、プロジェクション変換、およびビューポート変換が存在するが、頂点シェーダーが担当するのはワールド・ビュー・プロジェクション変換である。ワールド・ビュー変換はモデル・ビュー変換とも呼ばれる。なお頂点単位のライティングであれば、頂点シェーダーで座標変換のほかにライティング計算を行なうこともできる。頂点シェーダーで計算された頂点情報はジオメトリシェーダーに渡されるか、そのままピクセルシェーダーに渡される。

Direct3D 9では頂点シェーダーをソフトウェアエミュレーションすなわちCPUで実行することもできるが（D3DCREATE_SOFTWARE_VERTEXPROCESSING）、プログラマブルシェーダー機能に対応しているハードウェア（GPU）であれば多数のプロセッサコアを使用して並列に処理を行なうことができるので、CPUで頂点シェーダーを実行するよりもGPUを利用した方が高速になる。

なお、シェーダーモデル3.0（DirectX 9.0c、OpenGL 2.x世代）で導入されたVertex Texture Fetch (VTF) ^[14]を使用すると、頂点シェーダーステージでテクスチャデータを参照することも可能となる。シェーダーモデル4.0（DirectX 10世代）以降では、VTFはバッファデータの参照とともに標準化されている^[15]（OpenGLは3.1でVTFを標準化し、バーテックスシェーダーで少なくとも16個のTIUを使えるようになっている）。さらに、OpenGL 4.2ではすべてのシェーダーステージにおいてイメージオブジェクトに対するロード／ストアを可能にする機能が標準化された^[16]。DirectXにおいても、バージョン11.1にて、ピクセルシェーダーやコンピュートシェーダーだけでなく、すべてのシェーダーステージにおいて各種リソースに対する書き込みが可能になっている^[17]。

ジオメトリシェーダー[編集]

ジオメトリシェーダー（英: Geometry Shader, GS）はピクセルシェーダーに渡されるオブジェクト内の頂点の集合を加工するために使用される。ジオメトリシェーダーにより、実行時に頂点数を増減させたり、プリミティブの種類を変更したりすることが可能となる。OpenGLではプリミティブシェーダーとも呼ばれる。

ジオメトリシェーダーはポイント、ライン、トライアングルといった既存のプリミティブから新しいプリミティブを生成できる。

ジオメトリシェーダーは頂点シェーダーの後に実行され、プリミティブ全体または隣接したプリミティブの情報を持つプリミティブを入力する。例えばトライアングルを処理するとき、3つの頂点がジオメトリシェーダーの入力となる。ジオメトリシェーダーはラスタライズされるプリミティブを出力でき、そのフラグメントは最終的にピクセルシェーダーに渡される。またプリミティブを出力せずにキャンセルすることもできる。

ジオメトリシェーダーのよくある使い方としては、ポイントスプライトの生成、ジオメトリテセレーション、シャドウボリュームの切り出し、キューブマップあるいはテクスチャ配列へのシングルパスレンダリングなどがある。

ピクセルシェーダー[編集]

ピクセルシェーダー（英: Pixel Shader, PS）はピクセル単位のライティングやポストプロセス（後処理）を行なうための機能である。ピクセルシェーダーはラスタライズされるプリミティブの各ピクセルに影響する。また、ピクセルシェーダーにてテクスチャを参照することでバンプマッピングやフォグ、シャドウ、ブルームといったエフェクトを最終レンダリング結果に適用することもできる。OpenGLではフラグメントシェーダー（英: Fragment Shader, FS）と呼ばれる（Fragment: 断片）。

ピクセルシェーダーはピクセルを操作する機能であり、頂点シェーダーもしくはジオメトリシェーダーから入力された情報を元にテクスチャを合成したり表面色を適用したりする。ピクセルを操作する処理にかかる時間は入力プリミティブのラスタライズ後のピクセル数や出力解像度に左右されるため、通例は頂点単位の処理と比較して高負荷である。これをピクセルシェーダープログラムとしてプログラミングし、高い並列処理性能を持つGPUで実行することにより、バンプマッピング等のより高度なエフェクトをCPUですべて実行するよりもはるかに高いパフォーマンスで実現できる。なお、通常のレンダーターゲットを使ったピクセルシェーダーでは、アルファブレンド（アルファ合成）処理の詳細をプログラムすることはできない。

GPUパイプラインの概略[編集]

Direct3D 9世代までのGPUでは、頂点シェーダーおよびピクセルシェーダーを担当するハードウェアユニットの数はそれぞれ製品ごとに固定されていたが、Direct3D 10世代の統合型シェーダーアーキテクチャ（Unified Shader Architecture）では各シェーダーユニットが統合され、複数の汎用シェーダーユニットを使って上記3つのシェーダーステージに動的に振り分ける形となる^[18] ^[19] ^[20] ^[21]。

これらのシェーダーはGPUのパイプライン内で実行される。下記はパイプライン内にどのように埋め込まれているのかを示す例である。

CPUは命令とジオメトリデータをGPU側に送信する。
頂点シェーダー内でジオメトリを変換し、頂点単位ライティングの計算などを実行する。
ジオメトリシェーダーを使用する場合は、頂点シェーダーが出力したジオメトリに対してプリミティブ増減や変更を行なう。
これまでの処理で計算されたジオメトリをトライアングルセットアップに設定する。トライアングルはquadに変換される（1つのquadは2 × 2ピクセルのプリミティブである）。
ピクセルシェーダーを適用し、ピクセル単位ライティングなどを実行する。
視界判定を実行する。もし視界内にある場合はフレームバッファにピクセルを書き込む。

頂点シェーダー／ジオメトリシェーダーの出力をラスタライザーおよびピクセルシェーダーに渡すのではなく、バッファやテクスチャなどのメモリリソースに書き出した後、インプットアセンブラーや頂点シェーダー／ジオメトリシェーダーに再入力する、ストリームアウトプットという機能も存在する^[22]（OpenGLにはトランスフォームフィードバックと呼ばれる類似機能が存在する）。ストリームアウトプットはこれまでのようにGPU側でデータを参照するだけでなく、GPU自身が書き換えたデータを（CPUを介することなく）再利用することができるため、GPUパーティクルなどに応用できる^[23]。

テッセレーションシェーダー[編集]

OpenGL 4.0以降とDirect3D 11以降ではさらにテッセレーションシェーダーをオプションとして使用できる。

詳細は「テッセレーション」を参照

歴史[編集]

RenderMan Shading Languageに代表されるように、プロダクション向けの3次元コンピュータグラフィックスのレンダリングでは古くからシェーディング処理をプログラムで記述してカスタマイズし、高品質な映像を作り出すといったことは当たり前のように行なわれてきた。一方でCADソフトやゲームなどのリアルタイム 2D/3Dグラフィックスアプリケーション開発者は、ソフトウェア（CPU）による定形の簡易シェーディングあるいはグラフィックスハードウェア（グラフィックスカードにおけるGPU）に固定機能として実装されていた頂点変換・シェーディング機能（ハードウェアT&L）すなわち「定形のパイプライン」（固定機能パイプライン）を使用してグラフィック表示を行なっていた^[24]。

しかし、多数のグラフィック表現技術が次々と開発されていく中で、それらの技術をGPUメーカーが逐一ハードウェアに機能として実装していく形態は非効率であり、またユーザープログラマーが新しい技術を試すにはメーカーの対応を待たねばならなかった。この問題を解決するアイディアとして、GPUのパイプラインをソフトウェアプログラムにより組み立てる「プログラマブルパイプライン」と呼ばれるアーキテクチャが構築されることになる。以前は完全にブラックボックスだったグラフィックスパイプラインがユーザープログラマーに対して開放されることで、新たな陰影処理技法や各種エフェクト（画面効果）を試験的に実装してGPU上で走らせることが容易になり、先進的なGPUの機能を利用する優れた柔軟性と、表現力の爆発的な向上がもたらされた。

当時のOpenGL・DirectX (Direct3D) のAPIによってブラックボックスとして提供されていたシェーダーは固定機能シェーダーと呼ばれ、プログラマブルシェーダーと区別される。OpenGLにおいてはバージョン1.5からプログラマブルシェーダーが拡張として導入され、バージョン2.0からは標準化された。Direct3Dにおいてはバージョン8からプログラマブルシェーダーが導入された^[25]。OpenGL 3.1、OpenGL ES 2.0、およびDirect3D 10以降は固定機能シェーダーが廃止され、グラフィックスパイプラインはプログラマブルシェーダーによって記述される。現在ではリアルタイム処理系において「シェーダー」といえばプログラマブルシェーダーを指す^[26] ^[27]。また、Direct3D 9世代までは、頂点シェーダーとピクセルシェーダーの処理を担当するGPU内のハードウェア演算ユニット（演算器）は完全に分かれており、それぞれの演算ユニットのことを「シェーダー」と呼んでいた。そのため、かつてはグラフィックスカードのハードウェア性能指標として演算ユニット数を表すために「シェーダー数」という言葉が使われていたが、統合型シェーダーアーキテクチャを採用したDirect3D 10世代以降は「ストリームプロセッサ数（SP数）」あるいは「CUDAコア数」という言葉が用いられるようになっている^[28] ^[29] ^[30] ^[31] ^[32]。

並列処理[編集]

シェーダーは膨大な要素の集合に対して変換処理を同時に適用するように記述される。例えばモデル内の全ての頂点を一様に平行移動・回転・拡大縮小したり、スクリーン（2次元画像バッファ）の特定の範囲内の各ピクセルに対して一様にフィルタリング・輝度変換などを実行したりする、などである。これらの処理は対象となる全要素に等しく適用される。これは並列処理に非常に適しており、しばしばGPUを用いて処理される。例えばBlenderのCyclesエンジンやV-Ray RTはCUDAやOpenCLを経由してプロダクションレンダリングにGPUを活用する。

コンピュートシェーダー[編集]

GPGPU向けの汎用APIとして代表的なものはCUDAとOpenCLだが、OpenGL 4.3以降、OpenGL ES 3.1以降、およびDirect3D 11以降では、主にグラフィックス連携を重視したGPGPUのためのコンピュートシェーダー（Compute Shader、演算シェーダー）が搭載された。コンピュートシェーダーは前述のグラフィックスパイプラインとは独立して動作することのできるステージである。なお、コンピュートシェーダーは座標変換や陰影計算にとどまらない汎用計算が可能となっているため、「シェーダー」という命名はほかのシェーダーステージに合わせた便宜上のものである。Direct3Dのコンピュートシェーダーに関しては、Direct3D APIを含めた総称としてDirectComputeと呼ばれている。

コンピュートシェーダーがCUDAやOpenCLと比較して優れている点として、Direct3D（OpenGL）リアルタイムグラフィックスパイプラインとの連携がしやすい（シミュレーションの実行と可視化に向いている）、Direct3D/HLSL（OpenGL/GLSL）をすでに利用している場合は修得が容易である、などが挙げられる。

シェーディング言語[編集]

シェーダーを記述（プログラミング）するための種々の言語がプロダクションレンダリング（非リアルタイム）向けおよびリアルタイムレンダリング向けにそれぞれ開発されている。

詳細は「シェーディング言語」を参照

多くの3DCGソフトウェアやオーサリングツール、ゲームエンジンにはノードエディタと呼ばれるGUIツールが搭載されており、ノードエディタを使うことでカスタムシェーダー開発を直感的に行なうことができるが、シェーディング言語を直接利用すると細やかな調整を行なうことができる。

脚注[編集]

[脚注の使い方]

^ What is RenderMan?
^ 衝突判定など、ユーザーとのインタラクション処理に要する時間も加味すると、実際に描画処理に使える時間はさらに短くなる。そのため性能の低いモバイル機器などでは30FPSが目標値とされることもある。一方、VRの場合は通例3D酔いを避けるために最低フレームレート要件が引き上げられる。
^ 3Dグラフィックス・マニアックス (65) 事前計算放射輝度伝搬(PRT)～PRTとは? | マイナビニュース
^ 西川善司の3Dゲームファンのための「ソニック・ワールド・アドベンチャー」グラフィックス講座 -GAME Watch
^ Hardware-Accelerated Global Illumination by Image Space Photon Mapping
^ 4Gamer.net ― NVIDIAとEpicが「Unreal Engine 4」で採用された新世代グローバルイルミネーション技法を解説。その威力を直撮りムービーでチェックする
^ ［SIGGRAPH 2014］NVIDIAがゲーム向けのリアルタイム大局照明，IntelはHaswell用DX12ドライバのデモを一般展示セクションで披露 - 4Gamer.net
^ カスケードシャドウマップ
^ GPU Gems 3 - Chapter 10. Parallel-Split Shadow Maps on Programmable GPUs
^ A shader object corresponds to a stage in the rendering pipeline referred to as its shader stage or shader type OpenGL 4.6 specification
^ Tessellation is a process that reads a patch primitive and generates new primitives used by subsequent pipeline stages. OpenGL 4.6 specification
^ Geometry shaders operate on a single primitive at a time and emit one or more output primitives OpenGL 4.6 specification
^ シェーダーステージ (Direct3D 10)
^ Vertex Texture Fetch - OpenGL.org
^ Load (DirectX HLSL Texture Object) (Windows)
^ GL_ARB_shader_image_load_store
^ Direct3D 11.1 Features (Windows)
^ GeForce 8600 FAQ | NVIDIA
^ ［連載］［西川善司の3Dゲームエクスタシー］「ATI Radeon HD 2000」シリーズのGPUアーキテクチャ徹底解説
^ “共有するシェーダ”でGPUの新しい時代を──G80の革新性に迫る (1/3) - ITmedia PC USER
^ 後藤弘茂のWeekly海外ニュース
^ ストリーム出力ステージ (Direct3D 10)
^ ParticlesGS サンプル
^ DirectX 7 の Direct3D におけるライト
^ Shader Models vs Shader Profiles - MSDN
^ シェーダーの操作:「シェーダーとは、頂点の変換やピクセルの色付けなど、グラフィックス計算を実行するコンピュータープログラムで、通常 CPU の代わりにグラフィックス処理装置 (GPU) で実行されます。」
^ Working with Shaders: "A shader is a computer program that performs graphics calculations—for example, vertex transformations or pixel coloring—and typically runs on a graphics processing unit (GPU) instead of the CPU."
^ 4Gamer.net
^ SAPPHIRE X1950 PRO
^ SAPPHIRE Ultimate HD 4670 512MB GDDR3 PCI-E
^ GeForce 8800
^ GeForce GTX 680 | NVIDIA

[1] What is RenderMan?

[2] 衝突判定など、ユーザーとのインタラクション処理に要する時間も加味すると、実際に描画処理に使える時間はさらに短くなる。そのため性能の低いモバイル機器などでは30FPSが目標値とされることもある。一方、VRの場合は通例3D酔いを避けるために最低フレームレート要件が引き上げられる。

[3] 3Dグラフィックス・マニアックス (65) 事前計算放射輝度伝搬(PRT)～PRTとは? | マイナビニュース

[4] 西川善司の3Dゲームファンのための「ソニック・ワールド・アドベンチャー」グラフィックス講座 -GAME Watch

[5] Hardware-Accelerated Global Illumination by Image Space Photon Mapping

[6] 4Gamer.net ― NVIDIAとEpicが「Unreal Engine 4」で採用された新世代グローバルイルミネーション技法を解説。その威力を直撮りムービーでチェックする

[7] ［SIGGRAPH 2014］NVIDIAがゲーム向けのリアルタイム大局照明，IntelはHaswell用DX12ドライバのデモを一般展示セクションで披露 - 4Gamer.net

[8] カスケードシャドウマップ

[9] GPU Gems 3 - Chapter 10. Parallel-Split Shadow Maps on Programmable GPUs

[10] A shader object corresponds to a stage in the rendering pipeline referred to as its shader stage or shader type OpenGL 4.6 specification

[11] Tessellation is a process that reads a patch primitive and generates new primitives used by subsequent pipeline stages. OpenGL 4.6 specification

[12] Geometry shaders operate on a single primitive at a time and emit one or more output primitives OpenGL 4.6 specification

[13] シェーダーステージ (Direct3D 10)

[14] Vertex Texture Fetch - OpenGL.org

[15] Load (DirectX HLSL Texture Object) (Windows)

[16] GL_ARB_shader_image_load_store

[17] Direct3D 11.1 Features (Windows)

[18] GeForce 8600 FAQ | NVIDIA

[19] ［連載］［西川善司の3Dゲームエクスタシー］「ATI Radeon HD 2000」シリーズのGPUアーキテクチャ徹底解説

[20] “共有するシェーダ”でGPUの新しい時代を──G80の革新性に迫る (1/3) - ITmedia PC USER

[21] 後藤弘茂のWeekly海外ニュース

[22] ストリーム出力ステージ (Direct3D 10)

[23] ParticlesGS サンプル

[24] DirectX 7 の Direct3D におけるライト

[25] Shader Models vs Shader Profiles - MSDN

[26] シェーダーの操作:「シェーダーとは、頂点の変換やピクセルの色付けなど、グラフィックス計算を実行するコンピュータープログラムで、通常 CPU の代わりにグラフィックス処理装置 (GPU) で実行されます。」

[27] Working with Shaders: "A shader is a computer program that performs graphics calculations—for example, vertex transformations or pixel coloring—and typically runs on a graphics processing unit (GPU) instead of the CPU."

[28] 4Gamer.net

[29] SAPPHIRE X1950 PRO

[30] SAPPHIRE Ultimate HD 4670 512MB GDDR3 PCI-E

[31] GeForce 8800

[32] GeForce GTX 680 | NVIDIA

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]