NVIDIA Tesla

NVIDIA Tesla（エヌビディアテスラ）は、NVIDIAのデータセンター用のGPU製品シリーズ。GeForceやQuadroをベースとしており、NVIDIA初のGPGPU専用製品である。2017年のVoltaマイクロアーキテクチャ以降は Tesla という名称が消え、単に頭に NVIDIA が付くだけになった。

概要[編集]

汎用CPUに比べて浮動小数点演算性能が高く、高性能計算市場での使用を意図した製品であり、TOP500のスーパーコンピュータでも多数採用されている。主な用途は機械学習のディープラーニング、シミュレーション、大規模な計算（特に浮動小数点演算）、高品質の画像生成などで、APIとしてCUDAやOpenCL、DirectComputeを使用する。

なお同社製グラフィックス製品であるGeForceやQuadroとは異なり、TeslaシリーズはC2050/C2070などの一部を除いてディスプレイ出力を持たず、完全に演算用途に特化している。

競合となるのはAMDのAMD FireStream（AMD FirePro Sシリーズ）である。

Kepler世代以降のTeslaは353.06ドライバでOpenCL 1.2に対応している^[1]が、それ以前のG80からFermiまではOpenCL 1.1までの対応となる。

仕様と構成[編集]

表中の性能欄は、単精度／倍精度浮動小数点の理論演算性能（ピーク時）である。

Teslaマイクロアーキテクチャ[編集]

2007年 6月20日発表^[2]。G80ベースのx870シリーズは単精度浮動小数点演算のみの対応であり、倍精度浮動小数点演算は実行できない^[3]。

構成	機種名	GPU数	グラフィックスクロック (MHz)	CUDA		メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
構成	機種名	GPU数	グラフィックスクロック (MHz)	CUDAコア数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
GPUコンピューティングプロセッサ¹	C870	1	600	128	1350	77	GDDR3	384	1.5	1.6	0.519	N/A	フルハイトビデオカード
デスクサイト・スーパーコンピュータ¹	D870	2	600	256	1350	154	GDDR3	384	3	1.6	1.037	N/A	デスクサイドシステム/ラックマウント装置
GPUコンピューティングサーバ¹	S870	4	600	512	1350	307	GDDR3	384	6	1.6	2.074	N/A	1Uラック
C1060 コンピューティングプロセッサ² ^[4]	C1060	1	602	240	1296	102	GDDR3	512	4	0.800	0.933	0.078	フルハイトビデオカード IEEE 754r 機能
S1070 1U GPUコンピューティングサーバ² ^[5] ^[6]	S1070	4	602	960 (240×4)	1296/1440	408 (102×4)	GDDR3	512	16 (4×4)	?	3.73/4.14	0.311/0.345	1Uラック IEEE 754r 機能

注釈

¹ NVIDIAが明らかにしていない仕様については、GeForce 8800 GTXからの推測。
² NVIDIAが明らかにしていない仕様については、GeForce GTX 280からの推測。

Fermiマイクロアーキテクチャ[編集]

2009年 11月6日発表^[7]。ハーフレートの倍精度演算性能を実現している（倍精度の理論演算性能は単精度の場合の1/2になっている）。

機種名	GPU数	グラフィックスクロック (MHz)	CUDA		メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	グラフィックスクロック (MHz)	CUDAコア数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
C2050^{3, 5} ^[8]	1	575	448	1150	144	GDDR5	384	3	1.5	1.03	0.515	フルハイトビデオカード IEEE 754r 機能画面出力機能付き
C2070^{3, 5}	1	575	448	1150	144	GDDR5	384	6	1.5	1.03	0.515
C2075^{3, 6} ^[9]	1	575	448	1150	144	GDDR5	384	6	1.5	1.03	0.515
M2050	1	575	448	1150	148	GDDR5	384	3	1.546	1.03	0.515	フルハイト/ パッシブ・ヒートシンク型
M2070	1	575	448	1150	150	GDDR5	384	6	1.566	1.03	0.515
M2090	1	650	512	1300	177	GDDR5	384	6	1.85	1.331	0.665
S2050	4	575	1792	1150	148	GDDR5	384	12	1.55	4.13	2.06	1Uラック

注釈

³ NVIDIAが明らかにしていない仕様については、Quadro 6000からの推測。
⁵ GF100 (Quadro 6000/GeForce GTX 480) ベース^[要出典]
⁶ GF110 (GeForce GTX 580^[要出典]) ベース

Keplerマイクロアーキテクチャ[編集]

最初の製品であるTesla K10は2012年 5月16日に発表された^[10]。GK104ベースのK10は単精度の理論演算性能は高いものの、倍精度の理論演算性能が極端に低く（単精度の場合の1/24^[11]）、科学技術計算向けではなく信号処理・画像処理向けのソリューションという位置付けになっている^[12]。なおGK110ベースとなるK20およびK40、そしてGK210ベースとなるK80における倍精度の理論演算性能は単精度の場合の1/3となっている^[13] ^[14] ^[15]。2014年に発表されたTesla K8もGK104ベース^[16]だが、K8はTeslaシリーズ初の1スロット省スペース製品となる^[17]。

Fermiマイクロアーキテクチャでは SM（ストリーミング・マルチプロセッサー）と呼ばれていた概念が、KeplerマイクロアーキテクチャではSMXという名称になった。GK104/GK110の各SMXが搭載する代表的なユニットは下記である^[18] ^[19]。

192 CUDAコア。16 CUDAコアを1グループとして、12グループ搭載する。
64K個の32ビットレジスタ。合計256KB。
L1キャッシュ 64KB。このうち 16KB/32KB/48KB を共有メモリとして使用。共有メモリからは1サイクルで最大256B読み出せる。
読み取り専用キャッシュ 48KB。
特殊関数ユニット (SFU) 32個。三角関数、対数関数などを計算。

Fermi同様、各スレッド（コア）はワープ (warp) 単位で動作させる（1ワープは32スレッド）。ワープ内のスレッドは同期し、それぞれ同じ命令を実行する。16 CUDAコアを1グループとしているので、32スレッドに命令が行き渡るには2サイクル以上必要となる。その他、Kepler世代ではワープ内で共有メモリを介することなくデータ交換を可能にするシャッフル命令が実装されている。なおCompute capability (CC) に関しては、GK104はCC 3.0、GK110はCC 3.5、そしてGK210はCC 3.7^[20]となるが、CC 3.5以上ではDynamic ParallelismやHyper-Qといった機能を備えている^[21]。

フルスペックGK104では512KB、またフルスペックGK110/GK210では 1536KB (1.5MB) の L2 キャッシュを全 SMX で共有し、このキャッシュを経由して DRAM にアクセスする。なおインテルの第1世代Xeon Phiは30MB前後の L2 キャッシュを搭載しており、この点が設計の違いの一つとなる^{[独自研究?]}。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SMX数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
K8 ⁷	1	1536	8	693 811 (Boost)	160	GDDR5	256	8	2.5	2.13 2.49 (Boost)	0.09 0.10 (Boost)	フルハイト/1スロット型
K10 ⁸	2	3072 (1536x2)	8x2	745	320 (160x2)	GDDR5	256	8 (4x2)	2.5	4.577 (2.288x2)	0.191 (0.095x2)	フルハイト/ パッシブ・ヒートシンク型
K20	1	2496	13	706	208	GDDR5	320	5	2.6	3.52	1.17
K20X	1	2688	14	732	250	GDDR5	384	6	2.6	3.95	1.31
K40	1	2880	15	745 875 (Boost)	288	GDDR5	384	12	3	4.29 5 (Boost)	1.43
K80	2	4992 (2496x2)	13x2	562 875 (Boost)	480 (240x2)	GDDR5	384	24	2.5	5.6 8.74 (Boost)	1.87

注釈

⁷ GK104ベース
⁸ GK104 (GeForce GTX 690) ベース

Maxwellマイクロアーキテクチャ[編集]

MaxwellではKeplerよりもさらに倍精度サポートが削られている（単精度の場合の1/32）。M4/M40は主に機械学習・ディープラーニング向けのソリューションとして提供されている^[22] ^[23] ^[24] ^[25]。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
M6 ^[26]	1	1536	12	950 1051 (Boost)	147.3	GDDR5	256	8	2.5	3.6 (Boost)	0.11 (Boost)	MXM
M60 ^[27]	2	4096 (2048x2)	32 (16x2)	899 1178 (Boost)	320 (160x2)	GDDR5	256	16 (8x2)	2.5	9.65 (4.825x2)	0.3 (0.15x2)	フルハイト
M4 ^[28]	1	1024	8	517 1074 (Boost)	88	GDDR5	128	4	2.75	2.2 (Boost)	0.07 (Boost)	ロープロファイル/ パッシブ
M40 ^[29]	1	3072	24	948 1114 (Boost)	288	GDDR5	384	12	3	5.8 6.8 (Boost)	0.18 0.21 (Boost)	フルハイト/ パッシブ・ヒートシンク型

Pascalマイクロアーキテクチャ[編集]

最初の製品であるTesla P100は2016年4月に発表された^[30]。16nmプロセスルールを採用。GP100ベースのP100では、Fermi世代のようなハーフレートの倍精度対応のほか、ダブルレートの半精度対応も実現されている（半精度の理論演算性能は単精度の場合の2倍になっている）。メモリに第2世代のHigh Bandwidth Memory (HBM2) を採用する。NVIDIA独自のインターコネクト規格であるNVLinkにも対応し、これまでプロセッサ間の通信ボトルネックとなっていたPCI Expressを大幅に超える伝送帯域幅を実現できる。

GP102ベースのP40およびGP104ベースのP4では、倍精度の理論演算性能は単精度の場合の1/32になっている^[31]。また、SMあたりのCUDAコア数は128、共有メモリも96KBとなっており、Maxwellアーキテクチャに近い^[32]。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
P4 ^[33]	1	2560	20	810 1063 (Boost)	192	GDDR5	256	8	3	4.15 5.44 (Boost)	0.13 0.17 (Boost)	ロープロファイル
P40 ^[34]	1	3840	30	1303 1531 (Boost)	346	GDDR5	384	24	7.25	10.01 11.76 (Boost)	0.31 0.36(Boost)	フルハイト
P100 PCIe ^[35]	1	3584	56	1189 1328 (Boost)	540 / 720	HBM2	4096	12 / 16	0.715	9.5 (Boost)	4.8 (Boost)	フルハイト/ パッシブ
P100 SXM2 ^[36]	1	3583	56	1328 1480 (Boost)	720	HBM2	4096	16	0.715	10.6 (Boost)	5.3 (Boost)	NVLink/ パッシブ

Voltaマイクロアーキテクチャ^[37][編集]

最初の製品であるTesla V100は2017年5月に発表された^[38]。12nmプロセスルールを採用。行列演算を実行するための専用プロセッサ「Tensor Core」を搭載する。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
V100 PCIe	1	5120	80	1245 1380 (Boost)	900	HBM2	4096	16	0.876	14 (Boost)	7 (Boost)	フルハイト/ パッシブ
V100 SXM2	1	5120	80	1312 1530 (Boost)	900	HBM2	4096	16	0.876	15 (Boost)	7.5 (Boost)	NVLink/ パッシブ

Turingマイクロアーキテクチャ[編集]

Tesla T4が2018年9月に発売された。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
T4	1	2560	40	585 1590 (Boost)	320	GDDR6	256	16	1.25	8.1	不明	フルハイト

Ampereマイクロアーキテクチャ[編集]

最初の製品であるTesla A100は2020年5月に発売された。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
A2	1	1280	不明	1440 1770 (Boost)	200	GDDR6	128	16	6.25	4.531	0.14	ハーフハイト
A10	1	9216	84	885 1695 (Boost)	600	GDDR6	384	24	不明	31.24	0.976	フルハイト
A16	4	5120 (1280x4)	20	885 1695 (Boost)	800 (200x4)	GDDR6	128x4	64 (16x4)	6.25	18.432 (4.608x4)	1.0848	フルハイト/ 2スロット
A30	1	3584	128	930 1440 (Boost)	933	HBM2	3072	24	1.215	10.32	5.161	フルハイト/ 2スロット
A40	1	10752	84	1305 1740 (Boost)	696	GDDR6	384	48	7.251	37.42	1.168	フルハイト/ 2スロット
A100 PCIe	1	6912	108	765 1410 (Boost)	1555	HBM2	5120	40 / 80	不明	19.5	9.7	フルハイト/ 2スロット
A100 SXM	1	6912	108	765 1410 (Boost)	1555 2039	HBM2	5120	40 / 80	不明	19.5	9.7	SXM（英語版）

Hopperマイクロアーキテクチャ[編集]

最初の製品であるTesla H100は2022年3月に発売された。

機種名	GPU数	CUDA			メモリ					性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
機種名	GPU数	CUDAコア数	SM数	CUDAコアクロック (MHz)	最大帯域幅 (GB/s)	バス規格	バス幅 (bit)	総容量 (GiB)	クロック (GHz)	性能単精度 (TFLOPS)	性能倍精度 (TFLOPS)	形状など
H100 PCIe	1	14592	114	1065 1650 (Boost)	2000	HBM2e	5120	80	不明	48	24	フルハイト/ 2スロット
H100 SXM	1	16896	132	1065 1650 (Boost)	3350	HBM3	5120	80	不明	60	30	SXM（英語版）
H200 SXM					4800	HBM3e		141	不明	67	34	SXM

脚注[編集]

外部リンク[編集]

[1] Release 352 Quadro, NVS, Tesla, GRID, & Notebook Drivers - Version 353.06; RN-WQ35306-01_v01 | June 1, 2015; Windows 7, Windows 8, & Windows 8.1; Release Notes

[2] NVIDIA、G80ベースのHPC向けGPU「Tesla」

[3] Tesla Technical Brief (PDF)

[4] NVIDIA Tesla C1060コンピューティングプロセッサ―ワークステーション向けメニーコアスーパーコンピューティング

[5] NVIDIA Tesla S1070 1Uコンピューティングシステム― データーセンター向けの測定可能なメニーコアスーパーコンピューティング

[6] NVIDIA Tesla S1070 - 株式会社エルザジャパン

[7] NVIDIA、Fermi採用の並列プロセッサ「NVIDIA Tesla 20シリーズ」発表 - ITmedia エンタープライズ

[8] Tesla C2050 / C2070 GPUコンピューティングプロセッサ

[9] NVIDIA Tesla C2075 | 株式会社エルザジャパン

[10] NVIDIA Tesla K10 GPU、石油・ガスの探査や防衛産業向け信号処理・画像処理を高速化 | NVIDIA

[11] 4Gamer.net ― 「GeForce GTX TITAN」登場。500円玉より大きなモンスターGPUの“性能以外”を徹底解説

[12] 4Gamer.net ― NVIDIA，Keplerベースの新世代Teslaを発表。「GK110」コア採用の「Tesla K20」が年内に登場予定

[13] AnandTech | NVIDIA Launches Tesla K80, GK210 GPU

[14] NVIDIA，新型GPUコア「GK210」搭載のHPC向けデュアルGPUカード「Tesla K80」を発表 - 4Gamer.net

[15] NVIDIA® Tesla® GPU Accelerators Datasheet - nvidia-tesla-kepler-family-datasheet.pdf

[16] Tesla-K8-Board-Spec-BD-07228-001-v03.pdf

[17] NVIDIA Tesla K8 | 株式会社エルザジャパン

[18] 【後藤弘茂のWeekly海外ニュース】 NVIDIAが次世代GPUアーキテクチャ「Kepler」のベールを剥いだ

[19] ホワイトペーパー NVIDIAの次世代型CUDA コンピュート・アーキテクチャ Kepler GK110

[20] Whitepaper; NVIDIA’s Next Generation CUDA™ Compute Architecture: Kepler™ GK110/210

[21] Kepler Tuning Guide :: CUDA Toolkit Documentation

[22] NVIDIA，Maxwellベースの数値演算アクセラレータ「Tesla M40」「Tesla M4」を発表 - 4Gamer.net

[23] NVIDIA、Maxwellベースで7TFLOPSを実現する機械学習向け「Tesla M40」～Low Profileの1スロットの「Tesla M4」も - PC Watch

[24] NVIDIA Tesla M60 and Tesla M6 Accelerators To Power Grid 2.0 - M60 Featuring Dual-GM204 GPUs

[25] NVIDIA Announces Tesla M40 & M4 Server Cards - Data Center Machine Learning

[26] Tesla M6 Product Brief

[27] Tesla M60 Product Brief

[28] Data Sheet: Tesla M4

[29] NVIDIA Tesla M40 | 株式会社エルザジャパン

[30] ［GTC 2016］西川善司の3DGE：Teslaとして登場した新世代GPU「Pascal」，その詳細に迫る - 4Gamer.net

[31] NVIDIA，ディープラーニング向け数値演算アクセラレータ「Tesla P40」「Tesla P4」を発表 - 4Gamer.net

[32] PASCAL: 最新GPUアーキテクチャ

[33] NVIDIA Tesla P4 GPU Datasheet

[34] Data Sheet: Tesla P40

[35] Data Sheet: Tesla P100

[36] Data Sheet: Tesla P100

[37] NVIDIA TESLA V100 GPU ACCELERATOR

[38] ［GTC 2017］西川善司の3DGE：Volta世代のGPU「GV100」は，これまでと大きく異なるプロセッサだ――いったい何が？ - 4Gamer.net

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]