FLOPS
| 換算表 | ||
|---|---|---|
| 接頭辞 | FLOPS | |
| ヨタ(Y) | 1024 | |
| ゼタ(Z) | 1021 | |
| エクサ(E) | 1018 | |
| ペタ(P) | 1015 | |
| テラ(T) | 1012 | |
| ギガ(G) | 109 | |
| メガ(M) | 106 | |
FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータの性能指標の一つ。1秒間に浮動小数点数演算が何回できるかという能力を理論的/実際的(実験的)に表した値のこと。コンピュータの性能指標としては、他にMIPSやメモリバンド幅,トランズアクション処理速度などがあるが、FLOPSは科学技術計算やシミュレーションを行うスーパーコンピュータ等の性能を表す際に用いられることが多い。
数値の大きさだけでなく、理論的に算出された値の何%で実際のプログラムが動作するかということも重要である。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである(これを強調しすぎると、効率を高くするには演算器の数を減らすなどによって性能の理論上限値を下げさえすれば良いなどということになりがちではあるが)。パーソナルコンピュータ(以下パソコンと略)向けのCPUやGPUメーカーは計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピューターでは多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている(但しLINPACK値はもてはやされているが、それが計算機の能力の全てではまったくなくて、性能のある一つの切り口からみた指標に過ぎない)。
現在、家庭用のパソコンの CPU は GFLOPS、スーパーコンピュータの世界1位は PFLOPS の単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]。パソコンとスーパーコンピュータの差はおおよそ1万倍の差で推移している。
目次 |
代表的なハードウェアの浮動小数点数演算能力 [編集]
PC/Server (Intel) [編集]
| 名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Pentium | 1コア | 300MHz | 300 MFLOPS | 理論値 | 1 FLOPS/Clock × 300MHz | |
| Pentium II | 1コア | 450MHz | 450 MFLOPS | 理論値 | 1 FLOPS/Clock × 450MHz | |
| Pentium III | 1コア | 1.4GHz | 2.1 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.4GHz | |
| Pentium M | 1コア | 2.26GHz | 3.39 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.26GHz | [2] |
| Pentium 4 | 1コア | 3.8GHz | 7.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.8GHz | [2] |
| Pentium D | 2コア | 3.6GHz | 14.4 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.6GHz × 2コア | [2] |
| Intel Atom | 2コア | 1.8GHz | 10.8 GFLOPS | 理論値 | 3 FLOPS/Clock × 1.8GHz × 2コア | |
| Core Solo | 1コア | 1.83GHz | 2.75 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.83GHz | [3] |
| Core Duo | 2コア | 2.33GHz | 6.99 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.33GHz × 2コア | [3] |
| Core 2 Duo | 2コア | 3.33GHz | 26.64 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 2コア | [3] |
| Core 2 Quad | 4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [3] |
| Core i7 (i7-965, Nehalem) |
4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [3] |
| Core i7 (Sandy Bridge) |
6コア | 3.5GHz | 168 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.5GHz × 6コア | [4] |
| Core i7 (Haswell) |
4コア | 3.5GHz | 224 GFLOPS | 理論値 | 16 FLOPS/Clock × 3.5GHz × 4コア |
Core 2 Duo より1クロックで SSE で加算と乗算が計算できる[5]ようになり 128 ビット幅だと倍精度で 4 FLOPS/Clock。Sandy Bridge より搭載した Intel AVX は 256 ビット幅なので 8 FLOPS/Clock。Intel AVX 2 は FMA 命令の導入により 1 cycle で2つの FMA が実行できる[5]ので 16 FLOPS/Clock。単精度だと、これらの演算回数は2倍[6]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[7]ため、合計すると倍精度で3 FLOPS/Clockとなる。
PC/Server (AMD) [編集]
| 名称 | コア数 | クロック | FLOPS(倍精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Phenom II (X4 980 Black Edition) |
4コア | 3.7GHz | 59.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.7GHz × 4コア | |
| Phenom II (X6 1100T Black Edition) |
6コア | 3.3GHz | 79.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.3GHz × 6コア | |
| AMD Fusion E Series (Bobcat) |
2コア | 1.65GHz | 6.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 1.65GHz × 2コア | |
| AMD Opteron (Magny-Cours) |
12コア | 2.5GHz | 120 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.5GHz × 12コア | [4] |
| AMD FX (Bulldozer) |
8コア/4モジュール | 3.9GHz | 124.8 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.9GHz × 4モジュール | |
| AMD Opteron (Interlagos) |
16コア/8モジュール | 3GHz | 192 GFLOPS | 理論値 | 8 FLOPS/Clock × 3GHz × 8モジュール |
Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。
ARM [編集]
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| ARM11 | 1コア | 700MHz | 700 MFLOPS(単精度) | 理論値 | 1 FLOPS/Clock × 700MHz | |
| ARM Cortex-A8 | 1コア | 1GHz | 4 GFLOPS(単精度) | 理論値 | 4 FLOPS/Clock × 1GHz | |
| ARM Cortex-A9 | 4コア | 1.5GHz | 24 GFLOPS(単精度) 9 GFLOPS(倍精度) |
理論値 | 4 FLOPS/Clock × 1.5GHz × 4コア(単精度) 1.5 FLOPS/Clock × 1.5GHz × 4コア(倍精度) |
|
| ARM Cortex-A15 | 4コア | 2.0GHz | 64 GFLOPS(単精度) 16 GFLOPS(倍精度) |
理論値 | 8 FLOPS/Clock × 2.0GHz × 4コア(単精度) 2 FLOPS/Clock × 2.0GHz × 4コア(倍精度) |
- NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)
ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[8]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。
倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。
ゲーム機 [編集]
- ドリームキャスト: 1.4GFLOPS
- Xbox: 1.5GFLOPS
- Xbox 360: 1TFLOPS (システム全体):但し詳しい内訳は不明[9]
- ゲームキューブ: 13GFLOPS (ピーク時/システム全体)[10]
- プレイステーション・ポータブル: CPU 2.6GFLOPS / 9.6GFLOPS(ピーク時/システム全体)
- プレイステーション2: 6.2GFLOPS(Emotion Engine単体)[11]
- プレイステーション3: 218GFLOPS(Cell Broadband Engine単体)[12]、244GFLOPS (RSX単体)[13][14]
- プレイステーション4: 1.84TFLOPS(GPU単体)[13]
スーパーコンピュータ [編集]
- ENIAC: 300FLOPS
- CRAY-1: 160MFLOPS(倍精度,理論ピーク性能値)
- ディープ・ブルー: 11.38GFLOPS
- 地球シミュレータ(第1世代): 35.86TFLOPS(倍精度64ビット,LINPACKベンチマーク実測値)
- TSUBAME(第1世代): 87.01TFLOPS(倍精度,LINPACK実測値)
- T2Kオープンスパコン: 101.74TFLOPS(倍精度,LINPACK実測値)
- 地球シミュレータ(第2世代): 122.40TFLOPS
- GPUクラスタ(長崎大学、濱田剛ら): 158TFLOPS[15]
- Blue Gene/L: 478.2TFLOPS
- IBM Roadrunner: 1.105PFLOPS(倍精度、LINPACK実測値)
- TSUBAME 2.0: 1.192PFLOPS(倍精度、LINPACK実測値)
- 天河一号A: 2.566PFLOPS
- 京: 10.51PFLOPS[16][17] (LINPACK の実測値。実行効率 93.2%[18]) - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)
- IBM Sequoia: 16.32PFLOPS(倍精度、LINPACK実測値)
分散コンピューティング [編集]
- BOINC: 約 2,958.992 TFLOPS 2009年12月6日 平均値
- SETI@home: 約 731.599 TFLOPS 2009年12月6日平均値 BOINCに含む
- UD Agent: 約 65 TFLOPS 2001年10月1日 参加PC96万台時
- Folding@Home:Active合計 353,966 CPU 約 4,273 TFLOPS 2008年11月22日 参加約355万台
グラフィックスカード [編集]
単精度の積和算を 2 FLOPS/Clock で行える。
NVIDIA [編集]
- GeForce 8600 GTS: 92.8GFLOPS / 139GFLOPS(積和算 / 積和算、積算合計)
- GeForce 8800 GT: 336GFLOPS / 504GFLOPS(積和算 / 積和算、積算合計)
- GeForce 9600 GT: 208GFLOPS / 312GFLOPS(積和算 / 積和算、積算合計)
- GeForce 9800 GTX+: 470GFLOPS / 705GFLOPS(積和算 / 積和算、積算合計)
- GeForce GTX 280: 622GFLOPS / 933GFLOPS(積和算 / 積和算、積算合計)[19][20]
| 名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| GeForce GTX 480 | 480 | 1401 MHz | 1.345 TFLOPS | 理論値 | 2 FLOPS/Clock × 1401 MHz × 480コア | |
| GeForce GTX 580 | 512 | 1544 MHz | 1.581 TFLOPS | 理論値 | 2 FLOPS/Clock × 1544 MHz × 512コア | |
| GeForce GTX 590 (2GPU合計) |
1024 | 1214 MHz | 2.488 TFLOPS | 理論値 | 2 FLOPS/Clock × 1214 MHz × 1024コア | |
| GeForce GTX 680 | 1536 | 1006 MHz | 3.090 TFLOPS | 理論値 | 2 FLOPS/Clock × 1006 MHz × 1536コア | |
| GeForce GTX 690 (2GPU合計) |
3072 | 915 MHz | 5.621 TFLOPS | 理論値 | 2 FLOPS/Clock × 915 MHz × 3072コア | |
| GeForce GTX TITAN | 2688 | 876 MHz | 4.7 TFLOPS | 理論値 | 2 FLOPS/Clock × 876 MHz × 2688コア |
AMD [編集]
| 名称 | コア数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Radeon HD 3650 | 120 | 725MHz | 174 GFLOPS | 理論値 | 2 FLOPS/Clock × 725MHz × 120コア | |
| Radeon HD 3870 | 320 | 825MHz | 496 GFLOPS | 理論値 | 2 FLOPS/Clock × 825MHz × 320コア | |
| Radeon HD 4670 | 320 | 750MHz | 480 GFLOPS | 理論値 | 2 FLOPS/Clock × 750MHz × 320コア | |
| Radeon HD 4870 | 800 | 750MHz | 1.2 TFLOPS | 理論値 | 2 FLOPS/Clock × 750MHz × 800コア | |
| Radeon HD 5870 | 1600 | 850MHz | 2.72 TFLOPS | 理論値 | 2 FLOPS/Clock × 850MHz × 1600コア | |
| Radeon HD 5970 (2GPU合計) |
3200 | 725MHz | 4.64 TFLOPS | 理論値 | 2 FLOPS/Clock × 725MHz × 3200コア | [21] |
| Radeon HD 6970 | 1536 | 880MHz | 2.7 TFLOPS (単精度) 676 GFLOPS (倍精度) |
理論値 | 2 FLOPS/Clock × 880MHz × 1536コア (単精度) 0.5 FLOPS/Clock × 880MHz × 1536コア (倍精度) |
[22] |
| Radeon HD 6990 (2GPU合計) |
3072 | 830 MHz | 5.1 TFLOPS | 理論値 | 2 FLOPS/Clock × 830 MHz × 3072コア | |
| Radeon HD 7970 GHz Edition |
2048 | 1.05 GHz | 4.3 TFLOPS (単精度) 1.08 TFLOPS (倍精度) |
理論値 | 2 FLOPS/Clock × 1.05 GHz × 2048コア (単精度) 0.5 FLOPS/Clock × 1.05 GHz × 2048コア (倍精度) |
[23][22] |
| Radeon HD 7990 (2GPU合計) |
4096 | 1.0 GHz | 8.2 TFLOPS | 理論値 | 2 FLOPS/Clock × 1.0 GHz × 4096コア | [23] |
| Radeon HD 8970 GHz Edition |
2048 | 1.05 GHz | 4.3 TFLOPS (単精度) 1.08 TFLOPS (倍精度) |
理論値 | 2 FLOPS/Clock × 1.05 GHz × 2048コア (単精度) 0.5 FLOPS/Clock × 1.05 GHz × 2048コア (倍精度) |
[24] |
ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[25] であったり、倍精度の計算が出来なかったりする。
Intel [編集]
| 名称 | 実行ユニット数 | クロック | FLOPS(単精度) | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Intel GMA X4500 | 10 | 800 MHz | 32 GFLOPS | 理論値 | 4 FLOPS/EU × 800 MHz × 10EU | [26] |
| Intel HD Graphics (Nehalem) | 12 | 900 MHz | 43.2 GFLOPS | 理論値 | 4 FLOPS/EU × 900 MHz × 12EU | [26] |
| Intel HD Graphics 3000 | 12 | 1350 MHz | 129.6 GFLOPS | 理論値 | 8 FLOPS/EU × 1350 MHz × 12EU | [26] |
| Intel HD Graphics 4000 | 16 | 1300 MHz | 332.8 GFLOPS | 理論値 | 16 FLOPS/EU × 1300 MHz × 16EU | |
| Intel Iris Pro Graphics 5200 | 40 | 1300 MHz | 832 GFLOPS | 理論値 | 16 FLOPS/EU × 1300 MHz × 40EU |
HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。
Qualcomm Snapdragon [編集]
| 名称 | ALU数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Adreno 200 | 8 | 245MHz | 3.92 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 8ALU | |
| Adreno 203 Adreno 205 |
16 | 245MHz | 7.84 GFLOPS | 理論値 | 2 FLOPS/ALU × 245MHz × 16ALU | |
| Adreno 220 | 32 | 266MHz | 17.0 GFLOPS | 理論値 | 2 FLOPS/ALU × 266MHz × 32ALU | |
| Adreno 225 | 32 | 400MHz | 25.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 400MHz × 32ALU | |
| Adreno 320 | 96 | 400MHz | 76.8 GFLOPS | 理論値 | 2 FLOPS/ALU × 400MHz × 96ALU | |
| Adreno 330 | 128 | 450MHz | 115.2 GFLOPS | 理論値 | 2 FLOPS/ALU × 450MHz × 128ALU |
Apple [編集]
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Apple A4 | 1 | 200MHz | 1.6 GFLOPS | 理論値 | 8 FLOPS/Clock × 200MHz | [27] |
| Apple A5 | 2 | 200MHz | 12.8 GFLOPS | 理論値 | 32 FLOPS/コア × 200MHz × 2コア | [27] |
| Apple A5X | 4 | 200MHz | 25.6 GFLOPS | 理論値 | 32 FLOPS/コア × 200MHz × 4コア | [27] |
| Apple A6 | 3 | 266MHz | 25.5 GFLOPS | 理論値 | 32 FLOPS/コア × 266MHz × 3コア | [27] |
| Apple A6X | 4 | 280MHz | 71.6 GFLOPS | 理論値 | 64 FLOPS/コア × 280MHz × 4コア | [28] |
Texas Instruments OMAP [編集]
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| PowerVR SGX 540 | 4 | 384MHz | 6.1 GFLOPS | 理論値 | 4 FLOPS/コア × 384MHz × 4コア |
NVIDIA Tegra [編集]
| 名称 | ALU数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Tegra 2 | 8 | 333MHz | 5.6 GFLOPS | 理論値 | 2 FLOPS/ALU × 333MHz × 8ALU | |
| Tegra 3 | 12 | 500MHz | 12.48 GFLOPS | 理論値 | 2 FLOPS/ALU × 520MHz × 12ALU | [29][30] |
| Tegra 4i | 60 | 660MHz | 79.2 GFLOPS | 理論値 | 2 FLOPS/ALU × 660MHz × 60ALU | [31] |
| Tegra 4 | 72 | 672MHz | 96.768 GFLOPS | 理論値 | 2 FLOPS/ALU × 672MHz × 72ALU | [30] |
Samsung Exynos [編集]
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Exynos 3 | 1 | 200MHz | 3.2 GFLOPS | 理論値 | 16 FLOPS × 200MHz | |
| Exynos 4 Dual (45nm) | 4 | 266MHz | 9.6 GFLOPS | 理論値 | 9 FLOPS/コア × 266MHz × 4コア | |
| Exynos 4 Dual (32nm) | 4 | 400MHz | 14.4 GFLOPS | 理論値 | 9 FLOPS/コア × 400MHz × 4コア | |
| Exynos 4 Quad | 4 | 440MHz | 15.84 GFLOPS | 理論値 | 9 FLOPS/コア × 440MHz × 4コア | |
| Exynos 5 Dual | 4 | 500MHz | 72 GFLOPS | 理論値 | 36 FLOPS/コア × 500MHz × 4コア | [32] |
| Exynos 5 Octa | 3 | 533MHz | 51.2 GFLOPS | 理論値 | 32 FLOPS/コア × 533MHz × 3コア |
GPGPU [編集]
- NVIDIA Tesla C870: 510 GFlops (単精度)
- NVIDIA Tesla C1060: 933 GFlops (単精度), 78 GFlops (倍精度)
- NVIDIA Tesla C2070: 1030 GFlops (単精度), 515 GFlops (倍精度)
FPGA [編集]
- アルテラ Stratix IV: 244.5 GFLOPS (単精度、実測値 171 GFLOPS)[33][34] - FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[35]。それに対して、GPUは1クロックで行える。
- ザイリンクス Virtex-5 SX240T: 162.52 GFLOPS (単精度)[36][37]
脚注 [編集]
- ^ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
- ^ a b c Intel® microprocessor export compliance metrics
- ^ a b c d e Intel Corp.. “プロセッサー製品の複合理論性能 (CTP) 値について(Intel)”. 2009年10月1日閲覧。
- ^ a b PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
- ^ a b Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
- ^ IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch
- ^ Agner Fog, The microarchitecture of Intel, AMD and VIA CPUs
- ^ 5.5.2. NEON データ型および VFP データ型 - ARM
- ^ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
- ^ ATIのグラフィックスチップ技術が「Nintendo GAMECUBE」に採用(マイコミジャーナル)
- ^ WiKi 但し、日経エレクトロニクス1999年10-4号によると、これほどの性能ではないとの見解が出ている。
- ^ http://pc.watch.impress.co.jp/docs/2005/0518/kaigai180.htm
- ^ a b http://www.4gamer.net/games/990/G999024/20130224001/
- ^ PlayStation.com(Japan)但しアメリカ「スタンフォード大学」のタンパク質解析にPS3が参加しているため、実測値がインターネットで確認できる。計算すると20GFLOPS前後の実測値を得られる。OS 別クライアント統計 Folding@home for PS3
- ^ “[http://www.nagasaki-u.ac.jp/main/gakujutsu/2009/gaku20091126.pdf GPU クラスタによる高性能計算技術の実証: 長崎大学濱田剛テニュアトラック助教らの GPU クラスタによる計算がゴードン・ベル賞を受賞] (PDF)”. 2010年6月2日閲覧。
- ^ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
- ^ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
- ^ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
- ^ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
- ^ GeForce GTX 200 GPU Technical Brief
- ^ “米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル”. 2009年12月7日閲覧。
- ^ a b AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown
- ^ a b GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」
- ^ AMD Radeon HD 8970 GHz Edition GPU Feature Summary (OEM)
- ^ AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs
- ^ a b c [http://software.intel.com/sites/billboard/sites/default/files/Intel_Processor_Graphics_DirectX_Developers_Guide.pdf Intel® Processor Graphics DirectX* Developer's Guide]
- ^ a b c d AnandTech - The iPhone 5 Performance Preview
- ^ The Tegra 4 GPU, NVIDIA Claims Better Performance Than iPad 4
- ^ AnandTech - Analysis of the new Apple iPad
- ^ a b 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに
- ^ 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース
- ^ Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual
- ^ アルテラ浮動小数点メガファンクション
- ^ 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。
- ^ 浮動小数点メガファンクション ユーザーガイド
- ^ FPGAを用いた高性能コンピューティング
- ^ Revaluating FPGAs for 64-bit Floating-Point Calculations