FLOPS

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
換算表
接頭辞 FLOPS
ヨタ(Y) 1024
ゼタ(Z) 1021
エクサ(E) 1018
ペタ(P) 1015
テラ(T) 1012
ギガ(G) 109
メガ(M) 106

FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータ性能指標の一つ。1秒間に浮動小数点数演算が何回できるか 数値の大きさだけでなく、理論的に算出された値の何%で実際のプログラムが動作するかということも重要である。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである(これを強調しすぎると、効率を高くするには演算器の数を減らすなどによって性能の理論上限値を下げさえすれば良いなどということになりがちではあるが)。パーソナルコンピュータ(以下パソコンと略)向けのCPUGPUメーカーは計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピューターでは多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている(但しLINPACK値はもてはやされているが、それが計算機の能力の全てではまったくなくて、性能のある一つの切り口からみた指標に過ぎない)。

現在、家庭用のパソコンの CPU は GFLOPS、スーパーコンピュータの世界1位は PFLOPS の単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]。パソコンとスーパーコンピュータの差はおおよそ1万倍の差で推移している。

代表的なハードウェアの浮動小数点数演算能力[編集]

PC/Server (Intel)[編集]

名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Pentium 1コア 300MHz 300 MFLOPS 理論値 1 FLOPS/Clock × 300MHz
Pentium II 1コア 450MHz 450 MFLOPS 理論値 1 FLOPS/Clock × 450MHz
Pentium III 1コア 1.4GHz 2.1 GFLOPS 理論値 1.5 FLOPS/Clock × 1.4GHz
Pentium M 1コア 2.26GHz 3.39 GFLOPS 理論値 1.5 FLOPS/Clock × 2.26GHz [2]
Pentium 4 1コア 3.8GHz 7.6 GFLOPS 理論値 2 FLOPS/Clock × 3.8GHz [2]
Pentium D 2コア 3.6GHz 14.4 GFLOPS 理論値 2 FLOPS/Clock × 3.6GHz × 2コア [2]
Intel Atom 2コア 1.8GHz 10.8 GFLOPS 理論値 3 FLOPS/Clock × 1.8GHz × 2コア
Core Solo 1コア 1.83GHz 2.75 GFLOPS 理論値 1.5 FLOPS/Clock × 1.83GHz [3]
Core Duo 2コア 2.33GHz 6.99 GFLOPS 理論値 1.5 FLOPS/Clock × 2.33GHz × 2コア [3]
Core 2 Duo 2コア 3.33GHz 26.64 GFLOPS 理論値 4 FLOPS/Clock × 3.33GHz × 2コア [3]
Core 2 Quad 4コア 3.2GHz 51.2 GFLOPS 理論値 4 FLOPS/Clock × 3.2GHz × 4コア [3]
Core i7
(i7-965, Nehalem)
4コア 3.2GHz 51.2 GFLOPS 理論値 4 FLOPS/Clock × 3.2GHz × 4コア [3]
Core i7
(Sandy Bridge)
6コア 3.5GHz 168 GFLOPS 理論値 8 FLOPS/Clock × 3.5GHz × 6コア [4]
Core i7
(Haswell)
4コア 3.5GHz 224 GFLOPS 理論値 16 FLOPS/Clock × 3.5GHz × 4コア

Core 2 Duo より1クロックで SSE で加算と乗算が計算できる[5]ようになり 128 ビット幅だと倍精度で 4 FLOPS/Clock。Sandy Bridge より搭載した Intel AVX は 256 ビット幅なので 8 FLOPS/Clock。Intel AVX 2 は FMA 命令の導入により 1 cycle で2つの FMA が実行できる[5]ので 16 FLOPS/Clock。単精度だと、これらの演算回数は2倍[6]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[7]ため、合計すると倍精度で3 FLOPS/Clockとなる。

PC/Server (AMD)[編集]

名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Phenom II
(X4 980 Black Edition)
4コア 3.7GHz 59.2 GFLOPS 理論値 4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II
(X6 1100T Black Edition)
6コア 3.3GHz 79.2 GFLOPS 理論値 4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series
(Bobcat)
2コア 1.65GHz 6.6 GFLOPS 理論値 2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron
(Magny-Cours)
12コア 2.5GHz 120 GFLOPS 理論値 4 FLOPS/Clock × 2.5GHz × 12コア [4]
AMD FX
(Bulldozer)
8コア/4モジュール 3.9GHz 124.8 GFLOPS 理論値 8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron
(Interlagos)
16コア/8モジュール 3GHz 192 GFLOPS 理論値 8 FLOPS/Clock × 3GHz × 8モジュール

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。

ARM[編集]

名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
ARM11 1コア 700MHz 700 MFLOPS(単精度) 理論値 1 FLOPS/Clock × 700MHz
ARM Cortex-A8 1コア 1GHz 4 GFLOPS(単精度) 理論値 4 FLOPS/Clock × 1GHz
ARM Cortex-A9 4コア 1.5GHz 24 GFLOPS(単精度)
9 GFLOPS(倍精度)
理論値 4 FLOPS/Clock × 1.5GHz × 4コア(単精度)
1.5 FLOPS/Clock × 1.5GHz × 4コア(倍精度)
ARM Cortex-A15 4コア 2.0GHz 64 GFLOPS(単精度)
16 GFLOPS(倍精度)
理論値 8 FLOPS/Clock × 2.0GHz × 4コア(単精度)
2 FLOPS/Clock × 2.0GHz × 4コア(倍精度)
  • NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[8]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。

ゲーム機[編集]

スーパーコンピュータ[編集]

名称 FLOPS 理論値/実測値 システム概要 参照
ENIAC 300FLOPS
CRAY-1 160MFLOPS 倍精度, 理論ピーク性能値
ディープ・ブルー 11.38GFLOPS
地球シミュレータ(第1世代) 35.86TFLOPS 倍精度64ビット, LINPACK実測値 TOP500 Jun 2002 1位
TSUBAME 1.2 87.01TFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2009 41位
T2Kオープンスパコン 101.74TFLOPS 倍精度, LINPACK実測値
地球シミュレータ(第2世代) 122.4TFLOPS TOP500 Jun 2009 16位
GPUクラスタ(長崎大学濱田剛ら) 158TFLOPS [17]
Blue Gene/L 478.2TFLOPS TOP500 Nov 2007 1位
IBM Roadrunner 1.105PFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2008 1位
TSUBAME 2.0 1.192PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2011 4位
天河一号A 2.566PFLOPS TOP500 Nov 2010 1位
TSUBAME 2.5 2.843PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2013 11位 , Green500 6位
10.510PFLOPS LINPACK実測値 TOP500 Jun 2011 1位

実行効率 93.2%[18] - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)

[19][20]
IBM Sequoia 17.172PFLOPS 倍精度, LINPACK実測値 TOP500 Nov 2012 1位
天河二号 33.862PFLOPS 倍精度, LINPACK実測値 TOP500 Jun 2013 1位

分散コンピューティング[編集]

  • BOINC: 約 8,563.365 TFLOPS 2013年12月26日平均値 Active台数:986,613台(8.51%)[21]
    • SETI@home: 約 658.210 TFLOPS 2013年12月26日平均値 BOINCに含む
  • UD Agent: 約 65 TFLOPS 2001年10月1日 参加PC96万台時
  • Folding@Home:Active合計 353,966 CPU 約 4,273 TFLOPS 2008年11月22日 参加約355万台

グラフィックスカード[編集]

単精度の積和算を 2 FLOPS/Clock で行える。

NVIDIA[編集]

名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
GeForce GTX 480 480 1401 MHz 1.345 TFLOPS 理論値 2 FLOPS/Clock × 1401 MHz × 480コア
GeForce GTX 580 512 1544 MHz 1.581 TFLOPS 理論値 2 FLOPS/Clock × 1544 MHz × 512コア
GeForce GTX 590
(2GPU合計)
1024 1214 MHz 2.488 TFLOPS 理論値 2 FLOPS/Clock × 1214 MHz × 1024コア
GeForce GTX 680 1536 1006 MHz 3.090 TFLOPS 理論値 2 FLOPS/Clock × 1006 MHz × 1536コア
GeForce GTX 690
(2GPU合計)
3072 915 MHz 5.621 TFLOPS 理論値 2 FLOPS/Clock × 915 MHz × 3072コア
GeForce GTX TITAN 2688 876 MHz 4.7 TFLOPS 理論値 2 FLOPS/Clock × 876 MHz × 2688コア

AMD[編集]

名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Radeon HD 3650 120 725MHz 174 GFLOPS 理論値 2 FLOPS/Clock × 725MHz × 120コア
Radeon HD 3870 320 825MHz 496 GFLOPS 理論値 2 FLOPS/Clock × 825MHz × 320コア
Radeon HD 4670 320 750MHz 480 GFLOPS 理論値 2 FLOPS/Clock × 750MHz × 320コア
Radeon HD 4870 800 750MHz 1.2 TFLOPS 理論値 2 FLOPS/Clock × 750MHz × 800コア
Radeon HD 5870 1600 850MHz 2.72 TFLOPS 理論値 2 FLOPS/Clock × 850MHz × 1600コア
Radeon HD 5970
(2GPU合計)
3200 725MHz 4.64 TFLOPS 理論値 2 FLOPS/Clock × 725MHz × 3200コア [24]
Radeon HD 6970 1536 880MHz 2.7 TFLOPS (単精度)
676 GFLOPS (倍精度)
理論値 2 FLOPS/Clock × 880MHz × 1536コア (単精度)
0.5 FLOPS/Clock × 880MHz × 1536コア (倍精度)
[25]
Radeon HD 6990
(2GPU合計)
3072 830 MHz 5.1 TFLOPS 理論値 2 FLOPS/Clock × 830 MHz × 3072コア
Radeon HD 7970
GHz Edition
2048 1.05 GHz 4.3 TFLOPS (単精度)
1.08 TFLOPS (倍精度)
理論値 2 FLOPS/Clock × 1.05 GHz × 2048コア (単精度)
0.5 FLOPS/Clock × 1.05 GHz × 2048コア (倍精度)
[26][25]
Radeon HD 7990
(2GPU合計)
4096 1.0 GHz 8.2 TFLOPS 理論値 2 FLOPS/Clock × 1.0 GHz × 4096コア [26]
Radeon R9 290X 2816 1.0 GHz 5.6 TFLOPS (単精度)
1.408TFLOPS (倍精度)
理論値 2 FLOPS/Clock × 1.0 GHz × 2816コア (単精度)
0.5 FLOPS/Clock × 1.0 GHz × 2816コア (倍精度)

ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[27] であったり、倍精度の計算が出来なかったりする。

Intel[編集]

名称 EU クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Intel GMA X4500 10 800MHz 32 GFLOPS 理論値 4FLOPS/Clock * 10EU * 800MHz [28]
Intel HD Graphics (Clarkdale) 12 900MHz 43.2 GFLOPS 理論値 4FLOPS/Clock * 12EU * 900MHz [28]
Intel HD Graphics 3000 12 1.35GHz (Max) 129.6 GFLOPS 理論値 8FLOPS/Clock * 12EU * 1.35GHz [28]
Intel HD Graphics 4000 16 1.35GHz (Max) 345.6 GFLOPS 理論値 16FLOPS/Clock * 16EU * 1.35GHz [29]
Intel HD Graphics (Haswell) 10 1.2GHz (Max) 192 GFLOPS 理論値 16FLOPS/Clock * 10EU * 1.2GHz [29]
Intel Iris Pro Graphics 5200 40 1.3GHz (Max) 832 GFLOPS 理論値 16FLOPS/Clock * 40EU * 1.3GHz [30]

HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。

Qualcomm Snapdragon[編集]

名称 ALU数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Adreno 200 8 245MHz 3.92 GFLOPS 理論値 2 FLOPS/ALU × 245MHz × 8ALU
Adreno 203
Adreno 205
16 245MHz 7.84 GFLOPS 理論値 2 FLOPS/ALU × 245MHz × 16ALU
Adreno 220 32 266MHz 17.0 GFLOPS 理論値 2 FLOPS/ALU × 266MHz × 32ALU
Adreno 225 32 400MHz 25.6 GFLOPS 理論値 2 FLOPS/ALU × 400MHz × 32ALU
Adreno 320 (Snapdragon S4 Pro) 64 400MHz 57 GFLOPS 理論値 64 ALU х 0.400MHz x 2GFLOPS x 1.125 additional Scalar (57GFLOPS) [31]
Adreno 320 (Snapdragon 600) 96 400MHz 86.4 GFLOPS 理論値 96 ALU х 0.400MHz x 2GFLOPS x 1.125 additional Scalar (86.4GFLOPS) [31]
Adreno 330 128 450MHz 129.6GFLOPS 理論値 128 ALU х 0.450MHz x 2GFLOPS x 1.125 additional Scalar

(129.6 GFLOPS)

[31]

Apple (iPhone & iPad)[編集]

Chipset GPU Core / Cluster GPU MHz FLOPS Device GPU Model & Calculate GFLOPS Source
Apple A4 Apple A4 Chip.jpg
1 Core
200MHz
1.6 GFLOPS
iPhone 4
PowerVR SGX535 @ 200 MHz (2vec4)

4 x 2 х 0.200 = 1.6 GFLOPS

[32]
Apple A4 Apple A4 Chip.jpg
1 Core
250MHz
2 GFLOPS
iPad
PowerVR SGX535 @ 250 MHz (2vec4)

4 x 2 х 0.250 = 2 GFLOPS

Apple A5 Apple A5 Chip.jpg
2 Cores
200MHz
14.4 GFLOPS
iPhone 4S
PowerVR SGX543MP2 (dual-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 14.4 GFLOPS

[33]
Apple A5 Apple A5 Chip.jpg
2 Cores
250MHz
18 GFLOPS
iPad 2
PowerVR SGX543MP2 (dual-core) @ 200 MHz

2vec4 + 1 scalar: 4х2+1=9 * 8 х 0.200 х 9 = 18 GFLOPS

[33]
Apple A5X Apple A5X Chip.jpg
4 Cores
250MHz
36 GFLOPS
iPad 3
PowerVR SGX543MP4 (quad-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 16 х 0.250 х 9 = 36 GFLOPS

[33]
Apple A6 Apple A6 Chip.jpg
3 Cores
250MHz
27 GFLOPS
iPhone 5
PowerVR SGX543MP3 (tri-core) @ 250 MHz

2vec4 + 1 scalar: 4х2+1=9 * 12 х 0.250 х 9 = 27 GFLOPS

[33]
Apple A6X Apple A6X chip.jpg
4 Cores
280MHz
80 GFLOPS
iPad 4
PowerVR SGX554MP4 (quad-core) @ 280 MHz

2vec4 + 1 scalar: 4х2+1=9 * 32 х 0.280 х 9 = 80 GFLOPS

[34]
Apple A7 Apple A7 chip.jpg
4 Clusters
450MHz
115.2 GFLOPS
iPhone 5S
PowerVR G6430 (quad-clusters) @ 450 MHz

64 USC x 4 Clusters x 0.450 = 115.2 GFLOPS

[35]
Apple A7 Apple A7 chip.jpg
4 Clusters
533MHz
136.4 GFLOPS
iPad Air
PowerVR G6430 (quad-clusters) @ 533 MHz

64 USC x 4 Clusters x 0.533 = 136.4 GFLOPS

[35]

Texas Instruments OMAP[編集]

名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
PowerVR SGX 540 4 384MHz 6.1 GFLOPS 理論値 4 FLOPS/コア × 384MHz × 4コア

NVIDIA Tegra[編集]

名称 ALU数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Tegra 2 8 333MHz 5.6 GFLOPS 理論値 2 FLOPS/ALU × 333MHz × 8ALU
Tegra 3 12 500MHz 12.48 GFLOPS 理論値 2 FLOPS/ALU × 520MHz × 12ALU [36][37]
Tegra 4i 60 660MHz 79.2 GFLOPS 理論値 2 FLOPS/ALU × 660MHz × 60ALU [38]
Tegra 4 72 672MHz 96.768 GFLOPS 理論値 2 FLOPS/ALU × 672MHz × 72ALU [37]
Tegra K1 192 950MHz 365 GFLOPS 理論値 2 FLOPS/ALU × 950MHz × 192ALU

Samsung Exynos[編集]

名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Exynos 3 1 200MHz 3.2 GFLOPS 理論値 16 FLOPS × 200MHz
Exynos 4 Dual (45nm) 4 266MHz 9.6 GFLOPS 理論値 9 FLOPS/コア × 266MHz × 4コア
Exynos 4 Dual (32nm) 4 400MHz 14.4 GFLOPS 理論値 9 FLOPS/コア × 400MHz × 4コア
Exynos 4 Quad 4 440MHz 15.84 GFLOPS 理論値 9 FLOPS/コア × 440MHz × 4コア
Exynos 5 Dual 4 533MHz 72.5 GFLOPS 理論値 Mali T604 MP4 (quad-core) @ 533MHz * 16FP + 1 TMU = 17 x 2 ALU x 4 Core x 0.533= 72.488 GFLOPS [39]
Exynos 5410 Octa 3 533MHz 51.2 GFLOPS 理論値 PowerVR SGX544MP3 (tri-core) @ 533MHz * 2vec4=8 * 12 х 0.533 х 8 = 51.2 GFLOPS
Exynos 5420 Octa 6 533MHz 102.4 GFLOPS 理論値 Mali T628 MP6 (six-core) @ 533MHz * 16FP x 2 ALU x 6 Core x 0.533 = 102.4 GFLOPS [40]

GPGPU[編集]

  • NVIDIA Tesla C870: 510 GFlops (単精度)
  • NVIDIA Tesla C1060: 933 GFlops (単精度), 78 GFlops (倍精度)
  • NVIDIA Tesla C2070: 1030 GFlops (単精度), 515 GFlops (倍精度)

FPGA[編集]

  • アルテラ Stratix IV: 244.5 GFLOPS (単精度、実測値 171 GFLOPS)[41][42] - FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[43]。それに対して、GPUは1クロックで行える。
  • ザイリンクス Virtex-5 SX240T: 162.52 GFLOPS (単精度)[44][45]

脚注[編集]

  1. ^ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
  2. ^ a b c Intel® microprocessor export compliance metrics
  3. ^ a b c d e Intel Corp.. “プロセッサー製品の複合理論性能 (CTP) 値について(Intel)”. 2009年10月1日閲覧。
  4. ^ a b PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
  5. ^ a b Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
  6. ^ IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch
  7. ^ Agner Fog, The microarchitecture of Intel, AMD and VIA CPUs
  8. ^ 5.5.2. NEON データ型および VFP データ型 - ARM
  9. ^ http://pc.watch.impress.co.jp/docs/2005/0514/kaigai178.htm
  10. ^ http://pc.watch.impress.co.jp/docs/2005/0701/kaigai195.htm
  11. ^ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
  12. ^ ATIのグラフィックスチップ技術が「Nintendo GAMECUBE」に採用(マイコミジャーナル)
  13. ^ 次世代プレイステーション向け世界最高速の128ビットCPU Emotion Engine を開発 (PDF)”. ソニー・コンピュータエンタテインメント (1999年3月2日). 2013年7月11日閲覧。
  14. ^ http://pc.watch.impress.co.jp/docs/2005/0518/kaigai180.htm
  15. ^ a b http://www.4gamer.net/games/990/G999024/20130224001/
  16. ^ PlayStation.com(Japan)
  17. ^ GPU クラスタによる高性能計算技術の実証:長崎大学濱田剛テニュアトラック助教らのGPU クラスタによる計算がゴードン・ベル賞を受賞 (PDF)”. 2010年6月2日閲覧。
  18. ^ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
  19. ^ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
  20. ^ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
  21. ^ BOINC STATS - BOINC combined
  22. ^ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
  23. ^ GeForce GTX 200 GPU Technical Brief
  24. ^ 米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル”. 2009年12月7日閲覧。
  25. ^ a b AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown
  26. ^ a b GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」
  27. ^ AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs
  28. ^ a b c Intel® Processor Graphics DirectX* Developer's Guide
  29. ^ a b DirectX Developer’s Guide for Intel® Processor Graphics Maximizing Graphics Performance on 4th Generation Intel® Core™ Processors
  30. ^ The Compute Architecture of Intel® Processor Graphics Gen7.5
  31. ^ a b c 359gsm.com - Qualcomm Snapdragon 800 & Adreno 330
  32. ^ AnandTech - The iPhone 5 Performance Preview
  33. ^ a b c d 359gsm.com - Apple GPU GFLOPS PowerVR Series5 SGXMP
  34. ^ 359gsm.com - Apple A6X & PowerVR SGX554
  35. ^ a b 359gsm.com - Apple A7 & PowerVR G6430
  36. ^ AnandTech - Analysis of the new Apple iPad
  37. ^ a b 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに
  38. ^ 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース
  39. ^ Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual
  40. ^ 359gsm.com - Samsung Exynos 5420 & ARM Mali T628 MP6
  41. ^ アルテラ浮動小数点メガファンクション
  42. ^ 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。
  43. ^ 浮動小数点メガファンクション ユーザーガイド
  44. ^ FPGAを用いた高性能コンピューティング
  45. ^ Revaluating FPGAs for 64-bit Floating-Point Calculations

関連項目[編集]

外部リンク[編集]