FLOPS

出典: フリー百科事典『ウィキペディア(Wikipedia)』
移動: 案内検索
換算表
接頭辞 FLOPS
ヨタ(Y) 1024
ゼタ(Z) 1021
エクサ(E) 1018
ペタ(P) 1015
テラ(T) 1012
ギガ(G) 109
メガ(M) 106

FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータ性能指標の一つ。1秒間に浮動小数点数演算が何回できるかという能力を理論的/実際的(実験的)に表した値のこと。コンピュータの性能指標としては、他にMIPSやメモリバンド幅,トランズアクション処理速度などがあるが、FLOPSは科学技術計算シミュレーションを行うスーパーコンピュータ等の性能を表す際に用いられることが多い。

数値の大きさだけでなく、理論的に算出された値の何%で実際のプログラムが動作するかということも重要である。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである(これを強調しすぎると、効率を高くするには演算器の数を減らすなどによって性能の理論上限値を下げさえすれば良いなどということになりがちではあるが)。パーソナルコンピュータ(以下パソコンと略)向けのCPUGPUメーカーは計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的に並列方式スーパーコンピューターでは多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値がよく使われている(但しLINPACK値はもてはやされているが、それが計算機の能力の全てではまったくなくて、性能のある一つの切り口からみた指標に過ぎない)。

現在、家庭用のパソコンの CPU は GFLOPS、スーパーコンピュータの世界1位は PFLOPS の単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に並列度1億でLINPACK性能値はEFLOPSの単位に到達すると予想されている[1]。パソコンとスーパーコンピュータの差はおおよそ1万倍の差で推移している。

目次

代表的なハードウェアの浮動小数点数演算能力 [編集]

PC/Server (Intel) [編集]

名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Pentium 1コア 300MHz 300 MFLOPS 理論値 1 FLOPS/Clock × 300MHz
Pentium II 1コア 450MHz 450 MFLOPS 理論値 1 FLOPS/Clock × 450MHz
Pentium III 1コア 1.4GHz 2.1 GFLOPS 理論値 1.5 FLOPS/Clock × 1.4GHz
Pentium M 1コア 2.26GHz 3.39 GFLOPS 理論値 1.5 FLOPS/Clock × 2.26GHz [2]
Pentium 4 1コア 3.8GHz 7.6 GFLOPS 理論値 2 FLOPS/Clock × 3.8GHz [2]
Pentium D 2コア 3.6GHz 14.4 GFLOPS 理論値 2 FLOPS/Clock × 3.6GHz × 2コア [2]
Intel Atom 2コア 1.8GHz 10.8 GFLOPS 理論値 3 FLOPS/Clock × 1.8GHz × 2コア
Core Solo 1コア 1.83GHz 2.75 GFLOPS 理論値 1.5 FLOPS/Clock × 1.83GHz [3]
Core Duo 2コア 2.33GHz 6.99 GFLOPS 理論値 1.5 FLOPS/Clock × 2.33GHz × 2コア [3]
Core 2 Duo 2コア 3.33GHz 26.64 GFLOPS 理論値 4 FLOPS/Clock × 3.33GHz × 2コア [3]
Core 2 Quad 4コア 3.2GHz 51.2 GFLOPS 理論値 4 FLOPS/Clock × 3.2GHz × 4コア [3]
Core i7
(i7-965, Nehalem)
4コア 3.2GHz 51.2 GFLOPS 理論値 4 FLOPS/Clock × 3.2GHz × 4コア [3]
Core i7
(Sandy Bridge)
6コア 3.5GHz 168 GFLOPS 理論値 8 FLOPS/Clock × 3.5GHz × 6コア [4]
Core i7
(Haswell)
4コア 3.5GHz 224 GFLOPS 理論値 16 FLOPS/Clock × 3.5GHz × 4コア

Core 2 Duo より1クロックで SSE で加算と乗算が計算できる[5]ようになり 128 ビット幅だと倍精度で 4 FLOPS/Clock。Sandy Bridge より搭載した Intel AVX は 256 ビット幅なので 8 FLOPS/Clock。Intel AVX 2 は FMA 命令の導入により 1 cycle で2つの FMA が実行できる[5]ので 16 FLOPS/Clock。単精度だと、これらの演算回数は2倍[6]。Atomは1クロックで1つのSSE加算命令が、2クロックで1つのSSE乗算命令が実行できる[7]ため、合計すると倍精度で3 FLOPS/Clockとなる。

PC/Server (AMD) [編集]

名称 コア数 クロック FLOPS(倍精度) 理論値/実測値 理論値の計算式 参照
Phenom II
(X4 980 Black Edition)
4コア 3.7GHz 59.2 GFLOPS 理論値 4 FLOPS/Clock × 3.7GHz × 4コア
Phenom II
(X6 1100T Black Edition)
6コア 3.3GHz 79.2 GFLOPS 理論値 4 FLOPS/Clock × 3.3GHz × 6コア
AMD Fusion E Series
(Bobcat)
2コア 1.65GHz 6.6 GFLOPS 理論値 2 FLOPS/Clock × 1.65GHz × 2コア
AMD Opteron
(Magny-Cours)
12コア 2.5GHz 120 GFLOPS 理論値 4 FLOPS/Clock × 2.5GHz × 12コア [4]
AMD FX
(Bulldozer)
8コア/4モジュール 3.9GHz 124.8 GFLOPS 理論値 8 FLOPS/Clock × 3.9GHz × 4モジュール
AMD Opteron
(Interlagos)
16コア/8モジュール 3GHz 192 GFLOPS 理論値 8 FLOPS/Clock × 3GHz × 8モジュール

Bulldozer は1モジュールにつき2つの128ビット積和演算器があり、倍精度は2つのFMA命令を同時実行することにより 8 FLOPS/Cycle。

ARM [編集]

名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
ARM11 1コア 700MHz 700 MFLOPS(単精度) 理論値 1 FLOPS/Clock × 700MHz
ARM Cortex-A8 1コア 1GHz 4 GFLOPS(単精度) 理論値 4 FLOPS/Clock × 1GHz
ARM Cortex-A9 4コア 1.5GHz 24 GFLOPS(単精度)
9 GFLOPS(倍精度)
理論値 4 FLOPS/Clock × 1.5GHz × 4コア(単精度)
1.5 FLOPS/Clock × 1.5GHz × 4コア(倍精度)
ARM Cortex-A15 4コア 2.0GHz 64 GFLOPS(単精度)
16 GFLOPS(倍精度)
理論値 8 FLOPS/Clock × 2.0GHz × 4コア(単精度)
2 FLOPS/Clock × 2.0GHz × 4コア(倍精度)
  • NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)

ARM NEON はCortex-A15までは倍精度が扱えなく、単精度のみ[8]。ARM NEON は 128ビット幅で単精度だと 4 FLOPS/Cycle だが、Cortex-A15 は FMA があるので 8 FLOPS/Cycle。

倍精度は、Cortex-A9 は VFPv3 により、2 cycle で足し算2回、乗算1回、合計3演算できるので、1.5 FLOPS/Cycle。Cortex-A15 は VFPv4 により、1 cycle で1回 FMA が計算できるので、2 FLOPS/Cycle。Cortex-A57より、NEONでも倍精度が扱えるようになる。

ゲーム機 [編集]

スーパーコンピュータ [編集]

分散コンピューティング [編集]

  • BOINC: 約 2,958.992 TFLOPS 2009年12月6日 平均値
    • SETI@home: 約 731.599 TFLOPS 2009年12月6日平均値 BOINCに含む
  • UD Agent: 約 65 TFLOPS 2001年10月1日 参加PC96万台時
  • Folding@Home:Active合計 353,966 CPU 約 4,273 TFLOPS 2008年11月22日 参加約355万台

グラフィックスカード [編集]

単精度の積和算を 2 FLOPS/Clock で行える。

NVIDIA [編集]

名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
GeForce GTX 480 480 1401 MHz 1.345 TFLOPS 理論値 2 FLOPS/Clock × 1401 MHz × 480コア
GeForce GTX 580 512 1544 MHz 1.581 TFLOPS 理論値 2 FLOPS/Clock × 1544 MHz × 512コア
GeForce GTX 590
(2GPU合計)
1024 1214 MHz 2.488 TFLOPS 理論値 2 FLOPS/Clock × 1214 MHz × 1024コア
GeForce GTX 680 1536 1006 MHz 3.090 TFLOPS 理論値 2 FLOPS/Clock × 1006 MHz × 1536コア
GeForce GTX 690
(2GPU合計)
3072 915 MHz 5.621 TFLOPS 理論値 2 FLOPS/Clock × 915 MHz × 3072コア
GeForce GTX TITAN 2688 876 MHz 4.7 TFLOPS 理論値 2 FLOPS/Clock × 876 MHz × 2688コア

AMD [編集]

名称 コア数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Radeon HD 3650 120 725MHz 174 GFLOPS 理論値 2 FLOPS/Clock × 725MHz × 120コア
Radeon HD 3870 320 825MHz 496 GFLOPS 理論値 2 FLOPS/Clock × 825MHz × 320コア
Radeon HD 4670 320 750MHz 480 GFLOPS 理論値 2 FLOPS/Clock × 750MHz × 320コア
Radeon HD 4870 800 750MHz 1.2 TFLOPS 理論値 2 FLOPS/Clock × 750MHz × 800コア
Radeon HD 5870 1600 850MHz 2.72 TFLOPS 理論値 2 FLOPS/Clock × 850MHz × 1600コア
Radeon HD 5970
(2GPU合計)
3200 725MHz 4.64 TFLOPS 理論値 2 FLOPS/Clock × 725MHz × 3200コア [21]
Radeon HD 6970 1536 880MHz 2.7 TFLOPS (単精度)
676 GFLOPS (倍精度)
理論値 2 FLOPS/Clock × 880MHz × 1536コア (単精度)
0.5 FLOPS/Clock × 880MHz × 1536コア (倍精度)
[22]
Radeon HD 6990
(2GPU合計)
3072 830 MHz 5.1 TFLOPS 理論値 2 FLOPS/Clock × 830 MHz × 3072コア
Radeon HD 7970
GHz Edition
2048 1.05 GHz 4.3 TFLOPS (単精度)
1.08 TFLOPS (倍精度)
理論値 2 FLOPS/Clock × 1.05 GHz × 2048コア (単精度)
0.5 FLOPS/Clock × 1.05 GHz × 2048コア (倍精度)
[23][22]
Radeon HD 7990
(2GPU合計)
4096 1.0 GHz 8.2 TFLOPS 理論値 2 FLOPS/Clock × 1.0 GHz × 4096コア [23]
Radeon HD 8970
GHz Edition
2048 1.05 GHz 4.3 TFLOPS (単精度)
1.08 TFLOPS (倍精度)
理論値 2 FLOPS/Clock × 1.05 GHz × 2048コア (単精度)
0.5 FLOPS/Clock × 1.05 GHz × 2048コア (倍精度)
[24]

ハイエンドでは倍精度(fp64)は 0.5 FLOPS/Cycle であるが、ミドルレンジ以下は 0.125 FLOPS/Cycle[25] であったり、倍精度の計算が出来なかったりする。

Intel [編集]

名称 実行ユニット数 クロック FLOPS(単精度) 理論値/実測値 理論値の計算式 参照
Intel GMA X4500 10 800 MHz 32 GFLOPS 理論値 4 FLOPS/EU × 800 MHz × 10EU [26]
Intel HD Graphics (Nehalem) 12 900 MHz 43.2 GFLOPS 理論値 4 FLOPS/EU × 900 MHz × 12EU [26]
Intel HD Graphics 3000 12 1350 MHz 129.6 GFLOPS 理論値 8 FLOPS/EU × 1350 MHz × 12EU [26]
Intel HD Graphics 4000 16 1300 MHz 332.8 GFLOPS 理論値 16 FLOPS/EU × 1300 MHz × 16EU
Intel Iris Pro Graphics 5200 40 1300 MHz 832 GFLOPS 理論値 16 FLOPS/EU × 1300 MHz × 40EU

HD Graphicsの各EUは4-way SIMDの演算器を備えており、1命令で4並列の単精度浮動小数点演算が可能である。Sandy Bridgeより前の世代では1クロックでEUあたり1つの加算もしくは乗算命令を実行可能で、4FLOPS/EU。Sandy Bridge世代では1クロックでEUあたり1つのFMA命令を実行可能で、8FLOPS/EU。Ivy Bridge世代以降は1クロックでEUあたり2つのFMA命令を実行可能で、16FLOPS/EUとなる。

Qualcomm Snapdragon [編集]

名称 ALU数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
Adreno 200 8 245MHz 3.92 GFLOPS 理論値 2 FLOPS/ALU × 245MHz × 8ALU
Adreno 203
Adreno 205
16 245MHz 7.84 GFLOPS 理論値 2 FLOPS/ALU × 245MHz × 16ALU
Adreno 220 32 266MHz 17.0 GFLOPS 理論値 2 FLOPS/ALU × 266MHz × 32ALU
Adreno 225 32 400MHz 25.6 GFLOPS 理論値 2 FLOPS/ALU × 400MHz × 32ALU
Adreno 320 96 400MHz 76.8 GFLOPS 理論値 2 FLOPS/ALU × 400MHz × 96ALU
Adreno 330 128 450MHz 115.2 GFLOPS 理論値 2 FLOPS/ALU × 450MHz × 128ALU

Apple [編集]

名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
Apple A4 1 200MHz 1.6 GFLOPS 理論値 8 FLOPS/Clock × 200MHz [27]
Apple A5 2 200MHz 12.8 GFLOPS 理論値 32 FLOPS/コア × 200MHz × 2コア [27]
Apple A5X 4 200MHz 25.6 GFLOPS 理論値 32 FLOPS/コア × 200MHz × 4コア [27]
Apple A6 3 266MHz 25.5 GFLOPS 理論値 32 FLOPS/コア × 266MHz × 3コア [27]
Apple A6X 4 280MHz 71.6 GFLOPS 理論値 64 FLOPS/コア × 280MHz × 4コア [28]

Texas Instruments OMAP [編集]

名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
PowerVR SGX 540 4 384MHz 6.1 GFLOPS 理論値 4 FLOPS/コア × 384MHz × 4コア

NVIDIA Tegra [編集]

名称 ALU数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
Tegra 2 8 333MHz 5.6 GFLOPS 理論値 2 FLOPS/ALU × 333MHz × 8ALU
Tegra 3 12 500MHz 12.48 GFLOPS 理論値 2 FLOPS/ALU × 520MHz × 12ALU [29][30]
Tegra 4i 60 660MHz 79.2 GFLOPS 理論値 2 FLOPS/ALU × 660MHz × 60ALU [31]
Tegra 4 72 672MHz 96.768 GFLOPS 理論値 2 FLOPS/ALU × 672MHz × 72ALU [30]

Samsung Exynos [編集]

名称 コア数 クロック FLOPS 理論値/実測値 理論値の計算式 参照
Exynos 3 1 200MHz 3.2 GFLOPS 理論値 16 FLOPS × 200MHz
Exynos 4 Dual (45nm) 4 266MHz 9.6 GFLOPS 理論値 9 FLOPS/コア × 266MHz × 4コア
Exynos 4 Dual (32nm) 4 400MHz 14.4 GFLOPS 理論値 9 FLOPS/コア × 400MHz × 4コア
Exynos 4 Quad 4 440MHz 15.84 GFLOPS 理論値 9 FLOPS/コア × 440MHz × 4コア
Exynos 5 Dual 4 500MHz 72 GFLOPS 理論値 36 FLOPS/コア × 500MHz × 4コア [32]
Exynos 5 Octa 3 533MHz 51.2 GFLOPS 理論値 32 FLOPS/コア × 533MHz × 3コア

GPGPU [編集]

  • NVIDIA Tesla C870: 510 GFlops (単精度)
  • NVIDIA Tesla C1060: 933 GFlops (単精度), 78 GFlops (倍精度)
  • NVIDIA Tesla C2070: 1030 GFlops (単精度), 515 GFlops (倍精度)

FPGA [編集]

  • アルテラ Stratix IV: 244.5 GFLOPS (単精度、実測値 171 GFLOPS)[33][34] - FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[35]。それに対して、GPUは1クロックで行える。
  • ザイリンクス Virtex-5 SX240T: 162.52 GFLOPS (単精度)[36][37]

脚注 [編集]

  1. ^ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
  2. ^ a b c Intel® microprocessor export compliance metrics
  3. ^ a b c d e Intel Corp.. “プロセッサー製品の複合理論性能 (CTP) 値について(Intel)”. 2009年10月1日閲覧。
  4. ^ a b PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
  5. ^ a b Intel's Haswell Architecture Analyzed: Building a New PC and a New Intel
  6. ^ IDF Beijingで公開されたHaswellの省電力&オーバークロック機能 - PC Watch
  7. ^ Agner Fog, The microarchitecture of Intel, AMD and VIA CPUs
  8. ^ 5.5.2. NEON データ型および VFP データ型 - ARM
  9. ^ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
  10. ^ ATIのグラフィックスチップ技術が「Nintendo GAMECUBE」に採用(マイコミジャーナル)
  11. ^ WiKi 但し、日経エレクトロニクス1999年10-4号によると、これほどの性能ではないとの見解が出ている。
  12. ^ http://pc.watch.impress.co.jp/docs/2005/0518/kaigai180.htm
  13. ^ a b http://www.4gamer.net/games/990/G999024/20130224001/
  14. ^ PlayStation.com(Japan)但しアメリカ「スタンフォード大学」のタンパク質解析にPS3が参加しているため、実測値がインターネットで確認できる。計算すると20GFLOPS前後の実測値を得られる。OS 別クライアント統計  Folding@home for PS3
  15. ^ [http://www.nagasaki-u.ac.jp/main/gakujutsu/2009/gaku20091126.pdf GPU クラスタによる高性能計算技術の実証: 長崎大学濱田剛テニュアトラック助教らの GPU クラスタによる計算がゴードン・ベル賞を受賞] (PDF)”. 2010年6月2日閲覧。
  16. ^ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
  17. ^ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
  18. ^ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
  19. ^ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
  20. ^ GeForce GTX 200 GPU Technical Brief
  21. ^ 米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル”. 2009年12月7日閲覧。
  22. ^ a b AMD Radeon HD 7970 GHz Edition Review: Battling For The Performance Crown
  23. ^ a b GPUアーキテクチャ刷新のサイクル変化が産んだ「Radeon HD 7990」
  24. ^ AMD Radeon HD 8970 GHz Edition GPU Feature Summary (OEM)
  25. ^ AMD’s Annual GPU Rebadge: Radeon HD 8000 Series for OEMs
  26. ^ a b c [http://software.intel.com/sites/billboard/sites/default/files/Intel_Processor_Graphics_DirectX_Developers_Guide.pdf Intel® Processor Graphics DirectX* Developer's Guide]
  27. ^ a b c d AnandTech - The iPhone 5 Performance Preview
  28. ^ The Tegra 4 GPU, NVIDIA Claims Better Performance Than iPad 4
  29. ^ AnandTech - Analysis of the new Apple iPad
  30. ^ a b 【後藤弘茂のWeekly海外ニュース】NVIDIAがMWCに合わせて「Tegra 4/4i」の詳細を明らかに
  31. ^ 【レポート】NVIDIA、Tegra 4の詳細をついに公開 - CPUだけでなくGPUも大規模アーキテクチャ変更と明らかに (3) より高性能な製造プロセスを利用するTegra 4i - パソコン - マイナビニュース
  32. ^ Enjoy the Ultimate WQXGA Solution with Exynos 5 Dual
  33. ^ アルテラ浮動小数点メガファンクション
  34. ^ 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。
  35. ^ 浮動小数点メガファンクション ユーザーガイド
  36. ^ FPGAを用いた高性能コンピューティング
  37. ^ Revaluating FPGAs for 64-bit Floating-Point Calculations

関連項目 [編集]

外部リンク [編集]