FLOPS
| 換算表 | ||
|---|---|---|
| 接頭辞 | FLOPS | |
| ヨタ(Y) | 1024 | |
| ゼタ(Z) | 1021 | |
| エクサ(E) | 1018 | |
| ペタ(P) | 1015 | |
| テラ(T) | 1012 | |
| ギガ(G) | 109 | |
| メガ(M) | 106 | |
FLOPS(フロップス、Floating-point Operations Per Second)はコンピュータの性能指標の一つ。1秒間に浮動小数点数演算が何回できるかという能力を理論的/実際的(実験的)に表したもののこと。コンピュータの性能指標としては、他にMIPSなどがあるが、FLOPSは科学技術計算やシミュレーションを行うスーパーコンピュータ等の性能を表す際に用いられることが多い。
数値の大きさだけでなく、理論的に算出された値の何%で実際のプログラムが動作するかということも重要である。実際の値が理論値に近いほど、より効率的なコンピュータだと考えられるからである。パーソナルコンピュータ(以下パソコンと略)向けのCPUやGPUメーカーは計算ノードとしては単一のノードとなるので通常理論値で発表する(理論値がほぼそのまま実効値となる)が、一般的にスーパーコンピューターでは多数の計算ノードのクラスタとして構築されるため、実際の計算能力を理論値に近づけるには高度な運用能力が必要であり、理論値ではなく LINPACK ベンチマークでの実測値を発表する。
現在、家庭用のパソコンの CPU は GFLOPS、スーパーコンピュータの世界1位は PFLOPS の単位であるが、ムーアの法則にそって高速化が進んでおり、2018年に1億並列のEFLOPSの単位に到達すると予想されている[1]。パソコンとスーパーコンピュータの差はおおよそ1万倍の差で推移している。
目次 |
[編集] 代表的なハードウェアの浮動小数点数演算能力
[編集] 携帯ゲーム機
- プレイステーション・ポータブル: CPU 2.6GFLOPS / 9.6GFLOPS(ピーク時/システム全体)
[編集] 携帯機器
- NetWalker PC-Z1: CPU 3.2GFLOPS(ARM Cortex-A8 800MHz,SIMD), 0.64GFLOPS(同VFP)
[編集] PC/Server
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Pentium | 1コア | 300MHz | 300 MFLOPS | 理論値 | 1 FLOPS/Clock × 300MHz | |
| Pentium II | 1コア | 450MHz | 450 MFLOPS | 理論値 | 1 FLOPS/Clock × 450MHz | |
| Pentium III | 1コア | 1.4GHz | 2.1 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.4GHz | |
| Pentium M | 1コア | 2.26GHz | 3.39 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.26GHz | [2] |
| Pentium 4 | 1コア | 3.8GHz | 7.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.8GHz | [2] |
| Pentium D | 2コア | 3.6GHz | 14.4 GFLOPS | 理論値 | 2 FLOPS/Clock × 3.6GHz × 2コア | [2] |
| Intel Atom | 2コア | 1.8GHz | 7.2 GFLOPS | 理論値 | 2 FLOPS/Clock × 1.8GHz × 2コア | [3] |
| Core Solo | 1コア | 1.83GHz | 2.75 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 1.83GHz | [4] |
| Core Duo | 2コア | 2.33GHz | 6.99 GFLOPS | 理論値 | 1.5 FLOPS/Clock × 2.33GHz × 2コア | [4] |
| Core 2 Duo | 2コア | 3.33GHz | 26.64 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.33GHz × 2コア | [4] |
| Core 2 Quad | 4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [4] |
| Core i7 (i7-965, Nehalem) |
4コア | 3.2GHz | 51.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.2GHz × 4コア | [4] |
| Core i7 (Sandy Bridge) |
6コア | 3.3GHz | 158.4 GFLOPS | 理論値 | 8 FLOPS/Clock × 3.3GHz × 6コア | [5] |
| Phenom II (X4 980 Black Edition) |
4コア | 3.7GHz | 59.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.7GHz × 4コア | |
| Phenom II (X6 1100T Black Edition) |
6コア | 3.3GHz | 79.2 GFLOPS | 理論値 | 4 FLOPS/Clock × 3.3GHz × 6コア | |
| AMD Fusion E Series (Bobcat) |
2コア | 1.65GHz | 6.6 GFLOPS | 理論値 | 2 FLOPS/Clock × 1.65GHz × 2コア | |
| AMD FX (Bulldozer) |
8コア/4モジュール | 3.9GHz | 124.8 GFLOPS | 理論値 | 4 FLOPS/Clock × 2 FMAC × 3.9GHz × 4モジュール | |
| AMD Opteron (Magny-Cours) |
12コア | 2.5GHz | 120 GFLOPS | 理論値 | 4 FLOPS/Clock × 2.5GHz × 12コア | [5] |
| AMD Opteron (Interlagos) |
16コア/8モジュール | 3GHz | 192 GFLOPS | 理論値 | 4 FLOPS/Clock × 2 FMAC × 3GHz × 8モジュール |
Core 2 Duo より1クロックで SSE が計算できるようになり 4 FLOPS/Clock となり、Sandy Bridge より搭載した Intel AVX が 8 FLOPS/Clock である。
[編集] 据え置きゲーム機
- ドリームキャスト: 1.4GFLOPS
- Xbox: 1.5GFLOPS
- プレイステーション2: 6.2GFLOPS(Emotion Engine単体)[6]
- ゲームキューブ: 13GFLOPS (ピーク時/システム全体)[7]
- プレイステーション3: 2TFLOPS (システム全体)[8]
- Xbox 360: 1TFLOPS (システム全体):但し詳しい内訳は不明[9]
[編集] スーパーコンピュータ
- ENIAC: 300FLOPS
- CRAY-1: 160MFLOPS
- ディープ・ブルー: 11.38GFLOPS
- 地球シミュレータ(第1世代): 35.86TFLOPS
- TSUBAME(第1世代): 87.01TFLOPS
- T2Kオープンスパコン: 101.74TFLOPS
- 地球シミュレータ(第2世代): 122.40TFLOPS
- GPUクラスタ(長崎大学、濱田剛ら): 158TFLOPS[10]
- BX900: 191.40TFLOPS
- GRAPE-6: 48TFLOPS
- Blue Gene/L: 478.2TFLOPS
- IBM Roadrunner: 1.105PFLOPS
- TSUBAME 2.0: 1.192PFLOPS
- Jaguar: 1.759PFLOPS
- 天河一号A: 2.566PFLOPS
- 京: 10.51PFLOPS[11][12] (LINPACK の実測値。実行効率 93.2%[13]) - CPU数88,128個, 理論値 11,280,384 GFLOPS (=128 GFLOPS×88,128)
[編集] 分散コンピューティング
- BOINC: 約 2,958.992 TFLOPS 2009年12月6日 平均値
- SETI@home: 約 731.599 TFLOPS 2009年12月6日平均値 BOINCに含む
- UD Agent: 約 65 TFLOPS 2001年10月1日 参加PC96万台時
- Folding@Home:Active合計 353,966 CPU 約 4,273 TFLOPS 2008年11月22日 参加約355万台
[編集] グラフィックスカード
単精度の積和算を 2 FLOPS/Clock で行える。
[編集] NVIDIA
- GeForce 8600 GTS: 92.8GFLOPS / 139GFLOPS(積和算 / 積和算、和算合計)
- GeForce 8800 GT: 336GFLOPS / 504GFLOPS(積和算 / 積和算、和算合計)
- GeForce 9600 GT: 208GFLOPS / 312GFLOPS(積和算 / 積和算、和算合計)
- GeForce 9800 GTX+: 470GFLOPS / 705GFLOPS(積和算 / 積和算、和算合計)
- GeForce GTX 280: 622GFLOPS / 933GFLOPS(積和算 / 積和算、和算合計)[14]
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| GeForce GTX 480 | 480 | 1401MHz | 1.345 TFLOPS | 理論値 | 2 FLOPS/Clock × 1401MHz × 480コア | |
| GeForce GTX 580 | 512 | 1544MHz | 1.581 TFLOPS | 理論値 | 2 FLOPS/Clock × 1544MHz × 512コア | |
| GeForce GTX 590 (2GPU合計) |
1024 | 1214MHz | 2.488 TFLOPS | 理論値 | 2 FLOPS/Clock × 1214MHz × 1024コア |
[編集] AMD
| 名称 | コア数 | クロック | FLOPS | 理論値/実測値 | 理論値の計算式 | 参照 |
|---|---|---|---|---|---|---|
| Radeon HD 3650 | 120 | 725MHz | 174 GFLOPS | 理論値 | 2 FLOPS/Clock × 725MHz × 120コア | |
| Radeon HD 3870 | 320 | 825MHz | 496 GFLOPS | 理論値 | 2 FLOPS/Clock × 825MHz × 320コア | |
| Radeon HD 4670 | 320 | 750MHz | 480 GFLOPS | 理論値 | 2 FLOPS/Clock × 750MHz × 320コア | |
| Radeon HD 4870 | 800 | 750MHz | 1.2 TFLOPS | 理論値 | 2 FLOPS/Clock × 750MHz × 800コア | |
| Radeon HD 5870 | 1600 | 850MHz | 2.72 TFLOPS | 理論値 | 2 FLOPS/Clock × 850MHz × 1600コア | |
| Radeon HD 5970 (2GPU合計) |
3200 | 725MHz | 4.64 TFLOPS | 理論値 | 2 FLOPS/Clock × 725MHz × 3200コア | [15] |
| Radeon HD 6970 | 1536 | 880MHz | 2.703 TFLOPS | 理論値 | 2 FLOPS/Clock × 880MHz × 1536コア | |
| Radeon HD 6990 (2GPU合計) |
3072 | 725MHz | 5.099 TFLOPS | 理論値 | 2 FLOPS/Clock × 830MHz × 3072コア | |
| Radeon HD 7970 | 2048 | 925MHz | 3.789 TFLOPS | 理論値 | 2 FLOPS/Clock × 925MHz × 2048コア |
[編集] GPGPU
- NVIDIA Tesla C870: 510 GFlops (単精度)
- NVIDIA Tesla C1060: 933 GFlops (単精度), 78 GFlops (倍精度)
- NVIDIA Tesla C2070: 1030 GFlops (単精度), 515 GFlops (倍精度)
[編集] FPGA
- アルテラ Stratix IV: 244.5 GFLOPS (単精度、実測値 171 GFLOPS)[16][17] - FPGAでは整数の積和算は1クロックで計算できるが、GPUとは異なり浮動小数点のかけ算は 445MHz 動作で11クロック必要[18]。それに対して、GPUは1クロックで行える。
- ザイリンクス Virtex-5 SX240T: 162.52 GFLOPS (単精度)[19][20]
[編集] 脚注
- ^ 【レポート】ポスト「京」コンピュータはどうなるのか (1) 次世代スパコンの開発開始で米国に遅れをとっている日本 | エンタープライズ | マイコミジャーナル
- ^ a b c Intel® microprocessor export compliance metrics
- ^ プロセッサー — インテル® マイクロプロセッサー製品の輸出規制基準
- ^ a b c d e Intel Corp.. “プロセッサー製品の複合理論性能 (CTP) 値について(Intel)”. 2009年10月1日閲覧。
- ^ a b PetaFLOPS for the Common Man- Pt 3 In the next few yrs what could PetaFLOPS Systems Look Like - The Dell TechCenter
- ^ WiKi 但し、日経エレクトロニクス1999年10-4号によると、これほどの性能ではないとの見解が出ている。
- ^ ATIのグラフィックスチップ技術が「Nintendo GAMECUBE」に採用(マイコミジャーナル)
- ^ PlayStation.com(Japan)但しアメリカ「スタンフォード大学」のタンパク質解析にPS3が参加しているため、実測値がインターネットで確認できる。計算すると20GFLOPS前後の実測値を得られる。OS 別クライアント統計 Folding@home for PS3
- ^ マイクロソフト、「Xbox 360」ハードウェア編 丸山嘉浩氏「日本で成功しなければ成功したと言えない」 GAME watch 2005/05/13
- ^ “[http://www.nagasaki-u.ac.jp/main/gakujutsu/2009/gaku20091126.pdf GPU クラスタによる高性能計算技術の実証: 長崎大学濱田剛テニュアトラック助教らの GPU クラスタによる計算がゴードン・ベル賞を受賞] (PDF)”. 2010年6月2日閲覧。
- ^ 【レポート】「京」コンピュータが京速を達成 - Top500の首位堅持に期待 - エンタープライズ - マイコミジャーナル
- ^ 「京」が第37回TOP500ランキングにおいて世界第一位を獲得!
- ^ 【森山和道の「ヒトと機械の境界面」】 スパコン「京」を使う「次世代生命体統合シミュレーション」とは
- ^ ゲームを超えるミッションとは──NVIDIAが「GT200」にこめたGPUの可能性 (2/3) - ITmedia +D PC USER
- ^ “米AMD、2基のGPUを搭載する「ATI Radeon HD 5970」 - 演算性能は4.64TFLOPS - マイコミジャーナル”. 2009年12月7日閲覧。
- ^ アルテラ浮動小数点メガファンクション
- ^ 64x64の行列のかけ算1つで128個のDSPを消費し、24.45 GFLOPS。DSP は最大1288個なので、244.5 GFLOPS。
- ^ 浮動小数点メガファンクション ユーザーガイド
- ^ FPGAを用いた高性能コンピューティング
- ^ Revaluating FPGAs for 64-bit Floating-Point Calculations