マルチコア

マルチコア (英: multiple core, multi-core) は、1つのプロセッサ・パッケージ内に複数のプロセッサ・コアを搭載する技術であり、マルチプロセッシングの一形態である。

外見的には1つのプロセッサでありながら論理的には複数のプロセッサとして認識されるため、同じコア数のマルチプロセッサと比較して実装面積としては省スペースであり、プロセッサコア間の通信を高速化することも可能である。主に並列処理を行わせる環境下では、プロセッサ・チップ全体での処理能力を上げ性能向上を果たすが、アムダールの法則による制約を受ける。このプロセッサ・パッケージ内のプロセッサ・コアが2つであればデュアルコア (dual-core)、3つであればトリプルコア (triple-core)、4つであればクアッドコア (quad-core)、6つであればヘキサコア (hexa-core)、8つは伝統的にインテルではオクタルコア (octal-core)、AMDではオクタコア (octa-core) と呼ばれるほか、オクトコア (octo-core) とも呼ばれる。さらに高性能な専用プロセッサの中には十個以上ものコアを持つものがあり、メニーコア (many-core) と呼ばれる^[1]。

なお、従来の1つのコアを持つプロセッサはマルチコアに対してシングルコア (single-core) とも呼ばれる。

概要[編集]

マルチコアはシングルコアに対し、プロセスルールが同じであれば、実装したプロセッサ・コア数に比例してダイが大きくなる。面積が増えると、級数的に製造不良が増えるなど製造の面での難度が上る（歩留まりが悪化する）。

並列コンピューティングに対応したプログラミングが必要なため、ソフトウェアの開発は難しくなるが、OSやミドルウェアなどが並列処理の支援を行なうことでソフトウェア開発は容易なものとなる場合がある。既にマルチプロセッサ対応しているシングルコア・プロセッサを基にする、マルチコア・プロセッサの製品化は論理設計を省略できるため比較的簡単である。

性能が要求されるワークステーション、サーバ分野はもとより、パーソナルコンピュータ (PC) でも、高消費電力と廃熱処理（および冷却に伴う騒音対策）などによる制約や、クロック周波数向上対効果の停滞などにより、この技術へのシフトが進んでいる。

マルチコア・プロセッサは消費電力低減と発熱抑制を目的に、各コアごとに動作電圧やクロック・スピードの可変制御を行なったり、休止状態を含む動作状態の制御を行なっている製品もある。コアごとに複数の電圧で給電するシステムが別途必要となるため、単一電圧に比して設計・実装・製造難易度は高い。

マルチコア・プロセッサに似た技術に、同時マルチスレッディング (simultaneous multi-threading, SMT) がある。これは1つのプロセッサを外部から2つ以上に見せるという点では同じだが、実際に存在しているコアは1つ、すなわちシングルコアであるという点でマルチコア技術とは根本的に異なる。

用語[編集]

効果的に説明するために、まず使用する用語を示す。

ダイ (die): シリコンウェハー上に半導体回路を作り、四角に切り出したもの。ベア・チップやペレットとも呼ばれる。ダイはプロセッサ・パッケージ（CPUパッケージ）と呼ばれる覆いで封止されている。プロセッサはパッケージ化によって、基板との接点、ヒートスプレッダ、コンデンサ、抵抗などが一体となっている。; 半導体産業ではプロセス済みのウェハーやダイの生産までが上流工程であり、テストとパッケージ封入が下流工程になる。大手半導体企業で自社生産としている場合でも下流工程はアウトソーシングしていることがある。シリコンウェハーは無塵環境で製造されるが、不純物等の影響で不良箇所の発生が避けられない。ダイ上のどこか一箇所にでも不良があれば製品にはならないため、プロセスルールの微細化による回路の縮小でダイサイズを縮小し、シリコンウェハーからの切り出しを細分化して数を増やせば、ウェハー生産数に対するダイ不良品の数を減らすことができ、利益率が上がる。

AMD 486 DX 2 66 MHzのパッケージ裏面のカバーを外した様子。中央の黒と緑の部分がダイ。

コア (core): コアとは、プロセッサ・ダイ上に作成されるプロセッサ回路の中核部分で、「キャッシュメモリ」を除く半導体回路部分。ただし、他のコアとは共有しない、コアごとのキャッシュメモリはコアに含める事がある。多くの場合、プロセッサ・ダイはコア、キャッシュメモリ、ボンディング・パッド等の接続部から構成される。

VIA Isaiahのダイの構成。おおまかに、上半分がキャッシュで下半分にコアが配置されている様子がわかる。
Quad-Core AMD Opteronのダイ。Quad-Coreでホモジニアスマルチコアなので、おなじパターンの回路が4つある。

サブストレート (substrate): ダイを載せて外部接続ピンなどの外力から守るデジタル半導体の主要構成部材の1つ。MCM (Multi-Chip Module) やMCP (Multi-Chip Package) の場合には1つのサブストレートに複数のダイが載る。
チップ (chip): いくぶん不明瞭な意味で、半導体部品を意味する。ダイやペレットを指す場合もある。また、表面実装技術 (surface mount technology, SMT) の受動部品を指す場合もある。

背景[編集]

ポラックの法則では、プロセッサを構成するトランジスタ数をプロセス繊細化を行なわずに単純に2倍にした場合、ダイサイズは2倍となるが、処理能力は ${\sqrt {2}}$ 倍（約1.4倍）にとどまるとされている。一方で、消費電力はトランジスタ数に比例する。この法則によれば2倍のコストで1.4倍のリターンしか得られず、プロセッサあたりのトランジスタ数を増やすことは非効率となる。

スーパーコンピュータの領域ではより早くからスカラー演算能力の限界として認識されていたシングルCPUによる演算能力向上の限界は、1990年代末頃からはPCやサーバー用の分野でも現実のものとして認識されはじめた。2000年代の中頃にはシングルコアでの処理性能の向上手法よりマルチコアによる向上を図った製品が登場するようになった。

以下にマルチコアが登場した背景について示す。

複数CPUの実装[編集]

大型コンピュータやスーパーコンピュータでは、1つの半導体パッケージに複数の汎用プロセッサ・コアを封入することは早くから行なわれていた。

サーバ用途でのパーソナルコンピュータ類似製品では1990年代中頃から、マザーボード上に複数のプロセッサを実装し並列処理させる対称型マルチプロセッシング (symmetric multi-processing, SMP) と呼ばれるソリューションが現れていた。こういったマザーボードにマルチコアCPUを装着して、2ｘ2＝4 や 2ｘ4＝8 といった多数のマルチコア環境が現れている。

発熱と消費電力の問題[編集]

1990年代中頃からラップトップパソコンでの「腿（もも）が熱い」という発熱への不満やPCの放熱ファンの騒音が問題として認識され始めた。将来の汎用プロセッサは、製造プロセスの微細化によるリーク電流の増加や、処理能力向上を目的とした動作クロックの高速化によって、消費電力がますます増大していくことが予想された。当時の汎用プロセッサ処理速度の向上手法のままでは、汎用プロセッサのダイ温度が非現実的なまでに高温となり、冷却機構の物理的な限界から性能向上が頭打ちになることもまた予想された。2000年前後から一般ユーザー向けのPCでも水冷式の製品が販売されはじめた。

クロックの限界[編集]

2001年からは1GHzを越えるCPUクロックが一般的となり、2010年頃には5GHz前後まで伸びた。しかし、1GHzの1サイクルの時間内では、光速度でも30cmしか伝播できない物理法則の壁がある。そのため、今後さらにクロックが高速化されて5GHz以上や10GHzになれば従来のLCによる伝播遅延に加えて、電気信号そのものの伝播の遅さも無視できなくなってくる。

高速処理の専用回路の限界[編集]

現在^[いつ?]の汎用プロセッサ内部の処理機構がスーパースカラー機構などにより既に高度に高速処理への最適化がなされている。たとえば命令の先読みによって投機実行と呼ばれる、本当に実行が必要かまだ決まらない内から前もって次の処理を実行してしまうという動作を常に行う、汎用プロセッサの外部に主メモリがあるにもかかわらず汎用プロセッサ上にキャッシュメモリが3段階にも用意されている、さらにプリフェッチ・キューまでが用意されているといった具合である。他にもスーパーパイプライン、VLIW、アウト・オブ・オーダー実行等がある。これらの高速処理に欠かせない汎用プロセッサの回路は、それぞれがほんの少しだけ処理の高速化に貢献している回路であり、これ以上同様の付加回路を汎用プロセッサに追加してもそれほどの処理の高速化には貢献しないと予測される。

処理性能の向上策[編集]

マルチコア・プロセッサによってプロセッサ・コア数を増やした場合、OSやソフトウェアの対応により、システム全体の処理性能を向上させられることから、これら発熱とクロックの限界への解決策になる。

実際に今日の^[いつ?]PCは動画や音楽データの再生やエンコードのように、マルチスレッドで性能向上を期待できる用途に使われることが増えている。

さらに、バックグラウンドで音楽を再生したりコンピュータウイルスのチェックを行なったりしながら、メールやWeb閲覧、文書作成、ゲームを楽しむことなどが行なわれており、複数のアプリケーションや多数のスレッドが実行される環境になっているため、マルチスレッドに対応するアプリケーションソフトウェアを利用していなくても、マルチコアの利点を享受することができる。

マルチコア・プロセッサの歴史[編集]

1999年、IBMは商用サーバ向けプロセッサでデュアルコアのPOWER4を発表し、CPUのマルチコア化をリードした。2004年 5月にはインテルが従来のPentium 4の高速版でシングルコアCPUの開発コード「Tejas」の開発中止を決定したことが伝えられた。同じ頃、AMDも同社の計画から次世代のK9・K10などシリーズ以降の高速版CPUの開発を全て中止した。なお現在^[いつ?]では、K8シリーズをマルチコア化の強化という新たな方向性で製品化したものをK10としている。

2005年になって、AMDは当初から消費電力を抑えマルチコア化を見越したK8アーキテクチャの設計を行い、デュアルコア製品の提供を開始した。製品名はDual-Core OpteronとAthlon 64 X2（のちにAthlon X2に改称）である。インテルは、マルチコアCPUの市場投入の出遅れをカバーするために、単純に2つのCPUのダイ (die) を1つのパッケージに封入したマルチコア・マルチダイ形式をとり、マルチコア・チップを早く出荷するというアプローチを取った。製品名ではPentium Dなど。近年^[いつ?]では逆にAMDが設計の単純なマルチダイのOpteronチップを出荷する一方で、IntelはCPUコアのモジュール化によって派生ダイの製造を容易にし、リングバスの導入によりコア数の増減を容易にしているため、マルチダイの手段を取っていない。また同じ2005年にはサン・マイクロシステムズはサーバ向けプロセッサUltraSPARC T1で8コアを実現した。

このほかPower Architecture系では、2006年リリースのCellが8コア^[2]、2010年リリースのPOWER7が8コアである。

マルチコア・プロセッサの技術[編集]

「マルチプロセッシング」も参照

ホモジニアスとヘテロジニアス[編集]

同種のコアを複数実装する「ホモジニアスマルチコア」と、異種のコアを実装する「ヘテロジニアスマルチコア」が存在する。

IBM、ソニー・コンピュータエンタテインメント、東芝の3社が共同開発しPlayStation 3に組み込まれているCellプロセッサは、1個の汎用的なプロセッサコアと、ストリーミング処理に特化した8個のシンプルなプロセッサコアを組み合わせた「ヘテロジニアスマルチコア」というアプローチをとっている。

Xbox 360のプロセッサ・コアは対称型マルチコアと呼ばれる3コアのプロセッサで、構造上はホモジニアスに属するものである。同時マルチスレッディング (SMT) をサポートし、最大6つのハードウェアスレッドを同時に駆動することができる。

米AMD社はさらなる高処理能力化への手法としてヘテロジニアスマルチコアプロセッサを計画し、Fusionプロジェクトと命名した。その手始めとして、グラフィックス処理装置 (Graphics Processing Unit, GPU) 開発企業であるカナダのATI社を2006年に買収し、GPUと汎用プロセッサを同一ダイに集積したCPU製品 (AMD Accelerated Processing Unit, APU) を登場させた。

また、命令セットの形式が同じコアを組み合わせたプロセッサのうち、ARMアーキテクチャのbig.LITTLEのように、処理能力（動作クロック周波数）の高いコアと処理能力の低いコアを組み合わせたプロセッサも、トランジスタ数や消費電力の点で有利な低コストのマルチコアと考えられる。同一命令セットという観点ではホモジニアスではあるが、処理能力の点では同一ではなくヘテロジニアスとなる。異種CPUトポロジー (heterogeneous CPU topologies) とも呼ばれる^[3]。

電力管理[編集]

マルチコア化の目的の1つに低消費電力化がある。マルチコアに限らないが、多くの汎用プロセッサや専用プロセッサでは、使用しないコアのクロックを停止する「クロック・ゲーティング」、機能ブロックごとに電源供給を停止してリーク電流そのものを無くす「パワー・ゲーティング」が備わっている。

汎用プロセッサの中には他のコアを停止する代わりに1つのコアだけ供給電圧やクロックを高めてシングルコアでの処理性能を高める技術も導入が予定されている。機能ブロックごとにスレッシュホールド電圧値を変えて動作速度を変えるのは「マルチVth」と呼ばれる。マルチコアでは、機能ブロックごとでしか行なえなかったシングルコア製品よりさらに進んだ電力と処理性能との最適化機能が取り込まれる。

メモリ・ボトルネックの解消[編集]

現代のプロセッサはノイマン型であるため、ノイマンズ・ボトルネックによる処理速度の制約がある。2009年現在の主記憶装置に使われるDRAMの速度はプロセッサに比べて極めて遅く、この速度差を解消するメモリ技術は未だに現れていない。

シングルコアでは、プロセッサ内部に小容量のキャッシュメモリを何階層も重ねて持つなど、遅い主記憶装置でもプロセッサの処理性能を大きく損なうことを避けてきたが、複数のプロセッサ・コアを単一の主記憶装置へ接続することは、メモリアクセスによるボトルネックが顕在化する危険性をはらんでいる。

主記憶装置アクセスの高速化: 代表的なプロセッサ・メーカー2社^[どれ?]は、外部（ノースブリッジ）にあったDRAMコントローラーをマルチコア・プロセッサに取り込み、これらのアクセス信号線を高速化するなど主記憶装置への帯域幅を広げることで対応する予定である。
キャッシュシステムの高度化: 主記憶装置であるDRAMとプロセッサ側との速度差はマルチコアの採用によって一層拡大するため、シングルコア以上にキャッシュシステムによるメモリ帯域幅の確保は重要となる。; 幸い、プリフェッチへの努力をある程度あきらめることで、そういった回路へ割いていたトランジスタが削減できてそれぞれのプロセッサ・コアを小さく作れるため、プロセスルールの微細化による恩恵も続くことに合わせて、複数のプロセッサ・コアを1つのダイに載せてもなお、充分な容量のローカルキャッシュを作り込む余裕が生まれる。; 各コアごとにローカルでキャッシュを持つことはアクセス・スピードでは有利になるが、互いのローカル・キャッシュの内容を同一に保つスヌープ機構が複雑になり、各ローカル・キャッシュを共有し合う機構ではさらに複雑になる^[4]。このため、複数のコアの配下で3レベルにもなるキャッシュ階層同士が最適の調停機構を実現するにはこれまでのプリフェッチへの努力とは違った種類の複雑で高速動作が求められる回路がダイの上で大きな面積を占めるようになる。この新たなキャッシュコントローラー部はかなり電力を消費するが、少しでも主記憶装置への無駄なアクセスが減らせるのであれば消費電力は総合的には削減できるとされる。

冗長構成[編集]

メモリ半導体ではあらかじめ冗長領域を設けて不良を少なくする工夫が行なわれているが、マルチコアの登場によって演算部であるコアも同様の冗長的な編成が可能となっている。ソニー・コンピュータエンタテインメントのCellプロセッサでは8個あるコア相当のSPEの内、実際に有効化するSPEは7個とした。こうすることで1個のSPEの動作不良な量産ダイの中でも出荷可能となり、歩留まりが向上する。米インテル社から将来出荷予定のNehalemでもキャッシュメモリの冗長化だけでなく不良コアを無効化する機能が付くと公表されている。

プロセッサ例[編集]

汎用プロセッサ[編集]

IBMのPOWERシリーズ（POWER4以降）
サン・マイクロシステムズのRock
富士通のSPARC64（VI以降）
AMD (x86/x64) のAthlon X2、Phenom II、Opteron、AMD FX、Ryzen/EPYC（Zen）
インテル (x86/x64) のCore 2 Duo/Quad/Extreme、Core iシリーズ、Xeon。

NetBurstマイクロアーキテクチャはPC向けに関してはシングルコアだったが、サーバー向けに関してはデュアルコア製品もあった。

Coreマイクロアーキテクチャ採用のCore 2シリーズにてPC向けでもマルチコアが導入されたが、Core 2 Soloのようにモバイル向けではシングルコア製品もあった。

NehalemマイクロアーキテクチャやSandy Bridgeマイクロアーキテクチャはシングルコア製品もあった。Ivy Bridgeマイクロアーキテクチャ以降はデュアルコア以上となった。

インテル (IA-64) のItanium 2（Itanium 9000 / Montecito以降）
ICTのGodson-3
Apple Mシリーズ

なお、インテルは10個以上のコアを集積したプロセッサをメニーコアと呼んでいる^[1]。

モバイルSoC[編集]

専用プロセッサ[編集]

Graphics Processing Unit (GPU) - NVIDIA GeForceやAMD Radeonなどに代表される。単純な演算器（ストリームプロセッサ）を束ねて、複数のデータをまとめて並列処理することに特化しており、CPUとは比較にならない超マルチコア構成（数百〜数千）となっている。ウルトラハイエンド製品では1万個を超えるコアを搭載しているものもある。リアルタイム3Dグラフィックスの描画が主な用途だが、汎用処理 (GPGPU) の各種APIにも対応している。
インテルのXeon Phi - かつてコードネームLarrabeeとして開発されていた製品の後継として登場したコプロセッサだが、ラインナップ製品はすべて生産終了している。コア数は最大72個^[5]。
シスコシステムズのQFPネットワーク・プロセッサ - 40個
D. E. Shaw ResearchのAnton
トプスシステムズのTOPSTREAM - 最初からマルチコア向けに開発された日本製プロセッサ。MPEG-4および無線LANのベースバンド処理チップの実績あり。

組み込み系プロセッサ[編集]

汎用プロセッサでマルチコアが一般化する以前から、組み込みシステムではマルチコアは一般的に使われている。iPodに搭載されているPortalPlayerのチップは、「ARM7」のコアを2つ搭載している。

脚注[編集]

[脚注の使い方]

^ ^a ^b インテル、メニーコア化への取り組みなど、研究活動に関する説明会を開催^{[リンク切れ]}, マイコミジャーナル, 2005年11月09日
^ 設計上は9コアが存在するが、うち1コアは歩留まり向上のための予備であり、出荷前に無効化されている。
^ Energy Aware Scheduling — The Linux Kernel documentation
^ ローカル・キャッシュを共有し合う機構とは、コアローカルなL2キャッシュとダイ共有のL3キャッシュの関係で、通常はスヌープしてローカルなL2キャッシュ間のコヒーレンシを確保する仕組みである。自分のコアのL2でmissして他のコアのL2にあれば、L3ではなく他のコアのL2をアクセスする仕組みを指す。コア数が増えるとダイ共有のL3では対応し切れなくなるためと推測される^{[独自研究?]}。
^ 製品仕様インテル® Xeon Phi™ プロセッサー

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハイパースレッディング
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチスレッディングマルチプロセッシングメモリコヒーレンス Cache invalidation（英語版） Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit parallelism（英語版） Explicit parallelism（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型マルチコアメモリ NUMA en:COMA en:分散型共有型分散共有型 SMT MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	en:Embarrassingly parallel en:Grand Challenge en:Software lockout
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング