ハードウェアマルチスレッディング

ハードウェアマルチスレッディング（英: hardware multi-threading）は、プロセッサのマイクロアーキテクチャにおいて複数のスレッドの実行をハードウェアで提供することである。

概要[編集]

ハードウェアマルチスレッドのパラダイムは、1990年代後半以来、命令レベルの並列性をこれ以上利用する努力が行き詰まったため、注目されるようになった。スループットコンピューティングの概念をより特化した分野であるトランザクション処理から突如再浮上させることになった。

これ以上シングルスレッドやシングルプログラムの性能を向上させるのは非常に難しいが、ほとんどのコンピュータシステムは実際には複数のスレッドやプログラムによりマルチタスクを行なっている。
すべてのタスクのシステム全体のスループットを向上させうる技術が、大きなパフォーマンスの向上につながる。

「スループットコンピューティング」のための二つの有力な方法が、マルチプロセッシングとハードウェアマルチスレッディングである。

マルチスレッディングに対していくつか批判もある:

キャッシュや TLB などのハードウェアを共有すると、複数のスレッドが互いに干渉しあってしまいスラッシングを招く
シングルスレッドの実行時間は向上せず、むしろ低下する可能性がある。
マルチスレッディングのためのハードウェアサポートはソフトウェアにとって目に付くもので、マルチプロセッシングと比べアプリケーションプログラムやオペレーティングシステムにより多くの変更を必要とする。

マルチスレッドサポートするために用いられるハードウェア技術は、コンピュータプログラムのマルチタスクのためのソフトウェア技術と匹敵する。

細粒度マルチスレッディング[編集]

詳細は「バレルプロセッサ」を参照

概念[編集]

細粒度マルチスレッドはサイクルごとに実行スレッドの切り替えを行い、マルチスレッドに対応する方法である。実行スレッドの切り替えは、複数のスレッドからの命令実行をインターリーブ（動的割り当てによる性能向上）するため、大抵の場合ラウンドロビン方式で行われ、停止中のスレッドはスキップされる。^[1]

例：

サイクル i: スレッド A からの命令が発行される
サイクル i+1: スレッド B からの命令が発行される
サイクル i+2: スレッド C からの命令が発行される

この種類のマルチスレッディングの目的は、実行パイプラインから、データ依存によるストールをすべて排除することである。一つのスレッドが比較的他のスレッドから独立しているため、一つのパイプのステージ内の一つの命令がパイプラインの古い命令の出力結果を必要とする可能性は低い。

概念的には、オペレーティングシステムで用いられるプリエンプティブ・マルチタスクと似ている。各アクティブスレッドに与えられたタイムスライスを 1 CPU サイクルに例えることができるだろう。

利点[編集]

細粒度のマルチスレッドの主な利点の1つは、短時間および長時間のスレッドの停止によって生じるスループット低下を隠せることである。というのも、あるスレッドが停止したとき（たとえ数サイクルの停止であったとしても）、サイクルごとに実行スレッドの切り替えを行うので、他のスレッドの命令が実行されるためである。^[1]

欠点[編集]

細粒度のマルチスレッドの主な欠点は、個々のスレッドの実行速度が遅くなることである。サイクルごとに実行スレッドの切り替えを行うので、停止せずに実行可能なスレッドが、他のスレッドからの命令によって遅れてしまうからである。その代償として、シングルスレッドの性能（レイテンシーで測定）が低下するため、マルチスレッドのスループットも向上しない。^[1]

用語[編集]

この種のマルチスレッディングは初め「バレルプロセッシング」と呼ばれ、樽 (barrel) の段がパイプラインのステージと、実行スレッドを表す。「細粒度 (fine-grained) マルチスレッディング (FGMT)」、「インターリーブ型 (interleaved) マルチスレッディング」、「プリエンプティブ (pre-emptive) マルチスレッディング」、「タイムスライス (time-sliced) マルチスレッディング」などが、より現代的な用語である。

ハードウェアのコスト[編集]

「#粗粒度マルチスレッディング」で議論されているハードウェアコストに加え、「細粒度マルチスレッディング」はさらに各パイプラインステージが処理する各命令のスレッド ID を追跡するためのコストがかかる。また、パイプライン内でより多くのスレッドが並列に実行されるため、異なるスレッド間のスラッシングを避けるためキャッシュや TLB などの共有リソースを大きくする必要がある。

例

Denelcor Heterogeneous Element Processor
Intel Super-threading
Sun Microsystems UltraSPARC T1
Lexra NetVortex
MIPS 34K コア(Multi-Threaded ASEを実装)
Raza Microelectronics Inc XLR
Cell プロセッサ内の Power Processing Element (PPE)
Xbox 360のPXプロセッサ

粗粒度マルチスレッディング[編集]

概念[編集]

もっともシンプルなタイプのマルチスレッディングは、一つのスレッドが、通常長い遅延のあるストールを発生させるイベントによりブロックされるまで動作しつづけるものである。こうしたストールはチップの外にあるメモリにアクセスする必要があり、データを取得して復帰するまで数百 CPU サイクルかかるキャッシュミスである可能性がある。スレッド化されたプロセッサは、ストールが解決されるのを待たず、動作の準備ができている別のスレッドに実行を切り替える。以前のスレッドにデータが到着した場合にのみ、以前のスレッドが実行可能なスレッドのリスト上に復帰する。

例：

サイクル i: スレッド A からの命令 j が発行される
サイクル i+1: スレッド A からの命令 j+1 が発行される
サイクル i+2: スレッド A からの命令 j+2 が発行され、すべてのキャッシュをミスする load 命令である
サイクル i+3: スレッドスケジューラが呼び出され、スレッド B に切り替える
サイクル i+4: スレッド B からの命令 k が発行される
サイクル i+5: スレッド B からの命令 k+1 が発行される

概念的には、リアルタイムオペレーティングシステムで使用される協調マルチタスクに似ている。これは、特定のイベントを待つ必要がある場合にタスクが自主的に実行時間を引き渡す。

用語[編集]

この種類のマルチスレッディングは「ブロック型 (block) マルチスレッディング」、「協調 (cooperative) マルチスレッディング」、「粗粒度 (coarse-grained) マルチスレッディング (CGMT)」、「垂直 (vertical) マルチスレッディング (VMT)」として知られる。

ハードウェアのコスト[編集]

マルチスレッディングをハードウェアでサポートすることの目標は、ブロックされたスレッドと、実行可能な別のスレッドの切り替えを高速に行うことである。この目標を達成するためのハードウェアのコストは、プログラムから見えるレジスタといくつかのプロセッサ制御レジスタ（プログラムカウンタなど）を複数持つことである。あるスレッドから別のスレッドへの切り替えは、使用するレジスタセットを別のものに切り替えることを意味する。

こうしたハードウェアの追加は以下の利点がある:

スレッドの切り替えが 1 CPU サイクルで完了する。
各スレッドにとって、それぞれは個別に実行されており、ほかのスレッドとハードウェア資源を共有していないように見える。アプリケーションやオペレーティングシステムでマルチスレッディングをサポートするためのソフトウェアの変更量が最小である。

アクティブなスレッド同士を効率的に切り替えるため、それぞれのアクティブなスレッドは専用のレジスタを一式持つ必要がある。たとえば、二つのスレッドを高速に切り替えるため、レジスタのハードウェアは二つ作成する必要がある。

例[編集]

多数のマイクロコントローラおよび組み込み用途のプロセッサファミリが、割り込みのための高速なコンテキストスイッチが可能なよう複数の高速なレジスタバンクを持っている。こうした戦略はユーザープログラムスレッドと割り込みスレッドの間のブロック型マルチスレッディングの一種と考えることができる。

同時マルチスレッディング[編集]

詳細は「同時マルチスレッディング」を参照

概念[編集]

もっとも進歩したタイプのマルチスレッディングはスーパースケーラ CPU に適用するものである。通常のスーパースケーラプロセッサは一つのスレッドから毎サイクル複数の命令を発行する。同時マルチスレッディング (SMT) ではスーパースケーラプロセッサは複数のスレッドから毎サイクル複数の命令を発行する。各シングルスレッドの命令レベルの並列性が限定されていることを認識し、この種のマルチスレッディングは、使用されていない命令発行スロットに関連した無駄を削減するため、スレッド間で利用できる並列性を活用しようとするものである。

例:

サイクル i: スレッド A からの命令 j と j+1 、スレッド B からの命令 k がすべて同時に発行される
サイクル i+1: スレッド A からの命令 j+2 、スレッド B からの命令 k+1 ; スレッド C からの命令 m がすべて同時に発行される
サイクル i+2: スレッド A からの命令 j+3 、スレッド C からの命令 m+1 とm+2 がすべて同時に発行される

用語[編集]

SMT をその他のマルチスレッディングの種類と区別するため、同時に一つのスレッドからの命令しか発行できない場合には経時的マルチスレッディング (temporal multi-threading) という用語が用いられる。

ハードウェアのコスト[編集]

「#粗粒度マルチスレッディング」で議論されているハードウェアコストに加え、SMTは各パイプラインのステージが処理する命令のスレッド ID を「各命令ごとに」認識するコストがかかる。さらに多数のアクティブのためキャッシュや TLB などの共有リソースを大きくしなければならない。

例[編集]

実装に固有の課題[編集]

研究の主な領域は、実行可能スレッドのリストの中から次に実行するものを高速に選択し、同時に実行可能およびストールしたスレッドのリストを管理するスレッドスケジューラである。スレッドスケジューラは、完全にソフトウェアでも完全にハードウェアでも、ハード/ソフトの組み合わせでも実現することができる。

それ以外の研究の領域として、キャッシュミス、スレッド間通信、DMA の完了など、どの種類のイベントがスレッドの切り替えを起こすべきか、という問題がある。

もしマルチスレッディングの方法としてすべてのソフトウェアから見える状態、権限管理レジスタ、TLB などを含めて複製するのであれば、それは各スレッドに仮想マシンを有効にすることである。これにより各スレッドが自分のオペレーティングシステムを同じプロセッサ上で実行できる。一方で、もしユーザーモードの状態のみが保存されるのであれば、ハードウェアへの要求は少なく、同じダイエリア/コストでより多くのスレッドが一度にアクティブに動作できるようになる。

脚注[編集]

^ ^a ^b ^c 『Computer Architecture』Elsevier Inc.、2012年、224頁。

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハイパースレッディング
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチスレッディングマルチプロセッシングメモリコヒーレンス Cache invalidation（英語版） Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit parallelism（英語版） Explicit parallelism（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型マルチコアメモリ NUMA en:COMA en:分散型共有型分散共有型 SMT MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	en:Embarrassingly parallel en:Grand Challenge en:Software lockout
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング

表話編歴コンピュータ科学
ハードウェア	プリント基板周辺機器 Integrated Circuit (IC) Very Large Scale Integration (超大規模集積回路、VLSI) Systems on Chip (SoC) エネルギー消費 (グリーン・コンピューティング) EDA ハードウェアアクセラレーション
コンピュータシステムの構造	コンピュータ・アーキテクチャ組み込みシステムリアルタイムシステムディペンダビリティ
ネットワーク	ネットワーク・アーキテクチャ（英語版）通信プロトコルネットワーク・コンポーネント（英語版）ネットワーク・スケジューラ（英語版）ネットワーク性能評価（英語版）ネットワーク・サービス（英語版）
ソフトウェアの構造	インタプリタミドルウェア仮想マシンオペレーティングシステムソフトウェア品質
ソフトウェア記法（英語版）とツール	プログラミングパラダイムプログラミング言語コンパイラドメイン固有言語モデリング言語ソフトウェアフレームワーク統合開発環境ソフトウェア構成管理ソフトウェアライブラリソフトウェアリポジトリ
ソフトウェア開発	ソフトウェア開発プロセス要求分析ソフトウェア設計ソフトウェア構築（英語版）ソフトウェアデプロイメントソフトウェアメンテナンスプログラミングチーム（英語版）オープンソースモデル
計算理論	計算モデル形式言語オートマトン理論計算可能性理論計算複雑性理論コンピュータ科学における論理学（英語版）意味論
アルゴリズム	アルゴリズム（英語版）アルゴリズム解析アルゴリズム効率（英語版）乱択アルゴリズム計算幾何学
コンピューティングの数学	離散数学確率統計学数学ソフトウェア情報理論解析学数値解析
情報システム	データベース管理システム情報ストレージシステム企業情報システム社会情報システム（英語版）地理情報システム意思決定支援システムプロセス制御システムマルチメディア情報システム（英語版）データマイニング電子図書館コンピューティング・プラットフォームデジタルマーケティング World Wide Web 情報検索
セキュリティ	暗号理論形式手法セキュリティ・サービス（英語版）侵入検知システムハードウェア・セキュリティ（英語版）ネットワーク・セキュリティ情報セキュリティアプリケーション・セキュリティ（英語版）
ヒューマンコンピュータインタラクション	インタラクションデザインソーシャル・コンピューティング（英語版）ユビキタスコンピューティング可視化アクセシビリティ
並行性	並行コンピューティング並列コンピューティング分散コンピューティングマルチスレッディングマルチプロセッシング
人工知能	自然言語処理知識表現と推論コンピュータビジョン自動計画とスケジューリング検索手法制御手法人工知能の哲学（英語版）分散人工知能（英語版）
機械学習	教師あり学習教師なし学習強化学習マルチタスク学習（英語版）交差検証
グラフィックス	アニメーションレンダリング画像編集 GPU 複合現実バーチャル・リアリティ画像圧縮ソリッドモデリング
応用コンピューティング	電子商取引企業アプリケーション計算数学（英語版）計算物理学計算化学計算生物学計算社会科学計算工学（英語版）健康情報学デジタルアート電子出版サイバー戦争電子投票コンピュータゲームワードプロセッサーオペレーションズ・リサーチ教育工学文書管理システム
概要（英語版）カテゴリブックコモンズ

概要[編集]

細粒度マルチスレッディング[編集]

概念[編集]

利点[編集]

欠点[編集]

用語[編集]

ハードウェアのコスト[編集]

粗粒度マルチスレッディング[編集]

概念[編集]

用語[編集]

ハードウェアのコスト[編集]

例[編集]

同時マルチスレッディング[編集]

概念[編集]

用語[編集]

ハードウェアのコスト[編集]

例[編集]

実装に固有の課題[編集]

脚注[編集]

関連項目[編集]