コンテンツにスキップ

ハードウェアマルチスレッディング

出典: フリー百科事典『ウィキペディア(Wikipedia)』

これはこのページの過去の版です。210.147.161.6 (会話) による 2012年2月16日 (木) 17:26個人設定で未設定ならUTC)時点の版 (→‎例)であり、現在の版とは大きく異なる場合があります。

ハードウェアマルチスレッディング(Hardware multithreading)は、プロセッサマイクロアーキテクチャにおいて複数のスレッドの実行をハードウェアで提供することである。

概要

ハードウェアマルチスレッドのパラダイムは、1990年代後半以来、命令レベルの並列性をこれ以上利用する努力が行き詰まったため、注目されるようになった。スループットコンピューティング の概念をより特化した分野であるトランザクション処理から突如再浮上させることになった。

  • これ以上シングルスレッドやシングルプログラムの性能を向上させるのは非常に難しいが、ほとんどのコンピュータシステムは実際には複数のスレッドやプログラムによりマルチタスクを行っている。
  • すべてのタスクのシステム全体のスループットを向上させうる技術が、大きなパフォーマンスの向上につながる。

スループットコンピューティング のための二つの有力な方法が、マルチプロセッシングハードウェアマルチスレッディングである。

マルチスレッディングに対していくつか批判もある:

  • キャッシュTLB などのハードウェアを共有すると、複数のスレッドが互いに干渉しあってしまいスラッシングを招く
  • シングルスレッドの実行時間は向上せず、むしろ低下する可能性がある。
  • マルチスレッディングのためのハードウェアサポートはソフトウェアにとって目に付くもので、マルチプロセッシングと比べアプリケーションプログラムやオペレーティングシステムにより多くの変更を必要とする。

マルチスレッドサポートするために用いられるハードウェア技術は、コンピュータプログラムのマルチタスクのためのソフトウェア技術と匹敵する。

ブロック型マルチスレッディング

概念

もっともシンプルなタイプのマルチスレッディングは、一つのスレッドが、通常長い遅延のあるストールを発生させるイベントによりブロックされるまで動作しつづけるものである。こうしたストールはチップの外にあるメモリにアクセスする必要があり、データを取得して復帰するまで数百 CPU サイクルかかるキャッシュミスである可能性がある。スレッド化されたプロセッサは、ストールが解決されるのを待たず、動作の準備ができている別のスレッドに実行を切り替える。以前のスレッドにデータが到着した場合にのみ、以前のスレッドが実行可能なスレッドのリスト上に復帰する。

例:

  1. サイクル i  : スレッド A からの命令 j が発行される
  2. サイクル i+1: スレッド A からの命令 j+1 が発行される
  3. サイクル i+2: スレッド A からの命令 j+2 が発行され、すべてのキャッシュをミスする load 命令である
  4. サイクル i+3: スレッドスケジューラが呼び出され、スレッド B に切り替える
  5. サイクル i+4: スレッド B からの命令 k が発行される
  6. サイクル i+5: スレッド B からの命令 k+1 が発行される

概念的には、リアルタイムオペレーティングシステムで使用される協調マルチタスクに似ている。これは、特定のイベントを待つ必要がある場合にタスクが自主的に実行時間を引き渡す。

用語

この種類のマルチスレッディングはブロック型(Block)マルチスレッディング協調(Cooperative)マルチスレッディング粗粒度(Coarse-grained)マルチスレッディング(CGMT)、垂直(Vertical)マルチスレッディング(VMT)として知られる。

ハードウェアのコスト

マルチスレッディングをハードウェアでサポートすることの目標は、ブロックされたスレッドと、実行可能な別のスレッドの切り替えを高速に行うことである。この目標を達成するためのハードウェアのコストは、プログラムから見えるレジスタといくつかのプロセッサ制御レジスタ(プログラムカウンタなど)を複数持つことである。あるスレッドから別のスレッドへの切り替えは、使用するレジスタセットを別のものに切り替えることを意味する。

こうしたハードウェアの追加は以下の利点がある:

  • スレッドの切り替えが 1 CPU サイクルで完了する。
  • 各スレッドにとって、それぞれは個別に実行されており、ほかのスレッドとハードウェア資源を共有していないように見える。アプリケーションやオペレーティングシステムでマルチスレッディングをサポートするためのソフトウェアの変更量が最小である。

アクティブなスレッド同士を効率的に切り替えるため、それぞれのアクティブなスレッドは専用のレジスタを一式持つ必要がある。たとえば、二つのスレッドを高速に切り替えるため、レジスタのハードウェアは二つ作成する必要がある。

  • 多数のマイクロコントローラおよび組み込み用途のプロセッサファミリが、割り込みのための高速なコンテキストスイッチが可能なよう複数の高速なレジスタバンクを持っている。こうした戦略はユーザープログラムスレッドと割り込みスレッドの間のブロック型マルチスレッディングの一種と考えることができる。

インターリーブ型マルチスレッディング

概念

より高い性能を持つマルチスレッディングの種類は、プロセッサが各 CPU サイクルでスレッドを切り替えるものである。

例:

  1. サイクル i  : スレッド A からの命令が発行される
  2. サイクル i+1: スレッド B からの命令が発行される
  3. サイクル i+2: スレッド C からの命令が発行される

この種類のマルチスレッディングの目的は、実行パイプラインから、データ依存によるストールをすべて排除することである。一つのスレッドが比較的他のスレッドから独立しているため、一つのパイプのステージ内の一つの命令がパイプラインの古い命令の出力結果を必要とする可能性は低い。

概念的には、オペレーティングシステムで用いられるプリエンプティブ・マルチタスクと似ている。各アクティブスレッドに与えられたタイムスライスを 1 CPU サイクルに例えることができるだろう。

用語

この種のマルチスレッディングは初めバレルプロセッシングと呼ばれ、樽(barrel)の段がパイプラインのステージと、実行スレッドを表す。インターリーブ型(Interleaved)マルチスレッディングプリエンプティブ(Pre-emptive)マルチスレッディング細粒度(Fine-grained)マルチスレッディング(FGMT)、タイムスライス(time-sliced)マルチスレッディングなどがより現代的な用語である。

ハードウェアのコスト

ブロック型のマルチスレッディングで議論したハードウェアコストに加え、インターリーブ型マルチスレッディングはさらに各パイプラインステージが処理する各命令のスレッド ID を追跡するためのコストがかかる。また、パイプライン内でより多くのスレッドが並列に実行されるため、異なるスレッド間のスラッシングを避けるためキャッシュや TLB などの共有リソースを大きくする必要がある。

同時マルチスレッディング

同時マルチスレッディングを参照

概念

もっとも進歩したタイプのマルチスレッディングはスーパースケーラ CPU に適用するものである。通常のスーパースケーラプロセッサは一つのスレッドから毎サイクル複数の命令を発行する。同時マルチスレッディング(SMT)ではスーパースケーラプロセッサは複数のスレッドから毎サイクル複数の命令を発行する。各シングルスレッドの命令レベルの並列性が限定されていることを認識し、この種のマルチスレッディングは、使用されていない命令発行スロットに関連した無駄を削減するため、スレッド間で利用できる並列性を活用しようとするものである。

例:

  1. サイクル i  : スレッド A からの命令 j と j+1 、スレッド B からの命令 k がすべて同時に発行される
  2. サイクル i+1: スレッド A からの命令 j+2 、 スレッド B からの命令 k+1 ; スレッド C からの命令 m がすべて同時に発行される
  3. サイクル i+2: スレッド A からの命令 j+3 、 スレッド C からの命令 m+1 とm+2 がすべて同時に発行される

用語

SMT をその他のマルチスレッディングの種類と区別するため、同時に一つのスレッドからの命令しか発行できない場合には一時マルチスレッディング(Temporal multithreading)という用語が用いられる。

ハードウェアのコスト

インターリーブ型マルチスレッディングで議論したハードウェアのコストに加え、SMT は 各パイプラインのステージが処理する命令のスレッド ID を各命令ごとに認識するコストがかかる。さらに多数のアクティブのためキャッシュや TLB などの共有リソースを大きくしなければならない。

実装に固有の課題

研究の主な領域は、実行可能スレッドのリストの中から次に実行するものを高速に選択し、同時に実行可能およびストールしたスレッドのリストを管理するスレッドスケジューラである。スレッドスケジューラは、完全にソフトウェアでも完全にハードウェアでも、ハード/ソフトの組み合わせでも実現することができる。

それ以外の研究の領域として、キャッシュミス、スレッド間通信、DMA の完了など、どの種類のイベントがスレッドの切り替えを起こすべきか、という問題がある。

もしマルチスレッディングの方法としてすべてのソフトウェアから見える状態、権限管理レジスタ、TLB などを含めて複製するのであれば、それは各スレッドに仮想マシンを有効にすることである。これにより各スレッドが自分のオペレーティングシステムを同じプロセッサ上で実行できる。一方で、もしユーザーモードの状態のみが保存されるのであれば、ハードウェアへの要求は少なく、同じダイエリア/コストでより多くのスレッドが一度にアクティブに動作できるようになる。

関連項目