テンソル・プロセッシング・ユニット
この記事は英語版の対応するページを翻訳することにより充実させることができます。(2023年12月) 翻訳前に重要な指示を読むには右にある[表示]をクリックしてください。
|


テンソル・プロセッシング・ユニット[1][2](Tensor processing unit、TPU)はGoogleが開発した機械学習に特化した特定用途向け集積回路(ASIC)。グラフィック・プロセッシング・ユニット(GPU)と比較して、ワットあたりのIOPSをより高くするために、意図的に計算精度を犠牲に(8ビットの精度[3])した設計となっており、ラスタライズ/テクスチャマッピングのためのハードウェアを欠いている[4] 。チップはGoogleのテンソルフローフレームワーク専用に設計されているがGoogleはまだ他のタイプの機械学習にCPUとGPUを使用している[5] 。他のAIアクセラレータの設計も他のベンダーからも登場しており、組み込みやロボット市場をターゲットとしている。
Googleは同社独自のTPUは囲碁の人間対機械シリーズのAlphaGo対李世ドル戦で使用されたと述べた[4]。GoogleはTPUをGoogleストリートビューのテキスト処理に使っており、5日以内にストリートビューのデータベースの全てのテキストを見つけることができる。Googleフォトでは個々のTPUは1日に1億枚以上の写真を処理できる。TPUはGoogleが検索結果を提供するために使う「RankBrain」においても使用されている[6] 。TPUは2016年のGoogle I/Oで発表されたが、GoogleはTPUは自社のデータセンター内で1年以上前から使用されていると述べた[5][4]。
Googleの著名ハードウェアエンジニアのNorm Jouppiによると、TPU ASICはヒートシンクが備え付けられており、データセンターのラック内のハードドライブスロットに収まるとされている[5][7]。2017年時点でTPUはGPUTesla K80やCPUXeon E5-2699 v3よりも15~30倍高速で、30~80倍エネルギー効率が高い[8][9]。
アーキテクチャ
[編集]| v1 | v2 | v3 | v4[11][13][14] | v5e[15] | v5p[16][17] | v6e (Trillium)[18][19] | v7 (Ironwood)[20] | |
|---|---|---|---|---|---|---|---|---|
| Date introduced | 2015 | 2017 | 2018 | 2021 | 2023 | 2023 | 2024 | 2025 |
| Process node | 28 nm | 16 nm | 16 nm | 7 nm | Not listed | Not listed | Not listed | Not listed |
| Die size (mm2) | 331 | < 625 | < 700 | < 400 | 300–350 | Not listed | Not listed | Not listed |
| On-chip memory (MiB) | 28 | 32 | 32 (VMEM) + 5 (spMEM) | 128 (CMEM) + 32 (VMEM) + 10 (spMEM) | Not listed | Not listed | Not listed | Not listed |
| Clock speed (MHz) | 700 | 700 | 940 | 1050 | Not listed | 1750 | Not listed | Not listed |
| Memory | 8 GiB DDR3 | 16 GiB HBM | 32 GiB HBM | 32 GiB HBM | 16 GB HBM | 95 GB HBM | 32 GB | 192 GB HBM |
| Memory bandwidth | 34 GB/s | 600 GB/s | 900 GB/s | 1200 GB/s | 819 GB/s | 2765 GB/s | 1640 GB/s | 7.37 TB/s |
| Thermal design power (W) | 75 | 280 | 220 | 170 | Not listed | Not listed | Not listed | Not listed |
| Computational performance (trillion operations per second) | 23 | 45 | 123 | 275 | 197 (bf16)
393 (int8) |
459 (bf16)
918 (int8) |
918 (bf16)
1836 (int8) |
4614 (fp8) |
| Energy efficiency (teraOPS/W) | 0.31 | 0.16 | 0.56 | 1.62 | Not listed | Not listed | Not listed | 4.7 |
第1世代
[編集]第1世代のTPUは、PCIe 3.0バスを介してホストCPUからのCISC命令で動作する8ビット行列乗算エンジンである。TPUは28 nmプロセスで製造され、正確なダイサイズは不明であるがHaswellの半分未満とされていることから最大で331 mm2である[21]。クロックスピードは700 MHzであり、熱設計電力(消費電力)は28~40Wである。TPUは28 MiBのチップメモリーと65536個の8ビット積和演算器の結果を取る4 MiBの32ビットアキュムレーターを有している。命令はホストとのデータ送受信、行列の乗算または畳み込み、活性化関数の適用を実行する[22]。
第2世代
[編集]第2世代のTPUは2017年5月17日に発表された[23][24]。 個々のTPU ASICは45テラFLOPSであり、4チップ(1台)で合計180テラFLOPSモジュールとなる。これらのモジュールは256チップ(64台)組み合わせると11.5 PFLOPSのパフォーマンスを発揮する[25]。とりわけ第1世代のTPUは整数に限定されている一方で第2世代のTPUは浮動小数点演算が可能である[26]ので、機械学習モデルの訓練と推論の両方に役立つ。Googleはテンソルフローアプリでの使用のために「Google Computeエンジン」で第2世代のTPUが利用できるようになると述べた[27]。
第3世代
[編集]第3世代のTPUは2018年5月8日に発表された。発表内容は、1ユニットあたりの計算性能が100ペタFLOPSであり、冷却が液体冷却であることのみであった。
第4世代
[編集]2021年5月18日にGoogle I/O 2021で発表された。
第5世代
[編集]2023年に、費用対効果の高いTPU v5eと性能重視のTPU v5pが発表された。
第6世代
[編集]2024年5月にGoogle I/O 2024でTPU v6e[28]が発表された。TPU v5eの4.7倍の性能を誇る[29]。コード名は「Trillium」。
第7世代
[編集]2025年4月のGoogle Cloud NextでTPU v7が発表された。ピーク演算性能は4,614TFLOP/sである[30]。 コード名は「Ironwood」。[31]
関連項目
[編集]参考文献
[編集]- ^ “AI半導体「エヌビディア」は何がスゴいのか”. 東洋経済オンライン (2017年12月19日). 2024年8月6日閲覧。
- ^ Cherney, Max A.「アップル、AIモデル訓練にグーグルの技術も利用」『Reuters』2024年6月12日。2024年8月6日閲覧。
- ^ “Google's Big Chip Unveil For Machine Learning: Tensor Processing Unit With 10x Better Efficiency (Updated)” (2016年5月19日). 2016年6月26日閲覧。
- ^ a b c “Google supercharges machine learning tasks with TPU custom chip” (英語). Google (2016年5月18日). 2017年1月22日閲覧。
- ^ a b c “Google's Tensor Processing Unit explained: this is what the future of computing looks like” (英語). TechRadar 2017年1月19日閲覧。
- ^ “Google's Tensor Processing Unit could advance Moore's Law 7 years into the future” (英語). PCWorld 2017年1月19日閲覧。
- ^ 米Googleが深層学習専用プロセッサ「TPU」公表、「性能はGPUの10倍」と主張 日経コンピュータDigital
- ^ Google、AIチップ「TPU」はGPUより30倍速い
- ^ Jouppi, Norman P., et al. "In-datacenter performance analysis of a tensor processing unit." 2017 ACM/IEEE 44th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2017.
- ^ Jouppi, Norman P.; Yoon, Doe Hyun; Ashcraft, Matthew; Gottscho, Mark (14 June 2021). Ten lessons from three generations that shaped Google's TPUv4i (PDF). International Symposium on Computer Architecture. Valencia, Spain. doi:10.1109/ISCA52012.2021.00010. ISBN 978-1-4503-9086-6. 2021年6月9日時点のオリジナル (PDF)よりアーカイブ. 2021年6月18日閲覧.
- ^ a b “System Architecture | Cloud TPU” (英語). Google Cloud. 2022年12月11日時点のオリジナルよりアーカイブ。2022年12月11日閲覧。
- ^ Kennedy, Patrick (2017年8月22日). “Case Study on the Google TPU and GDDR5 from Hot Chips 29”. Serve The Home. オリジナルの2021年11月23日時点におけるアーカイブ。 2017年8月23日閲覧。
- ^ Stay tuned, more information on TPU v4 is coming soon Archived 2023-03-12 at the Wayback Machine., retrieved 2020-08-06.
- ^ Jouppi, Norman P.; Kurian, George; Li, Sheng; Ma, Peter; Nagarajan, Rahul; Nai, Lifeng; Patil, Nishant; Subramanian, Suvinay; Swing, Andy; Towles, Brian; Young, Cliff; Zhou, Xiang; Zhou, Zongwei; Patterson, David (2023). “TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings”. arXiv:2304.01433 [cs.AR].
- ^ Cloud TPU v5e Inference Public Preview, retrieved 2023-11-06.
- ^ Cloud TPU v5p Archived 2025-04-28 at the Wayback Machine. Google Cloud. retrieved 2024-04-09
- ^ Cloud TPU v5p Training Archived 2025-02-11 at the Wayback Machine., retrieved 2024-04-09.
- ^ “Introducing Trillium, sixth-generation TPUs” (英語). Google Cloud Blog. 2024年5月29日閲覧。
- ^ “TPU v6e” (英語). Google Cloud. 2025年5月10日時点のオリジナルよりアーカイブ。2024年11月10日閲覧。
- ^ “Ironwood: The first Google TPU for the age of inference” (英語). Google Blog (2025年4月9日). 2025年5月3日時点のオリジナルよりアーカイブ。2025年4月9日閲覧。
- ^ GoogleのAI開発を支えるディープラーニング専用プロセッサ「TPU」 - ISCA論文レビュー版から、その仕組みを読み解く マイナビニュース
- ^ “In-Datacentre Performance Analysis of a Tensor Processing Unit”. 2025年6月30日閲覧.
- ^ “Google brings 45 teraflops tensor flow processors to its compute cloud”. Ars Technica. (2017年5月17日) 2017年5月30日閲覧。
- ^ “Build and train machine learning models on our new Google Cloud TPUs”. Google. (2017年5月17日) 2025年4月16日閲覧。
- ^ Googleの機械学習マシン「TPU」の第2世代登場、1ボード180TFLOPSで64台グリッドでは11.5PFLOPSに到達 GIGAZINE
- ^ Googleが第2世代TPUを発表、処理性能は180TFLOPS EE Times Japan
- ^ “Google Cloud TPU Details Revealed”. Serve The Home. (2017年5月17日) 2017年5月30日閲覧。
- ^ “Trillium(v6e)の概要 | Cloud TPU”. Google Cloud. 2024年12月9日閲覧。
- ^ 株式会社インプレス (2024年5月15日). “Google、従来比性能4.7倍のTPU。HBMの速度/容量も2倍に”. PC Watch. 2024年12月9日閲覧。
- ^ 坂本 将磨 (2025年4月11日). “Google TPU「Ironwood」とは?第7世代の性能や特徴、GPUとの違いを解説”. AI総合研究所. 2025年4月16日閲覧。
- ^ 末岡洋子 (2025年4月15日). “「Google Cloud Next」でAIエージェント機能を大幅強化、エコシステムづくりも進める”. ASCII. 2025年4月16日閲覧。