コンテンツにスキップ

テンソル・プロセッシング・ユニット

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Tensor Processing Unit 3.0
TPU v4

テンソル・プロセッシング・ユニット[1][2](Tensor processing unit、TPU)はGoogleが開発した機械学習に特化した特定用途向け集積回路(ASIC)。グラフィック・プロセッシング・ユニット(GPU)と比較して、ワットあたりのIOPSをより高くするために、意図的に計算精度を犠牲に(8ビットの精度[3])した設計となっており、ラスタライズ/テクスチャマッピングのためのハードウェアを欠いている[4] 。チップはGoogleのテンソルフローフレームワーク専用に設計されているがGoogleはまだ他のタイプの機械学習にCPUとGPUを使用している[5] 。他のAIアクセラレータの設計も他のベンダーからも登場しており、組み込みやロボット市場をターゲットとしている。

Googleは同社独自のTPUは囲碁の人間対機械シリーズのAlphaGo対李世ドル戦で使用されたと述べた[4]。GoogleはTPUをGoogleストリートビューのテキスト処理に使っており、5日以内にストリートビューのデータベースの全てのテキストを見つけることができる。Googleフォトでは個々のTPUは1日に1億枚以上の写真を処理できる。TPUはGoogleが検索結果を提供するために使う「RankBrain」においても使用されている[6] 。TPUは2016年のGoogle I/Oで発表されたが、GoogleはTPUは自社のデータセンター内で1年以上前から使用されていると述べた[5][4]

Googleの著名ハードウェアエンジニアのNorm Jouppiによると、TPU ASICはヒートシンクが備え付けられており、データセンターのラック内のハードドライブスロットに収まるとされている[5][7]。2017年時点でTPUはGPUTesla K80やCPUXeon E5-2699 v3よりも15~30倍高速で、30~80倍エネルギー効率が高い[8][9]

アーキテクチャ

[編集]
Tensor Processing Unit (TPU) generations[10][11][12]
v1 v2 v3 v4[11][13][14] v5e[15] v5p[16][17] v6e (Trillium)[18][19] v7 (Ironwood)[20]
Date introduced 2015 2017 2018 2021 2023 2023 2024 2025
Process node 28 nm 16 nm 16 nm 7 nm Not listed Not listed Not listed Not listed
Die size (mm2) 331 < 625 < 700 < 400 300–350 Not listed Not listed Not listed
On-chip memory (MiB) 28 32 32 (VMEM) + 5 (spMEM) 128 (CMEM) + 32 (VMEM) + 10 (spMEM) Not listed Not listed Not listed Not listed
Clock speed (MHz) 700 700 940 1050 Not listed 1750 Not listed Not listed
Memory 8 GiB DDR3 16 GiB HBM 32 GiB HBM 32 GiB HBM 16 GB HBM 95 GB HBM 32 GB 192 GB HBM
Memory bandwidth 34 GB/s 600 GB/s 900 GB/s 1200 GB/s 819 GB/s 2765 GB/s 1640 GB/s 7.37 TB/s
Thermal design power (W) 75 280 220 170 Not listed Not listed Not listed Not listed
Computational performance (trillion operations per second) 23 45 123 275 197 (bf16)

393 (int8)

459 (bf16)

918 (int8)

918 (bf16)

1836 (int8)

4614 (fp8)
Energy efficiency (teraOPS/W) 0.31 0.16 0.56 1.62 Not listed Not listed Not listed 4.7

第1世代

[編集]

第1世代のTPUは、PCIe 3.0バスを介してホストCPUからのCISC命令で動作する8ビット行列乗算エンジンである。TPUは28 nmプロセスで製造され、正確なダイサイズは不明であるがHaswellの半分未満とされていることから最大で331 mm2である[21]。クロックスピードは700 MHzであり、熱設計電力(消費電力)は28~40Wである。TPUは28 MiBのチップメモリーと65536個の8ビット積和演算器の結果を取る4 MiB32ビットアキュムレーターを有している。命令はホストとのデータ送受信、行列の乗算または畳み込み、活性化関数の適用を実行する[22]

第2世代

[編集]

第2世代のTPUは2017年5月17日に発表された[23][24]。 個々のTPU ASICは45テラFLOPSであり、4チップ(1台)で合計180テラFLOPSモジュールとなる。これらのモジュールは256チップ(64台)組み合わせると11.5 PFLOPSのパフォーマンスを発揮する[25]。とりわけ第1世代のTPUは整数に限定されている一方で第2世代のTPUは浮動小数点演算が可能である[26]ので、機械学習モデルの訓練と推論の両方に役立つ。Googleはテンソルフローアプリでの使用のために「Google Computeエンジン」で第2世代のTPUが利用できるようになると述べた[27]

第3世代

[編集]

第3世代のTPUは2018年5月8日に発表された。発表内容は、1ユニットあたりの計算性能が100ペタFLOPSであり、冷却が液体冷却であることのみであった。

第4世代

[編集]

2021年5月18日にGoogle I/O 2021で発表された。

第5世代

[編集]

2023年に、費用対効果の高いTPU v5eと性能重視のTPU v5pが発表された。

第6世代

[編集]

2024年5月にGoogle I/O 2024でTPU v6e[28]が発表された。TPU v5eの4.7倍の性能を誇る[29]。コード名は「Trillium」。

第7世代

[編集]

2025年4月のGoogle Cloud NextでTPU v7が発表された。ピーク演算性能は4,614TFLOP/sである[30]。 コード名は「Ironwood」。[31]

関連項目

[編集]

参考文献

[編集]
  1. ^ AI半導体「エヌビディア」は何がスゴいのか”. 東洋経済オンライン (2017年12月19日). 2024年8月6日閲覧。
  2. ^ Cherney, Max A.「アップル、AIモデル訓練にグーグルの技術も利用」『Reuters』2024年6月12日。2024年8月6日閲覧。
  3. ^ Google's Big Chip Unveil For Machine Learning: Tensor Processing Unit With 10x Better Efficiency (Updated)” (2016年5月19日). 2016年6月26日閲覧。
  4. ^ a b c Google supercharges machine learning tasks with TPU custom chip” (英語). Google (2016年5月18日). 2017年1月22日閲覧。
  5. ^ a b c “Google's Tensor Processing Unit explained: this is what the future of computing looks like” (英語). TechRadar. http://www.techradar.com/news/computing-components/processors/google-s-tensor-processing-unit-explained-this-is-what-the-future-of-computing-looks-like-1326915 2017年1月19日閲覧。 
  6. ^ “Google's Tensor Processing Unit could advance Moore's Law 7 years into the future” (英語). PCWorld. http://www.pcworld.com/article/3072256/google-io/googles-tensor-processing-unit-said-to-advance-moores-law-seven-years-into-the-future.html 2017年1月19日閲覧。 
  7. ^ 米Googleが深層学習専用プロセッサ「TPU」公表、「性能はGPUの10倍」と主張 日経コンピュータDigital
  8. ^ Google、AIチップ「TPU」はGPUより30倍速い
  9. ^ Jouppi, Norman P., et al. "In-datacenter performance analysis of a tensor processing unit." 2017 ACM/IEEE 44th Annual International Symposium on Computer Architecture (ISCA). IEEE, 2017.
  10. ^ Jouppi, Norman P.; Yoon, Doe Hyun; Ashcraft, Matthew; Gottscho, Mark (14 June 2021). Ten lessons from three generations that shaped Google's TPUv4i (PDF). International Symposium on Computer Architecture. Valencia, Spain. doi:10.1109/ISCA52012.2021.00010. ISBN 978-1-4503-9086-6. 2021年6月9日時点のオリジナル (PDF)よりアーカイブ. 2021年6月18日閲覧.
  11. ^ a b System Architecture | Cloud TPU” (英語). Google Cloud. 2022年12月11日時点のオリジナルよりアーカイブ。2022年12月11日閲覧。
  12. ^ Kennedy, Patrick (2017年8月22日). “Case Study on the Google TPU and GDDR5 from Hot Chips 29”. Serve The Home. オリジナルの2021年11月23日時点におけるアーカイブ。. https://web.archive.org/web/20211123145501/https://www.servethehome.com/case-study-google-tpu-gddr5-hot-chips-29/ 2017年8月23日閲覧。 
  13. ^ Stay tuned, more information on TPU v4 is coming soon Archived 2023-03-12 at the Wayback Machine., retrieved 2020-08-06.
  14. ^ Jouppi, Norman P.; Kurian, George; Li, Sheng; Ma, Peter; Nagarajan, Rahul; Nai, Lifeng; Patil, Nishant; Subramanian, Suvinay; Swing, Andy; Towles, Brian; Young, Cliff; Zhou, Xiang; Zhou, Zongwei; Patterson, David (2023). “TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings”. arXiv:2304.01433 [cs.AR].
  15. ^ Cloud TPU v5e Inference Public Preview, retrieved 2023-11-06.
  16. ^ Cloud TPU v5p Archived 2025-04-28 at the Wayback Machine. Google Cloud. retrieved 2024-04-09
  17. ^ Cloud TPU v5p Training Archived 2025-02-11 at the Wayback Machine., retrieved 2024-04-09.
  18. ^ Introducing Trillium, sixth-generation TPUs” (英語). Google Cloud Blog. 2024年5月29日閲覧。
  19. ^ TPU v6e” (英語). Google Cloud. 2025年5月10日時点のオリジナルよりアーカイブ。2024年11月10日閲覧。
  20. ^ Ironwood: The first Google TPU for the age of inference” (英語). Google Blog (2025年4月9日). 2025年5月3日時点のオリジナルよりアーカイブ。2025年4月9日閲覧。
  21. ^ GoogleのAI開発を支えるディープラーニング専用プロセッサ「TPU」 - ISCA論文レビュー版から、その仕組みを読み解く マイナビニュース
  22. ^ “In-Datacentre Performance Analysis of a Tensor Processing Unit”. 2025年6月30日閲覧.
  23. ^ “Google brings 45 teraflops tensor flow processors to its compute cloud”. Ars Technica. (2017年5月17日). https://arstechnica.com/information-technology/2017/05/google-brings-45-teraflops-tensor-flow-processors-to-its-compute-cloud/ 2017年5月30日閲覧。 
  24. ^ “Build and train machine learning models on our new Google Cloud TPUs”. Google. (2017年5月17日). https://blog.google/products/google-cloud/google-cloud-offer-tpus-machine-learning/ 2025年4月16日閲覧。 
  25. ^ Googleの機械学習マシン「TPU」の第2世代登場、1ボード180TFLOPSで64台グリッドでは11.5PFLOPSに到達 GIGAZINE
  26. ^ Googleが第2世代TPUを発表、処理性能は180TFLOPS EE Times Japan
  27. ^ “Google Cloud TPU Details Revealed”. Serve The Home. (2017年5月17日). https://www.servethehome.com/google-cloud-tpu-details-revealed/ 2017年5月30日閲覧。 
  28. ^ Trillium(v6e)の概要 | Cloud TPU”. Google Cloud. 2024年12月9日閲覧。
  29. ^ 株式会社インプレス (2024年5月15日). “Google、従来比性能4.7倍のTPU。HBMの速度/容量も2倍に”. PC Watch. 2024年12月9日閲覧。
  30. ^ 坂本 将磨 (2025年4月11日). “Google TPU「Ironwood」とは?第7世代の性能や特徴、GPUとの違いを解説”. AI総合研究所. 2025年4月16日閲覧。
  31. ^ 末岡洋子 (2025年4月15日). “「Google Cloud Next」でAIエージェント機能を大幅強化、エコシステムづくりも進める”. ASCII. 2025年4月16日閲覧。