TPU

### 什麼是 TPU?和 GPU 有何不同?為何 Google 發展 AI 轉向 TPU 會對業界造成重大影響?

本文含有 AI 撰寫內容及人工潤稿,未經查證前不保證完全無誤,請小心參考。

#Gemini/3

什麼是 TPU (Tensor Processing Unit)?

TPU(張量處理單元)是 Google 專為機器學習(Machine Learning)神經網絡研發的特定應用積體電路(ASIC)

不同於 CPU 的通用計算或 GPU 的圖形與並行計算,TPU 是為了加速深度學習中的張量運算(Tensor Operations)而生。它特別針對 Google 的 TensorFlow 框架進行了優化,能夠在處理大規模矩陣運算時提供極高的效率。

TPU 與 GPU 的核心差異

特性 GPU (Graphics Processing Unit) TPU (Tensor Processing Unit)
設計目的 通用並行計算、圖形渲染 專用 AI 加速(特定領域架構)
核心架構 數千個小型核心,擅長 SIMD(單指令多數據) 脈動陣列(Systolic Array),擅長矩陣乘法
靈活性 高,適用於各種 AI 框架、科學計算、遊戲 低,主要針對 TensorFlow/JAX 優化(雖已支援 PyTorch)
精度 支援多種精度 (FP32, FP64, INT8 等) 針對低精度優化 (bfloat16),犧牲極高精度換取速度
能效比 較高,但對於特定 AI 負載不如 TPU 極高,專注於矩陣運算的每瓦效能最佳化
記憶體存取 依賴高頻寬記憶體 (HBM),需頻繁讀寫 減少記憶體存取次數,數據在晶片內流動復用

簡單比喻:

Google 轉向 TPU 對業界的重大影響

Google 發展 TPU 並將其作為 AI 戰略核心,對科技與晶片產業造成了深遠影響:

  1. 打破 Nvidia 的壟斷局面
    在 AI 起飛初期,Nvidia 的 GPU 幾乎是唯一選擇。Google 推出 TPU 證明了針對特定工作負載設計的 ASIC 可以比通用 GPU 更高效。這迫使 Nvidia 加速創新(如推出 Tensor Cores),也激勵了其他雲端巨頭(如 AWS 的 Inferentia/Trainium、微軟的 Maia)開始自研 AI 晶片,減少對 Nvidia 的依賴。

  2. 垂直整合的成本優勢
    Google 擁有從晶片(TPU)、框架(TensorFlow/JAX)到應用(Search, Photos, Gemini)的完整垂直整合能力。這使得 Google 在訓練超大規模模型(如 Gemini)時,能以比競爭對手更低的成本和更高的效率進行,形成強大的護城河。

  3. 推動 AI 基礎設施的專用化
    TPU 的成功標誌著「通用計算」時代向「專用計算」時代的轉變。為了追求極致的 AI 效能,業界開始意識到通用硬體(General Purpose Hardware)已不足以應對摩爾定律放緩下的算力需求,客製化晶片(Custom Silicon)成為解決算力瓶頸的關鍵路徑。

  4. 加速生成式 AI 的落地
    TPU 的強大算力支撐了 Google 許多核心服務的 AI 化,並加速了 Transformer 架構等大模型的研發與迭代。沒有 TPU 龐大的算力叢集(TPU Pods),現代大規模語言模型的訓練成本將會更加高昂且緩慢。

參考

  1. Google Cloud - Cloud TPU 簡介
  2. NVIDIA - CPU vs. GPU vs. TPU
  3. TechTarget - Tensor Processing Unit (TPU)
  4. SemiAnalysis - Google's TPU Strategy