詳解Nvidia GPU和Google TPU

2026-04-04 ai 上海市復旦大學航運

文章圖片

一份報告聲稱， Facebook 和 Instagram 的母公司 Meta 正在與谷歌合作，利用這家搜索巨頭的 Tensor Processing Units（TPU）來訓練其人工智能模型。這一消息導致 Nvidia 的市值大幅縮水，損失數十億美元。作為 Nvidia 最大的客戶之一， Meta 向替代硬件方向的轉變對整個半導體巨頭造成了沖擊，引發了連鎖反應。本文將探討 Nvidia 的 GPU 與谷歌 TPU 之間的主要差異，同時考察 Groq 的 LPUs——Nvidia 近期以戰略性 200 億美元的防御舉措收購的一家初創企業。
Nvidia GPU 與 Google TPU：架構與用途英偉達最初設計圖形處理器（GPU）是為了渲染3D圖形。它們擁有數千個小型核心，可以同時處理多個任務。由于它們是通用型的，因此可用于人工智能、游戲、加密貨幣挖礦和科學模擬等領域。
另一方面，谷歌的 TPU 是一款專用集成電路，它是谷歌從零開始專門設計的，其唯一目的就是加速驅動機器學習的“張量”數學運算。

英偉達的GPU是可以購買的。無論是售價1000美元的游戲顯卡，還是售價3萬美元的H100企業級芯片，企業都可以購買并在自己的數據中心運行。芯片數量越多，處理能力越強，模型訓練效果也越好。說到谷歌的TPU ，無法直接購買。谷歌不出售實體芯片，而是通過谷歌云平臺提供“租賃”服務，允許合作伙伴訓練模型。這意味著，如果想要使用TPU ，就必須留在谷歌的生態系統中，而不能在自己的數據中心運行這些硬件。
Nvidia GPU 與 Google TPU：訓練和推理關鍵區別在于速度。英偉達GPU在訓練方面堪稱“王者” ，這意味著它們能夠從零開始訓練AI模型。大多數主流AI實驗室，例如OpenAI、Meta、xAI以及谷歌自身，都使用龐大的英偉達H100/B200集群來構建模型。
谷歌的TPU在推理（運行模型并得出答案）方面占據主導地位。由于TPU專為速度而設計，因此它們可以比GPU更快地同時為數百萬用戶提供AI“答案” ，延遲更低。
其中一個原因是軟件差異。人工智能研究人員熟知如何使用英偉達的CUDA ，因為它是人工智能的“語言” 。而遷移到谷歌的TPU通常需要重寫代碼或切換框架。谷歌云首席執行官托馬斯·庫里安最近表示，該公司已使其模型與英偉達GPU兼容，并且雙方是合作伙伴。
Groq 語言處理單元是一種新型處理器，它采用 AI 推理技術，據稱能夠“大規模地提供 AI 計算速度、質量和經濟性”——就像 Google TPU 一樣。
“Groq 從零開始創建并構建了 LPU ，以滿足人工智能的獨特需求。 LPU 運行大型語言模型 (LLM) 和其他領先模型的速度顯著提升，并且在架構層面，其能效比 GPU 最高可提升 10 倍， ”該公司表示。通過同時提供 LPU 和 GPU ，英偉達旨在提供集強大性能、高速性能和卓越能效于一體的一站式解決方案。
英偉達GPU市場需求目前仍然非常強勁。根據最新數據， Blackwell GPU已出貨600萬塊，預計未來五個季度將額外增加1400萬塊Blackwell和Rubin GPU 。這一出貨量遠超上一代Hopper架構全生命周期400萬塊的規模。英偉達CEO黃仁勛在GTC大會上披露， Blackwell GPU的累計訂單金額已達5000億美元，且這一數據不含中國及亞洲市場。英偉達對未來需求的展望非常樂觀。公司管理層強調，對2025-2026年基于Blackwell和Rubin系統的數據中心累計收入擁有5000億美元的可見性，這一數字比市場普遍預期（4470億美元）高出12% 。花旗認為，這一預測“非同尋?！?，強烈表明公司對未來18個月的強勁需求擁有高度可見性。
光模塊需求的持續上調也印證了GPU需求的增長。 800G光模塊的需求從十一前的4400萬只上調至5000萬只以上， 1.6T光模塊的需求從十一前的1000萬只調整至2000萬只以上。如果考慮到英偉達和博通后續芯片出貨量的潛力， 2026年1.6T的需求可能達到3300萬只。
盡管需求強勁，供應鏈的產能瓶頸仍是挑戰。臺積電的CoWoS封裝產能是AI市場需求增長下的重要瓶頸。英偉達正在與臺積電協商將Rubin的產能從200萬片提升至300萬片，以滿足新增的1.6T光模塊訂單需求。如果雙方達成一致，英偉達可能會進一步追加500萬只光模塊訂單，將1.6T光模塊總需求提升至2000萬只。
【詳解Nvidia GPU和Google TPU】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析，關注我們！

推薦閱讀

上一篇：高通X2 GPU架構有何新變化？

下一篇：楊立昆離職曝MetaAI亂象猛料：戰略激進、人事失當、大模型測試造假