AI推理成為下一代芯片競爭新戰場

AI推理成為下一代芯片競爭新戰場

AI推理——運行訓練好的模型來提供輸出——已成為該行業的新盈利中心 。 主要芯片制造商正在爭相優化延遲、功耗和成本 , 推動向通用GPU與專用硅芯片配對的轉變 , 并收購構建這些技術所需的工程人才 。

英偉達與Groq價值200億美元的許可協議突顯了這一轉向 。 AMD已收購了Untether AI的工程團隊 , 英特爾正在尋求收購SambaNova , 據報道其估值約為16億美元 。 分析師表示 , 行業整合不會關閉市?。 恍棖罄┐蟮某潭茸鬩勻孟鐘釁笠島統醮垂駒謔葜行暮捅咴擋渴鷸芯赫?。
Moor Insights & Strategy數據中心副總裁兼首席分析師Matt Kimball表示:\"大公司正在投資加強其推理產品組合 , 既通過產品也通過收購工程人才 。 但會有很多芯片初創公司出現 , 它們將發揮重要作用 。 \"
為什么推理是盈利中心
Cambrian AI Research創始人兼首席分析師Karl Freund表示 , 推理與訓練在經濟性和性能要求方面根本不同 。 訓練AI模型是成本中心 , 而推理是直接產生收入的\"盈利中心\" 。
Freund和Kimball指出 , 雖然GPU提供出色的性能 , 但它們通常具有為訓練優化的架構特性 , 這些特性在純推理用例中并不總是能轉化為更低的延遲或更高的效率 。 專用推理芯片——ASIC和其他加速器——可以提供更快的響應、改進的能效和更低的總擁有成本 。
\"作為盈利中心 , 如果你有良好的延遲 , 你將獲得更多收入 , 因為人們希望盡可能快速的響應 , 而且你希望成本盡可能低 , \"Freund說 。
2026年:從試點到企業生產
分析師表示 , 以英偉達為主導、AMD逐漸增強實力的GPU在大規模訓練和推理中占主導地位 , 并將繼續在最大工作負載中領先 。 然而 , 推理需求激增正在創造GPU之外的機會 , 特別是主流企業今年從試點擴展到生產時 。
\"你將開始看到規模不是100000名員工 , 而是10000名員工的小公司 , 開始在制造、后臺、前臺和邊緣激活AI , \"Kimball說 。 這些組織面臨功耗限制、冷卻約束和持續的GPU供應挑戰 , 使得GPU密集型集群在許多環境中不實用 。
\"當你部署GB200或H100時 , 你部署的是千瓦級的設備 , \"Kimball指出 。 \"零售環境功耗預算有限 , 沒有良好的冷卻系統 , 所以你無法運行GPU機架 。 你需要尋找其他部署方案 。 \"
對于較小的公司 , 如擁有100家分支機構的銀行 , 總擁有成本和功耗預算是優先考慮因素 , 為專注于推理的初創公司創造了滿足其需求的機會 。 \"這是芯片初創公司的重大機會 , \"Kimball說 。 \"它滿足了當前廠商無法滿足的客戶需求 , 要么是因為可用性問題 , 要么是因為特定的性能功耗要求 。 \"
隨著推理增長 , 市場呈現多樣化
Freund表示 , 雖然GPU仍是目前推理的最佳通用解決方案 , 但市場正在向AWS、Google和初創公司的ASIC和替代架構轉移 。
根據Futurum Group 2025年11月的調查 , 2025年GPU占數據中心計算支出的58%;2026年 , XPU——既不是GPU也不是CPU的處理器 , 如ASIC和定制加速器——預計將以22%的增長率領先 , 超過GPU(19%)和CPU(14%) 。
Futurum Group半導體、供應鏈和新興技術研究總監Brendan Burke表示:\"隨著推理工作負載在Token輸出方面超過訓練工作負載的總量 , 將更需要多樣性 , 因為替代XPU架構可以在某些特定推理任務上實現更好的效率 。 \"
超大規模廠商和硅供應商的策略
AWS展示了不斷擴大的需求 。 這家超大規模廠商支持英偉達、AMD和英特爾芯片用于AI工作負載 , 同時也提供定制芯片給客戶選擇 , AWS技術總監Shaown Nandi表示 。 許多客戶青睞英偉達的CUDA優化模型 , 而其他客戶越來越多地采用AWS的Trainium以獲得性價比和效率 , Nandi補充道 。
\"兩者都有很大需求 , \"他解釋說 。 \"Bedrock(AWS推理服務)上近50%的Token運行在我們的Trainium芯片上 。 \"
英偉達已認識到專用推理處理器的需求 。 2024年 , 高管表示其數據中心收入約40%來自推理 。 2025年9月 , 英偉達宣布推出Rubin CPX , 這是為超大規模和大型企業部署中的大規模上下文推理設計的GPU , 特別是在解碼前處理提示的預填充階段 。 英偉達與Groq的許可協議旨在將快速、低延遲、低成本的推理集成到其AI工廠架構中;CNBC報道計劃整合Groq的低延遲處理器以支持更廣泛的實時推理 。
英特爾除了計劃收購SambaNova外 , 還在追求多種推理選擇 。 該公司通過AMX加速器增強了其Xeon CPU , 并為推理工作負載提供專用的Gaudi AI加速器 。 \"今天很多推理發生在CPU上 。 明天很多推理仍將發生在CPU上 , \"Kimball說 。
AMD通過收購Untether AI工程團隊 , 并在2025年11月收購推理初創公司MK1來增強實力 。 MK1開發優化AMD GPU在大規模企業部署中進行高速推理和推理的軟件 。
Freund在2025年12月的博客文章中表示 , Google的最新TPU芯片將成為推理的有力競爭者 , 而高通即將推出的AI200和AI250芯片承諾大容量內存和更低成本 , 可能成為引人注目的數據中心選擇 。
值得關注的初創公司
推理機會涵蓋數據中心和邊緣 , 要求因工作負載和部署而大不相同 。 \"你在自動駕駛汽車中進行的推理與在線客服機器人中的推理完全不同 , \"Kimball說 。
Tirias Research首席分析師Jim McGregor指出 , 推理機會存在于任何有計算的地方 , 包括智能手機、PC和汽車 。 \"沒有兩個工作負載是相同的 , 但我們將看到針對不同工作負載類型的多種不同AI加速器 , \"他說 。 \"市場仍處于早期階段 , 仍有很多廠商的空間 。 \"
Freund預測2026年大部分推理仍將在數據中心而非邊緣運行 。
數據中心推理挑戰者包括Cerebras和Tenstorrent 。 Cerebras成立于2015年 , 大約一年前開始在其晶圓級芯片上提供推理能力 。 其系統可以通過軟件在訓練和推理模式之間切換 , 目前約70%的工作負載專注于推理 , Cerebras產品和戰略高級副總裁Andy Hock表示 。 訓練仍占該公司大部分收入 。
Tenstorrent成立于2016年 , 由幫助設計AMD Zen架構的Jim Keller領導 , 正在構建基于RISC-V的AI推理處理器 。
韓國NPU體現了邊緣到數據中心的多樣性 。 Kimball表示 , FuriosaAI以節能NPU架構和LG等主要客戶而聞名 。 據報道該公司在2025年拒絕了Meta的收購提議 。 另一家韓國初創公司Rebellions以其ARM技術和來自ARM和Samsung Ventures的重要資金而聞名 。
初創公司還在解決推理性能的核心內存和網絡瓶頸 。 開發RISC-V芯片設計的SiFive于2025年9月推出其Intelligence系列協處理器的第二代 , 旨在最小化其AI CPU中的內存延遲 。 NeuReality于2025年9月推出其NR2 AI-SuperNIC , 這是支持Ultra Ethernet Consortium規范進行橫向擴展計算的網絡接口卡 。 據Freund稱 , d-Matrix開發的內存解決方案可以以更低成本運行速度比高帶寬內存快四倍 。
市場展望
分析師預期英偉達將在訓練和推理中保持主導地位 , 但多樣化的要求為專用解決方案創造了獲得份額的空間 。 McGregor對初創公司在快速技術變革中的前景持謹慎態度 , 并預期會有更多整合 。 雖然Groq已取得成功 , 但其他早期初創公司卻舉步維艱 。 除了AMD收購Untether AI和軟銀收購Graphcore外 , McGregor指出 , 考慮到SambaNova此前融資11億美元 , 據報道16億美元的出售代表了一次\"甩賣\" 。
GPU仍占主導地位 , 因為它是通用且多功能的 。 \"這就是GPU仍然稱王的原因 。 它是可編程的 , \"McGregor說 。 \"你可以改變它、分叉它 , 并同時運行多個模型 。 \"
Kimball持不同觀點 , 預期2026年主流企業采用將釋放對推理為中心的初創公司的需求 。 \"當推理市場實現時 , 這些初創公司會做得更好 , \"他說 。 他預期通用推理芯片和專業垂直解決方案都有機會 。
總的來說 , Kimball表示 , 專用推理芯片的優勢——更低成本、減少功耗和強勁性能——創造了重大機會 。 當前的初創公司能否利用這些機會仍有待觀察 。 \"這是一個豐富而充滿活力的初創公司場景 , \"他說 。 \"有如此多的機會、如此多的創新正在進行 , 而且仍處于游戲的早期階段 。 \"
Q&A
Q1:AI推理和AI訓練有什么區別?
A:AI推理是運行訓練好的模型來提供輸出 , 而訓練是構建模型的過程 。 推理與訓練在經濟性和性能要求方面根本不同 。 訓練AI模型是成本中心 , 而推理是直接產生收入的\"盈利中心\" 。 推理需要更低的延遲、更高的效率和更低的總擁有成本 。
Q2:為什么專用推理芯片比GPU更有優勢?
A:雖然GPU提供出色的性能 , 但它們通常具有為訓練優化的架構特性 , 在純推理用例中并不總是能轉化為更低的延遲或更高的效率 。 專用推理芯片如ASIC和其他加速器可以提供更快的響應、改進的能效和更低的總擁有成本 , 特別適合對延遲要求嚴格的應用場景 。
Q3:哪些公司在推理芯片市場值得關注?
【AI推理成為下一代芯片競爭新戰場】A:數據中心推理挑戰者包括Cerebras和Tenstorrent 。 韓國的FuriosaAI以節能NPU架構聞名 , Rebellions以ARM技術著稱 。 此外還有專門解決內存和網絡瓶頸的初創公司 , 如SiFive、NeuReality和d-Matrix等 , 它們都在不同領域提供專業化的推理解決方案 。

    推薦閱讀