有300億美元也未必“再造GPT-4”?尤洋長文:AI增長瓶頸的真相

有300億美元也未必“再造GPT-4”?尤洋長文:AI增長瓶頸的真相

文章圖片

有300億美元也未必“再造GPT-4”?尤洋長文:AI增長瓶頸的真相

允中 發自 凹非寺
量子位 | 公眾號 QbitAI
2026年將至 , ChatGPT發布三周年 , 但關于“AI瓶頸期”的焦慮正達到頂峰 。
當全行業都在討論如何通過量化、蒸餾來“省錢”時 , 新加坡國立大學校長青年教授、潞晨科技創始人尤洋卻提出了一個更為本質的拷問:
如果給你300億美元預算 , 今天我們真的能訓出比GPT-4強出幾個維度的模型嗎?
在《智能增長的瓶頸》一文中 , 尤洋教授一針見血地指出:
當前智能增長的瓶頸 , 本質上是我們現有的技術范式 , 已經快要“消化”不動持續增長的算力了 。
他提出了幾個顛覆常規認知的硬核觀點:
智能的本質是能源轉化:過去10年 , AI的本質是將電力通過計算轉化為可復用的智能 , 而轉化效率正面臨大考 。 Transformer的秘密:它之所以勝出 , 并非因為更像人腦 , 而是因為它是一臺“偽裝成神經網絡的并行計算機” , 完美契合了英偉達GPU的堆料邏輯 。 效率不等于智能:Mamba等新架構提升了吞吐量 , 但在“算力轉智能”的終極上限上 , 它們真的比Transformer更強嗎? 未來的出路:拋棄Adam優化器?回歸高精度計算(FP32/64)?從電影制作到地震時間預測 , 我們離真正的AGI還有多遠?……

這篇深度長文 , 或許能帶你穿透“降本增效”的迷霧 , 直達算力與智能最底層的邏輯 。
一起來看 。
智能的核心不是解釋 , 而是預測什么是智能?
尤洋沒有照搬任何形式化或哲學化的“智能定義” 。
相反 , 他采用了一種非常工程化、面向能力評估的處理方式 , 通過一組可驗證、可實踐的判斷標準來刻畫智能的邊界:
在關鍵人生決策上 , 是否愿意完全聽從AI; 在高風險、高不確定性領域 , 是否敢讓AI替代專家; 在創作層面 , 是否已經無法分辨作品是否由AI生成;這些例子背后 , 指向的是同一個核心能力:即對未來狀態進行預測 , 并為預測結果承擔實際后果的能力 。

這一鋒利的判斷 , 不僅解釋了為什么Next-Token Prediction能在過去幾年成為事實上的“智能發動機” , 也解釋了為何許多“在封閉評測中表現出色”的系統 , 一旦進入真實世界就迅速暴露短板——
它們往往擅長組織與解釋已有信息 , 卻難以在不確定環境中對未來做出穩定、可執行的判斷 。
當然 , 需要強調的是 , 將智能高度凝聚為“預測” , 更像是在給智能劃定一個工程上可對齊算力投入的核心能力維度 , 而非窮盡智能的全部內涵 。
這是一個足夠清晰也足夠有解釋力的硬核視角 。 而規劃、因果建模以及長期一致性等能力 , 是否能夠完全被還原為預測問題 , 仍然是一個開放議題 。
但當我們把智能簡化為預測能力時 , 下一步的問題自然落到:算力是如何轉化為這種能力的?
預訓練、SFT、RL之爭 , 本質上是“算力分配”問題過去幾年 , 行業對訓練范式的討論 , 常常被“方法論優越感”主導;但如果把目標限定為單位算力能換來多少智能 , 那么范式本身就不再神秘 , 而變成了一種算力使用策略 。
不同于主流敘事 , 尤洋在文章中直接把預訓練、微調、強化學習三者拉到統一層面 , 即三者本質上都是在計算梯度 , 更新參數 。

文章指出 , 當前模型的主要智能來源 , 依然是預訓練階段——不是因為它更“聰明” , 而是因為它消耗了最多的能源與計算 。
從智能增長角度看 , 這三者參數更新發生的頻率與更新所消耗的算力規模確有不同 , 但是通過視角的轉換 , 智能增長的討論就從方法論之爭 , 轉向了一個更樸素 , 也更殘酷的問題——
在算力持續投入的前提下 , 我們是否還能穩定地換取能力增長?
Transformer的勝出 , 不只是算法勝利為了回答這個問題 , 這篇文章回溯了過去十年大模型快速進化的原因 。 尤洋指出 , 這一輪智能躍遷的成立 , 依賴于三件事情同時發生:
一是GPU體系在硬件層面持續提供指數級增長的并行算力; 二是Transformer架構在計算結構上天然支持大規模并行 , 能夠充分“吃下”這些算力; 三是Next-Token Prediction這一訓練目標為模型提供了近乎無限、且高度統一的學習信號 。因此 , Transformer的成功 , 并不僅僅是算法層面的勝利 , 更源于模型架構與硬件體系高度匹配的系統性結果 。
在這三者共同作用下 , 算力增長、模型規模擴大與能力提升之間形成了一條相對穩定的正反饋鏈路 。
需要注意的是 , 這一范式的有效性 , 也在一定程度上受益于語言任務本身的結構特性:語言高度符號化、序列化 , 且評測體系與訓練目標高度一致 。
【有300億美元也未必“再造GPT-4”?尤洋長文:AI增長瓶頸的真相】這使得算力增長、模型規模擴大與能力提升之間 , 在這一階段形成了一條相對穩定的正反饋鏈路 。
也正是在這一歷史條件下 , 從GPT-1、GPT-2到GPT-3 , 再到ChatGPT , 智能水平得以沿著同一范式持續抬升 。
這也自然引出了后文的核心問題:
當算力繼續增長時 , 我們是否還擁有同樣可擴展的范式?
真正的瓶頸 , 并不是算力停了 , 而是算力“吃不動”了尤洋在文中提出了一個非常具體、也非常可操作的標準來判斷智能的瓶頸:
當一次訓練的FLOPS從10^n變成10^{n+3時 , 我們是否還能穩定地獲得顯著更強的模型?
如果答案開始變得不確定 , 那么問題就不在于“算力是否繼續增長” , 而在于:
現有范式對新增算力的吸收效率是否下降; 計算規模的擴大 , 是否被通信、同步和系統開銷所抵消 。這也是文章里反復強調FLOPS的原因:
Token數、參數量、推理速度 , 往往會混合效率與商業因素;而FLOPS才是最底層、也最難被包裝或美化的算力尺度 。
在這個意義上 , 所謂“瓶頸” , 并不是紅利消失 , 而是算力增長與智能增長之間的映射關系開始松動 。
更值得一提的是 , 尤洋在文章中刻意把討論從“效率優化”里拎出來 , 換了一個更接近一線大廠決策的場景:
假設今天Google拍給你一張“300億美元預算”的支票 , 給你半年DDL——在這種極限訓練目標下 , 你還會優先選擇Mamba這類“吞吐量更高”的架構嗎?
未必 。 因為吞吐量解決的是“同等智能更便宜” , 不自動等價于“同等成本更聰明” 。
真正的難點變成:我們到底有沒有一種擴展性更強的架構或Loss函數 , 能把新增算力更穩定地“吃進去” , 并把它轉換成可兌現的能力增量?
那么如何能在單位時間內吃下更多算力 , 并真正將它轉化為智能呢?
未來未定 , 問題的答案可能在多個探索區間內在正式回答算力轉化智能的問題之前 , 尤洋還對硬件與基礎設施層面進行了深入的探討 。
他根據自身多年的從業經驗得出 , 計算開銷/通信開銷的比值 , 必須維持或提升 , 這樣才能在繼續堆疊GPU的情況下 , 線性地換來更多智能 。
因此 , 未來AI基礎設施的核心目標 , 應該關注并行計算體系在軟硬件層面的整體擴展性 , 而不僅僅是單點芯片性能 。
在這一基礎上 , 尤洋最后提出了多個探索方向 , 比如更高精度、高階優化器 , 更可擴展的架構或者Loss函數 , 更多epoch與更深度的超參數探索 。
這些探索方向 , 都在試圖回答同一個命題——如何讓模型在“吃掉”萬億級投入的同時 , 吐出等比例增強的智能?
對于智能的進一步增長而言 , 真正重要的 , 是在極端算力條件下持續變強的能力——這也意味著 , 預訓練所能承載的智能增長空間 , 可能還遠未走到盡頭 。
回到最初討論的問題 , 算力到底還能不能繼續轉化為智能?
尤洋并未給出斷言 , 但邏輯已經清晰:
只要我們還能找到更高效組織計算的方式 , 智能的上限就遠未到來 。
原文傳送門:
https://zhuanlan.zhihu.com/p/1989100535295538013

    推薦閱讀