斯坦?！劣ミ_發布AI推理新范式，刷新了多領域SOTA

2026-05-07 人工智能數學斯坦福 ai 英偉達

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：艾倫【新智元導讀】斯坦福與英偉達聯合發布重磅論文 TTT-Discover ，打破「模型訓練完即定型」的鐵律。它讓 AI 在推理階段針對特定難題「現場長腦子」，不惜花費數百美元算力，只為求得一次打破紀錄的極值。從重寫數學猜想到碾壓人類代碼速度，這種「激進進化」正在重新定義機器發現的邊界。如果把現在的 AI 模型比作一個學霸，它們的工作方式通常是這樣的：在學校（預訓練階段）讀萬卷書，把知識固化在腦子里（參數凍結）。等到考試（推理階段）時，它們靠的是「回憶」和「邏輯推演」來答題。即便像 OpenAI 的 o1 這種「會思考」的模型，也只是在考場上多打了打草稿（CoT思維鏈），它的大腦回路（權重）依然是鎖死的。但就在本周，一篇名為《Learning to Discover at Test Time》的論文橫空出世，來自斯坦福大學和英偉達的研究團隊提出了一種不僅「打草稿」，而且敢在考場上「現場長腦子」的新范式——TTT-Discover（Test-Time Training ，測試時訓練）。
這是對「智能」定義的再一次挑戰。
核心顛覆這項研究的核心邏輯非常反直覺：它不追求「平均分」，它只想要那一次「滿分」。在傳統的強化學習中，我們希望訓練出一個「全能選手」，不僅能做對這道題，以后遇到類似的題也能做對。但 TTT-Discover 說：不，科學發現（Discovery）不需要「通用」。比如我們要尋找一種能治愈癌癥的新分子，或者要找出一個數學猜想的反例。只要我們找到了這一個答案，哪怕模型在這個過程中嚴重「偏科」，甚至為了這道題把自己練廢了（過擬合），把其他所有題都做錯了，又有什么關系呢？只要那個答案是對的，人類就贏了。基于這個理念， TTT-Discover 采用了一種極其激進的策略：現場進化：在推理階段，針對當前的特定問題，利用強化學習直接修改模型的參數。賭徒心態：它修改了損失函數，不再追求「穩健」，而是鼓勵模型去探索那些極端的、風險極高但回報可能巨大的區域。用完即棄：這個針對特定問題進化出來的「特種兵」模型，解完題就可以丟掉了。 【斯坦?！劣ミ_發布AI推理新范式，刷新了多領域SOTA】

戰績：它真的比人類聰明嗎？「不看廣告看療效」。這篇論文最硬核的地方，在于它挑選的對手——全是硬骨頭。
1. 數學界的「毫厘之爭」在著名的 Erd?s 最小重疊問題（一個困擾數學家數十年的數論難題）上，人類和此前最強 AI（AlphaEvolve）的競爭已經卷到了小數點后幾位。 TTT-Discover 進場后，直接把上界從 0.380924 壓低到了 0.380876 。別小看這小數點后四位的變化，在理論數學的無人區，每推進一步都是在重寫歷史。
它構造出了一個極其復雜的、擁有 600 個分段的非對稱函數，而之前的人類最佳構造只有 51 段。
這就像是人類還在用積木搭房子， AI 已經開始用 3D 打印構建復雜的非對稱建筑了。 2. 碾壓人類頂級程序員在 GPU 內核優化（TriMul）比賽中，任務是寫出運行速度最快的底層代碼。這是極度考驗工程師對硬件理解能力的領域。人類第一名的代碼在 H100 顯卡上運行耗時：1371 微秒。 TTT-Discover 寫出的代碼耗時：1161 微秒。在 A100 顯卡上更夸張，它比人類第一名快了整整 50% 。
這意味著，在未來，你玩的游戲、跑的大模型，僅僅因為底層代碼被這種 AI 重寫了一遍，性能就能憑空提升一倍。它發現了一些人類工程師完全沒想到的「騷操作」，比如極其激進的算子融合和精度壓縮。 3. 算法競賽的降維打擊在著名的 AtCoder 啟發式競賽（ahc039 ahc058）中，它不僅擊敗了之前最強的 AI 智能體，還超越了人類金牌選手的歷史最佳成績。
如果當時它參賽，它就是當之無愧的第一名。
冷靜一下，它不是萬能神藥雖然戰績輝煌，但作為一篇嚴謹的科普，必須指出它的「阿喀琉斯之踵」。第一，它是真的「貴」。傳統的 AI 回答一個問題可能只需要幾分錢的算力。而 TTT-Discover 為了解決一個問題，需要在測試時進行幾千次甚至上萬次的采樣和訓練。論文坦承，解決單道題的成本約為 500 美元（約合人民幣 3500 元）。用來做小學奧數題？瘋了。用來設計下一代光刻機指令？便宜得像不要錢。第二，它是個「偏科生」。你不能指望用這個進化后的模型去和你聊天。因為它在解決那道數學題時，可能已經把「如何說你好」這部分的腦細胞都改寫成了「如何計算微積分」。它是為了單點突破而生的一次性工具。第三，它需要「打分器」。這是最關鍵的局限。它目前只能解決那些「好壞顯而易見」的問題（有連續獎勵信號），比如代碼運行速度（越快越好）、數學邊界（越小越好）。對于「寫一首感人的詩」或者「證明黎曼猜想」（通常只有對 / 錯兩種狀態）這類問題，它目前還無能為力。
作者簡介本文通訊作者 Yu Sun ，是「Test-Time Training (TTT)」這一概念的堅定布道者和「總設計師」，目前是斯坦福大學博士后，同時也是英偉達的研究員。
圖源：https://yueatsprograms.github.io/他博士畢業于加州大學伯克利分校，導師是計算機視覺領域的泰斗 Alexei A. Efros 和機器學習專家 Moritz Hardt 。
https://openreview.net/profile?id=~Yu_Sun1
他的「核心思想」很多研究者會追逐不同的熱點（例如今天做 Diffusion ，明天做 RAG），但 Yu Sun 極其罕見地死磕一個概念長達 7 年。他的核心信仰是：「學習不應該在訓練結束時停止。」他認為現有的神經網絡（Train-then-Freeze）是僵化的，真正的智能體應該在推理階段（Test-Time）繼續通過參數更新來學習。
TTT 三部曲：從「修補」到「顛覆」翻看他的論文列表，可以清晰地看到一條把 TTT 從邊緣推向主流的進化路線。 1.0 時代（視覺修復）：代表作：Test-Time Training with Self-Supervision (ICML 2020)當時主要處理圖片。模型在測試時如果遇到模糊或旋轉的圖片（分布偏移），就現場「微調」一下自己來適應這張壞圖。這時候的 TTT 還是個「修補匠」，為了健壯性。
2.0 時代（架構革命）：代表作：Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)他開始挑戰 Transformer 的核心地位。他提出要把 Attention 機制直接換成一個「快速的 TTT 過程」。這篇論文曾在 AI 社區引發巨大討論，被稱為 TTT-LM 。
3.0 時代（智能進化）：代表作：TTT-Discover (2026 本篇論文)他把 TTT 用在了最硬核的科學發現上。不再是為了適應壞數據，而是為了在推理時「進化」出超越預訓練水平的智力，去解決人類都解不開的難題。 Yu Sun 正在試圖用 TTT 重寫深度學習的底層范式——從「靜態的模型」轉向「動態的過程」。這篇 TTT-Discover 正是他這一長期愿景的最新、也是最激進的成果。
關于智慧的另一種想象TTT-Discover 的出現，不僅是一次技術突破，更是一次哲學上的敲打。過去我們認為的「博學」，是像百科全書一樣無所不知。但 AI 向我們展示了另一種更有力量的智慧形態：為了解決一個未知的難題，能夠瞬間遺忘所有無關的平庸，集中全部生命力去異化、去突變，直到成為那把唯一能打開鎖的鑰匙。即使這種進化是不可逆的，即使解決問題后它將不再是它。這或許就是「發現」的本質代價。真正的探索者并不追求成為一本永恒正確的百科全書，他們更愿意做一顆為了照亮未知瞬間而燃盡自我的流星。

推薦閱讀

上一篇：火爆硅谷的Clawdbot，48小時插件病毒式裂變，一句話讓AI執行任務

下一篇：華為“降價王”誕生！麒麟9020+昆侖玻璃+2米防水，512GB降3807元