斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

斯坦福×英偉達發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦福×英偉達發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦福×英偉達發布AI推理新范式,刷新了多領域SOTA

文章圖片

斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA

文章圖片

編輯:艾倫【新智元導讀】斯坦福與英偉達聯合發布重磅論文 TTT-Discover , 打破「模型訓練完即定型」的鐵律 。 它讓 AI 在推理階段針對特定難題「現場長腦子」 , 不惜花費數百美元算力 , 只為求得一次打破紀錄的極值 。 從重寫數學猜想到碾壓人類代碼速度 , 這種「激進進化」正在重新定義機器發現的邊界 。 如果把現在的 AI 模型比作一個學霸 , 它們的工作方式通常是這樣的:在學校(預訓練階段)讀萬卷書 , 把知識固化在腦子里(參數凍結) 。 等到考試(推理階段)時 , 它們靠的是「回憶」和「邏輯推演」來答題 。 即便像 OpenAI 的 o1 這種「會思考」的模型 , 也只是在考場上多打了打草稿(CoT思維鏈) , 它的大腦回路(權重)依然是鎖死的 。 但就在本周 , 一篇名為《Learning to Discover at Test Time》的論文橫空出世 , 來自斯坦福大學和英偉達的研究團隊提出了一種不僅「打草稿」 , 而且敢在考場上「現場長腦子」的新范式——TTT-Discover(Test-Time Training , 測試時訓練) 。
這是對「智能」定義的再一次挑戰 。
核心顛覆這項研究的核心邏輯非常反直覺:它不追求「平均分」 , 它只想要那一次「滿分」 。 在傳統的強化學習中 , 我們希望訓練出一個「全能選手」 , 不僅能做對這道題 , 以后遇到類似的題也能做對 。 但 TTT-Discover 說:不 , 科學發現(Discovery)不需要「通用」 。 比如我們要尋找一種能治愈癌癥的新分子 , 或者要找出一個數學猜想的反例 。 只要我們找到了這一個答案 , 哪怕模型在這個過程中嚴重「偏科」 , 甚至為了這道題把自己練廢了(過擬合) , 把其他所有題都做錯了 , 又有什么關系呢?只要那個答案是對的 , 人類就贏了 。 基于這個理念 , TTT-Discover 采用了一種極其激進的策略:現場進化:在推理階段 , 針對當前的特定問題 , 利用強化學習直接修改模型的參數 。 賭徒心態:它修改了損失函數 , 不再追求「穩健」 , 而是鼓勵模型去探索那些極端的、風險極高但回報可能巨大的區域 。 用完即棄:這個針對特定問題進化出來的「特種兵」模型 , 解完題就可以丟掉了 。 【斯坦?!劣ミ_發布AI推理新范式,刷新了多領域SOTA】

戰績:它真的比人類聰明嗎?「不看廣告看療效」 。 這篇論文最硬核的地方 , 在于它挑選的對手——全是硬骨頭 。
1. 數學界的「毫厘之爭」在著名的 Erd?s 最小重疊問題(一個困擾數學家數十年的數論難題)上 , 人類和此前最強 AI(AlphaEvolve)的競爭已經卷到了小數點后幾位 。 TTT-Discover 進場后 , 直接把上界從 0.380924 壓低到了 0.380876 。 別小看這小數點后四位的變化 , 在理論數學的無人區 , 每推進一步都是在重寫歷史 。
它構造出了一個極其復雜的、擁有 600 個分段的非對稱函數 , 而之前的人類最佳構造只有 51 段 。
這就像是人類還在用積木搭房子 , AI 已經開始用 3D 打印構建復雜的非對稱建筑了 。 2. 碾壓人類頂級程序員在 GPU 內核優化(TriMul)比賽中 , 任務是寫出運行速度最快的底層代碼 。 這是極度考驗工程師對硬件理解能力的領域 。 人類第一名的代碼在 H100 顯卡上運行耗時:1371 微秒 。 TTT-Discover 寫出的代碼耗時:1161 微秒 。 在 A100 顯卡上更夸張 , 它比人類第一名快了整整 50% 。
這意味著 , 在未來 , 你玩的游戲、跑的大模型 , 僅僅因為底層代碼被這種 AI 重寫了一遍 , 性能就能憑空提升一倍 。 它發現了一些人類工程師完全沒想到的「騷操作」 , 比如極其激進的算子融合和精度壓縮 。 3. 算法競賽的降維打擊在著名的 AtCoder 啟發式競賽(ahc039 ahc058)中 , 它不僅擊敗了之前最強的 AI 智能體 , 還超越了人類金牌選手的歷史最佳成績 。
如果當時它參賽 , 它就是當之無愧的第一名 。
冷靜一下 , 它不是萬能神藥雖然戰績輝煌 , 但作為一篇嚴謹的科普 , 必須指出它的「阿喀琉斯之踵」 。 第一 , 它是真的「貴」 。 傳統的 AI 回答一個問題可能只需要幾分錢的算力 。 而 TTT-Discover 為了解決一個問題 , 需要在測試時進行幾千次甚至上萬次的采樣和訓練 。 論文坦承 , 解決單道題的成本約為 500 美元(約合人民幣 3500 元) 。 用來做小學奧數題?瘋了 。 用來設計下一代光刻機指令?便宜得像不要錢 。 第二 , 它是個「偏科生」 。 你不能指望用這個進化后的模型去和你聊天 。 因為它在解決那道數學題時 , 可能已經把「如何說你好」這部分的腦細胞都改寫成了「如何計算微積分」 。 它是為了單點突破而生的一次性工具 。 第三 , 它需要「打分器」 。 這是最關鍵的局限 。 它目前只能解決那些「好壞顯而易見」的問題(有連續獎勵信號) , 比如代碼運行速度(越快越好)、數學邊界(越小越好) 。 對于「寫一首感人的詩」或者「證明黎曼猜想」(通常只有對 / 錯兩種狀態)這類問題 , 它目前還無能為力 。
作者簡介本文通訊作者 Yu Sun , 是「Test-Time Training (TTT)」這一概念的堅定布道者和「總設計師」 , 目前是斯坦福大學博士后 , 同時也是英偉達的研究員 。
圖源:https://yueatsprograms.github.io/他博士畢業于加州大學伯克利分校 , 導師是計算機視覺領域的泰斗 Alexei A. Efros 和機器學習專家 Moritz Hardt 。
https://openreview.net/profile?id=~Yu_Sun1
他的「核心思想」很多研究者會追逐不同的熱點(例如今天做 Diffusion , 明天做 RAG) , 但 Yu Sun 極其罕見地死磕一個概念長達 7 年 。 他的核心信仰是:「學習不應該在訓練結束時停止 。 」他認為現有的神經網絡(Train-then-Freeze)是僵化的 , 真正的智能體應該在推理階段(Test-Time)繼續通過參數更新來學習 。
TTT 三部曲:從「修補」到「顛覆」翻看他的論文列表 , 可以清晰地看到一條把 TTT 從邊緣推向主流的進化路線 。 1.0 時代(視覺修復):代表作:Test-Time Training with Self-Supervision (ICML 2020)當時主要處理圖片 。 模型在測試時如果遇到模糊或旋轉的圖片(分布偏移) , 就現場「微調」一下自己來適應這張壞圖 。 這時候的 TTT 還是個「修補匠」 , 為了健壯性 。
2.0 時代(架構革命):代表作:Learning to (Learn at Test Time): RNNs with Expressive Hidden States (ICML 2025)他開始挑戰 Transformer 的核心地位 。 他提出要把 Attention 機制直接換成一個「快速的 TTT 過程」 。 這篇論文曾在 AI 社區引發巨大討論 , 被稱為 TTT-LM 。
3.0 時代(智能進化):代表作:TTT-Discover (2026 本篇論文)他把 TTT 用在了最硬核的科學發現上 。 不再是為了適應壞數據 , 而是為了在推理時「進化」出超越預訓練水平的智力 , 去解決人類都解不開的難題 。 Yu Sun 正在試圖用 TTT 重寫深度學習的底層范式——從「靜態的模型」轉向「動態的過程」 。 這篇 TTT-Discover 正是他這一長期愿景的最新、也是最激進的成果 。
關于智慧的另一種想象TTT-Discover 的出現 , 不僅是一次技術突破 , 更是一次哲學上的敲打 。 過去我們認為的「博學」 , 是像百科全書一樣無所不知 。 但 AI 向我們展示了另一種更有力量的智慧形態:為了解決一個未知的難題 , 能夠瞬間遺忘所有無關的平庸 , 集中全部生命力去異化、去突變 , 直到成為那把唯一能打開鎖的鑰匙 。 即使這種進化是不可逆的 , 即使解決問題后它將不再是它 。 這或許就是「發現」的本質代價 。 真正的探索者并不追求成為一本永恒正確的百科全書 , 他們更愿意做一顆為了照亮未知瞬間而燃盡自我的流星 。

    推薦閱讀