谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA

文章圖片

谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA
編輯:桃子 好困
【新智元導讀】今天 , 谷歌DeepMind「AI數學家」Aletheia徹底殺瘋了 , 攻克數學猜想 , 獨立寫論文 。 更令人震驚的是 , 拿下金牌的Gemini一舉橫掃18大核心科研難題 。


下一個諾獎得主 , Gemini提前預定了!
谷歌DeepMind再次向全球科研圈扔出炸彈 , 一口氣放出兩篇重磅論文——
Gemini Deep Think成為「科研合伙人」 , 連破數學、物理和計算機科學領域研究級難題 。



以前 , AI可以拿下IMO、ICPC國際大賽金牌 , 已經很牛了....
這一次 , Gemini徹底開掛 , 真正搞起了科研!
谷歌打造了一款基于Gemini「AI數學家」 , 代號Aletheia 。 它在博士級難題上 , 取得了多項科研里程碑 。
其中包括 , 獨立撰寫發表學術幾何論文 , 還對「Erd?s猜想」數據庫中700個開放問題 , 完成系統性評估 。
在IMO-ProofBench基準測試中 , Aletheia一騎絕塵 , 拿下91.9%的成績刷爆SOTA 。

更具顛覆性的 , 它具備了人類最核心的技能:自我糾錯 , 還會主動承認自身無法解決的問題 。
所謂的千禧年大獎難題 , 或許離逐一破解的那天也不遠了 。

不僅如此 , 在物理學和計算機科學 , Gemini Deep Think聯手專家 , 攻克了18個長期停滯的研究難題 。
涵蓋了終結十年子模優化猜想、突破離散算法瓶頸、機器學習與組合優化、信息論與經濟學等 , 斐然的成績足以載入史冊 。

此時此刻 , 人類的科研工作流正在醞釀著一場顛覆性的變革 。
Gemini加速進化正以一種近乎「降維打擊」的方式 , 在多個科研領域暴力破局 。





谷歌「AI數學家」Aletheia重磅出世
干翻博士級難題


2025年夏天 , Gemini Deep Think(高級版)首次拿下了IMO金牌 , 緊接著 , 在ICPC大賽中一舉奪冠 。
如今 , Gemini徹底跨越了競賽門檻 , 正式攻入人類智慧的「深水區」 。
與IMO級的競賽難度不同 , 研究級數學問題需要 , 從浩如煙海的文獻中調用「高級技術」 。
雖然「基礎模型」(FM)知識淵博 , 但缺少專業數據 , 難免在處理高級學科時往往會理解不到位 , 甚至產生「幻覺」 。
為此 , 谷歌DeepMind內部構建了一個數學研究AI智能體——Aletheia , 背靠強大的Gemini Deep Think 。

論文地址:https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf
在古希臘語中 , Aletheia代表著「真理」 。
它做到了在自然語言中「端到端」迭代生成、驗證和修改解決方案 。

具體來說 , Aletheia自帶一個「自然語言驗證器」 , 能挑出候選方案中的毛病 , 并實現「生成-修改」的迭代過程 。
最關鍵的是 , 它能承認自己解不出來 , 這一特性大大提高了研究人員的效率 。

Aletheia概覽:這是一個由Deep Think驅動的數學研究AI智能體 , 能夠針對研究級數學問題進行迭代式的生成、驗證和修正
總言之 , 驅動Aletheia的三大核心技術支柱是:

  • Gemini Deep Think高級版:專門用來死磕那些極難的推理題;

  • 新穎的推理時Scaling Law:它的能力跨度極大 , 上能搞定奧數級難題 , 下能應付博士級的專業練習;

  • 強大的工具調用能力:深度集成Google搜索和網頁瀏覽 , 以此攻克數學研究中老大難問題 ,瞎編參考文獻、計算不準的情況幾乎不存在 。

自2025年7月達到IMO金牌水準以來 , Gemini Deep Think進步謂之神速 。
隨著推理時計算量(inference-time compute)的增加 , 它在IMO-ProofBench高級測試中的得分高達90% 。
谷歌DeepMind證明了 , 即便從奧賽級別跨越到博士級練習題(根據內部FutureMath Basic基準) , Scaling Law依然有效 。
值得注意的是 , Aletheia即便用更少推理算力 , 也能實現更高的推理質量 。
【谷歌AI連發6篇數學論文!Gemini攻入博士級科研,91.9%刷爆SOTA】

截至2026年1月 , Deep Think的最新進階版在奧賽級題目上的表現已大幅超越IMO金牌版本(2025年7月) 。 推理時的Scaling Law同樣適用于博士級練習題 。 Aletheia在推理質量上實現了進一步的飛躍 , 且推理時的計算量更低 。 所有結果均由人類專家評分

首批6篇論文 , AI手搓一篇 , 3篇已發表


在研究級數學的實戰中 , Aletheia的實力可不是鬧著玩的 , 已取得了許多令人矚目的「自主突破」 。
在Aletheia完成的首批六篇論文中 , 一共包括以下幾類——
  • 獨立完成 , 0人類

論文「Eigenweights for arithmetic Hirzebruch Proportionality」完全由Aletheia生成 , 沒有任何人工干預 。

它計算了算術幾何中被稱為「特征權重」(eigenweights)的某些結構常數 。

論文地址:https://arxiv.org/abs/2601.23245
  • 人類與AI協作

論文「Lower bounds for multivariate independence polynomials and their generalisations」是由人類與Aletheia協作完成 , 共同證明了相互作用粒子系統(稱為獨立集)的界限 。

論文地址:https://arxiv.org/abs/2602.02450
  • 大規模半自主評估 , 攻克Erd?s猜想難題

論文「Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems」針對 Bloom的「Erd?s猜想」數據庫中的700個開放問題進行了評估 , 并自主解決了其中列出的四個未解之謎 。
在Erd?s-1051問題上 , 模型給出了自主解答 , 并推動了另一篇研究「Irrationality of rapidly converging series: a problem of Erd?s and Graham」中報告的推廣性成果 。

論文地址:https://arxiv.org/abs/2601.22401

論文地址:https://arxiv.org/abs/2601.21442
此外 , Aletheia還在如下另外兩篇論文中 , 貢獻了中間命題 。

論文地址:https://arxiv.org/abs/2601.18557

論文地址:https://arxiv.org/abs/2601.23229
值得一提的是 , 之前也有Gemini進行研究級數學探索的工作 , 但在合作規模和解決問題的數量上都相對較小 。
此外 , 谷歌DeepMind還建立了一個分類法 , 根據重要性和AI貢獻程度對「AI輔助數學研究」進行分級——
下表中 , 已被列為第2級(可發表質量)的成果已提交給知名期刊 。
目前 , 谷歌尚未通過Gemini獲得任何第3級(重大進展)或第4級(里程碑式突破)的成果 。

本研究涵蓋的所有AI輔助數學成果的分類表 。 表中列為第2級的成果已投稿發表



終結十年猜想 , 攻克18大研究難題


除了在數學方面大展身手 , Gemini Deep Think在計算機科學和物理學領域 , 也表現出了巨大的潛力 。
論文「Accelerating Scientific Research with Gemini: Case Studies and Common Techniques」建立在類似的智能體推理思路之上 , 并總結出了高效合作的「秘籍」 , 特別是「顧問」(Advisor)模式:
即人類通過迭代的「直覺驗證」(Vibe-Proving)循環來引導 AI , 以驗證直覺并完善證明 。



論文地址:https://arxiv.org/abs/2602.03837
此外 , 谷歌還詳細介紹了一些戰術技巧 , 比如「平衡提示詞」(balanced prompting) 。
——要求AI同時嘗試證明或反駁以防止確認偏誤 , 以及代碼輔助驗證 。
這些方法 , 結合模型通過深層結構連接跨越不同科學領域的能力 , 正在改變理論研究的開展方式 。
這項工作 , 是建立在成功部署Gemini Deep Think進階版協助審查STOC’26會議CS理論論文的基礎之上的 。

AI推理流程示意圖:展示了網絡層如何對解題空間進行廣泛探索 , 然后收斂為結構化的推理 , 并最終通過自動化驗證與人工審核進行確認
通過與專家合作攻克18個研究難題 , Gemini Deep Think進階版幫助打破了算法、機器學習、組合優化、信息論以及經濟學領域長期存在的瓶頸 。

ICLR 2026已錄用


論文「Accelerating Scientific Research with Gemini: Case Studies and Common Techniques」中的亮點包括:
  • 跨越數學邊界解決網絡謎題

像「最大割(Max-Cut)」(高效分割網絡)和「施泰納樹(Steiner Tree)」(連接高維點)這類經典計算機科學問題的進展一度停滯 。
Gemini通過打破「思維定勢」破解了這兩個僵局 。
它從完全不相關的連續數學分支中搬來了高深工具——比如Kirszbraun定理、測度論和Stone-Weierstrass定理——成功解決了這些離散算法謎題 。

  • 終結在線子模優化領域十年的猜想

2015年的一篇理論論文為數據流提出了一個看似顯而易見的規則:復制一個新到達的項目永遠比簡單地移動原始項目價值低 。 專家們花了十年時間試圖證明這一點 。
Gemini設計了一個極其刁鉆的「三項目組合反例」 , 嚴格證明了這一長期以來的人類直覺是錯的 。
  • 機器學習優化

訓練AI過濾噪聲通常需要工程師手動調整一個數學上的「懲罰項」 。
研究人員發明了一種能自動調整的新技術 , 但無法從數學上解釋為什么有效 。
Gemini分析了方程并證明了該方法的成功機理:它在運行過程中秘密生成了自己的「自適應懲罰」 。
  • 升級AI時代的經濟理論

最近一個關于拍賣AI生成Token的「顯示原理(Revelation Principle)」在數學上僅在投標被限制為有理數時才成立 。
一旦將范圍擴展到連續的實數 , 原始證明就失效了 。 Gemini利用先進的拓撲學和序理論擴展了該定理 , 使其能適應現實世界中連續的拍賣動態 。
  • 宇宙弦物理學

計算來自宇宙弦的引力輻射需要找到包含「奇點」的棘手積分的解析解 。
Gemini利用「蓋根鮑爾多項式」(Gegenbauer polynomials)找到了一個新穎的解法 。 這自然地吸收了奇點 , 將無限級數坍縮成了一個封閉形式的有限和 。

這些成果橫跨了從信息與復雜性理論到密碼學和機制設計的各個領域 , 展示了AI正如何從根本上改變研究工作 。
考慮到計算機科學領域那種流動性強、以會議為導向的發表機制 , 我們按學術軌跡而非僵化的分類法來描述這些成果 。
以上大約一半的成果瞄準了頂級會議 , 其中一篇被ICLR ’26錄用 , 剩下的大部分將在未來在期刊投稿 。
無論是通過識別錯誤 , 還是反駁猜想來糾正領域方向 , 這些成果都凸顯了AI作為高水平科學協作者的價值 。



Gemini重塑科研 , 人類「倍增器」來了


基于谷歌此前的突破 , 這項工作表明 , 通用的基礎模型 , 聯動智能體推理工作流 , 可以成為強大的科學伙伴 。
在數學家、物理學家和計算機科學家等專家的指導下 , Gemini Deep Think模式正在那些以復雜數學、邏輯和推理為核心的領域證明其實用性 。

我們正在見證科學工作流的根本性轉變 。
隨著Gemini的進化 , 它正在成為人類智慧的「倍增器」 , 負責處理知識檢索和嚴格驗證等工作 , 讓科學家能夠專注于概念的深度和創新的方向 。
無論是完善證明、尋找反例 , 還是連接看似不相關的領域 , AI正在成為科學進步新篇章中不可或缺的協作者 。

    推薦閱讀