谷歌給「AI解數學題」神話降溫:能摘低垂果實,但過程依然痛苦

谷歌給「AI解數學題」神話降溫:能摘低垂果實,但過程依然痛苦

文章圖片

谷歌給「AI解數學題」神話降溫:能摘低垂果實,但過程依然痛苦

文章圖片

谷歌給「AI解數學題」神話降溫:能摘低垂果實,但過程依然痛苦

文章圖片

編輯|張倩
剛剛 , 谷歌發布了一項新的研究進展:他們用 Gemini 做了一次系統性的數學攻關實驗 , 把目標對準了著名的 Erd?s Problems 數據庫里 700 個仍被標注為 open(未解決)的猜想 。

【谷歌給「AI解數學題」神話降溫:能摘低垂果實,但過程依然痛苦】結果相當亮眼:Gemini 在這批問題中一共推進了 13 個 —— 其中 5 個是模型自主給出的全新解法 , 另外 8 個則是模型在文獻中挖出了早已存在、但此前被遺漏的解答 。

  • 論文標題:Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erd?s Problems
  • 論文鏈接:https://arxiv.org/pdf/2601.22401
Erd?s Problems 數據庫以數學家 Paul Erd?s 的名字命名 。 他是 20 世紀最多產的數學家之一 , 留下了大量論文和未解決的猜想 , 涵蓋數論、組合數學、圖論等 。 2023 年 , 數學家 Thomas Bloom 推出了 ErdosProblems.com 網站 , 這是一個集中式數據庫 , 旨在整理這些猜想并跟蹤其研究進展 。 目前 , 該數據庫共收錄 1179 個問題 , 其中 483 個(41%)被歸類為已解決 。
然而 , 該數據庫中標注「open」的問題并不一定代表問題真的未被解決 , 而是意味著至少有一位專業數學家嘗試通過網絡搜索尋找已發表的解決方案 , 但以失敗告終 。
事實證明 , 很多問題并非「未解決」 , 而是答案被淹沒了 。 去年 10 月份 , OpenAI 宣布 GPT-5 在該網站上發現了 10 個標記「open」的問題 , 但其實它們的答案已經存在于相關文獻 , 只是之前未被搜到 。
這一發現使得 Bloom 的數據庫受到了廣泛關注 , 同時促使陶哲軒近期創建了一個社區維基 , 專門跟蹤人工智能輔助解決 Erd?s 問題的相關動態 。
如今 , 谷歌的研究把 Erd?s 問題的解決又往前推了一步 。 但他們也坦言 , 這并不意味著 AI 已經能「自動做數學研究」了 , 背后的臟活累活遠超普通人想象 。
研究方法
作者團隊在 2025 年 12 月 2–9 日部署了一個基于 Gemini Deep Think 的定制數學研究智能體 Aletheia , 對 Bloom 數據庫中當時仍標注為「Open」的約 700 個 Erd?s 問題進行半自動探索 。 Aletheia 內置自然語言驗證器(verifier) , 用于在大規模生成后先做第一輪篩選 , 將候選問題從 700 個快速收斂到 212 個「看起來可能正確」的回答 。
接下來進入人工評估階段 。 研究團隊先由非該領域專家的數學家進行快速過濾 , 盡可能在可控時間內剔除明顯錯誤解 , 從而把候選規模壓縮到 27 個 , 再交由內部領域專家逐一嚴審;當解法的正確性明確但新穎性存疑時 , 還會咨詢外部專家核對文獻 。
最終統計顯示 , 在可明確判定的約 200 個候選解中 , 137 個(68.5%)存在根本性錯誤;63 個(31.5%)在形式上成立 , 但其中只有 13 個(6.5%)真正回答了 Erd?s 原本想問的問題 。 其余 50 個雖然「技術上正確」 , 卻因為誤讀題意而導致數學意義有限 , 作者計劃對這些問題提出更嚴謹的修訂表述;此外還有 12 個回答因問題本身開放或表述不清而被標記為「歧義」 。


根據陶哲軒的建議 , 作者著重列出了上述數據以保證透明度 。 這也是為了更完整地呈現 AI 輔助數學研究的真實成本:除了少數正例之外 , 大量時間會消耗在核驗、糾錯、排查細微錯誤 , 以及檢索文獻以排除「無意重復」上 。
這表明 , 業內廣為流傳的「AI 正在加速科學」的論斷有一定片面性:人們通常只展示少數成功案例 , 強調 AI 在某個任務上比人類更快 , 從而聲稱 AI「加速」了這一結果;但這類敘事很少把負例納入計算 。
更具挑戰性的是最后一步 —— 確認解答是否已在文獻中出現、以及是否真正契合 Erd?s 的原始意圖 。 許多問題的困難不在數學推導 , 而在題面細節的抄錄誤差、遺漏、以及符號與定義約定的歧義;模型若不了解 Bloom 網站的定義慣例 , 往往會在多個「各自合理」的解釋之間混淆 。
作者指出 , 在深入做文獻核查與語義對齊后 , 「真正有意義的正確解」數量會顯著下降 , 這也提醒未來的 AI 數學發現工作必須對題意一致性與文獻溯源保持高度謹慎 。
關鍵結果
作者將 13 個有意義的正確結果分為四類:
1、AI 自主解決 。 對于這些問題 , Aletheia 找到了首個正確的解決方案 , 且解決方案具有實質性的數學意義 。 其中包括 Erd?s-652 和 Erd?s-1051 , 但需要說明的是 , Erd?s-652 的解決是通過直接引用現有文獻中的結果實現的 。
2、部分由 AI 解決 。 對于這些包含多個子問題的復雜問題 , Aletheia 找到了其中一個子問題的首個正確解決方案 。 其中包括 Erd?s-654、Erd?s-935 和 Erd?s-1040 。
3、獨立重發現 。 對于這些問題 , Aletheia 找到了正確的解決方案 , 但人類審核者隨后發現文獻中已存在獨立的解決方案 。 其中包括 Erd?s-397、Erd?s-659 和 Erd?s-1089 。 這些解決方案似乎是模型獨立重發現的:作者仔細檢查了 Aletheia 的推理過程日志 , 確保該解決方案并非直接從文獻中提取 。 當然 , 該解決方案也有可能是通過中間來源或預訓練過程間接從文獻中獲取的 。 這凸顯了 AI 生成數學內容所伴隨的一個新風險:模型可能會再現預訓練過程中習得的文獻知識 , 卻不注明來源 , 即存在「潛意識抄襲」的風險 。
4、文獻識別 。 對于這些問題 , 盡管在模型部署時 Bloom 網站將其標記為「open」 , 但 Aletheia 識別出文獻中已明確存在相關解決方案 。 其中包括 Erd?s-333、Erd?s-591、Erd?s-705、Erd?s-992 和 Erd?s-1105 。

需要明確的是 , 研究團隊并未聲稱后兩類結果具有創新性 。 上述提到的 5 個自主生成的解決方案分別對應 Erd?s-652、Erd?s-654、Erd?s-935、Erd?s-1040 和 Erd?s-1051 。 根據專家的評估 , 這 5 個解決方案均未達到學術論文的水平 。 事實上 , 其中一些解決方案僅相當于研究生習題的難度(基于現有文獻) 。
他們初步認為 , Aletheia 對 Erd?s-1051 的解決方案是 AI 系統自主解決具有一定普遍性(溫和)數學意義的重要開放 Erd?s 問題的早期案例 —— 雖然存在關于密切相關問題的過往文獻 , 但這些文獻均未完全解決 Erd?s-1051 。
此外 , 與許多之前討論的案例不同 , 作者認為 Aletheia 的解決方案并非直接受任何先前人類論證的啟發 , 但該方案確實采用了經典思路:轉向級數尾部并應用馬勒準則(Mahler’s criterion) 。 在 Aletheia 與人類數學家以及 Gemini Deep Think 的協作下 , Erd?s-1051 的解決方案得到了進一步推廣 , 并形成了研究論文 。
研究意義
研究結果表明 , Erd?s 問題中存在「低垂的果實」 , 而 AI 已發展到能夠摘取這些果實的水平 。 盡管這為 AI 研究人員提供了一種新的、有趣的數學基準 , 但作者提醒人們不應過度夸大其數學意義 。 本文解決的所有開放問題 , 任何相關領域的專家都能輕松完成 。 另一方面 , 人類專家的時間有限 。 如果能夠提高 AI 的可靠性 , 它已展現出加速數學發現中注意力瓶頸環節的潛力 。
在本文的案例研究中 , 作者遇到了一些最初未預料到的困難 。 絕大多數技術正確的自主生成解決方案都源于對問題陳述的誤解或解讀缺陷 , 而診斷這些問題有時需要花費大量精力 。
此外 , 人類專家面臨的最具挑戰性的步驟并非驗證解決方案的正確性 , 而是確定這些解決方案是否已存在于文獻中 。 隨著人工智能生成數學內容的增多 , 學術界必須警惕「潛意識抄襲」 , 即 AI 再現訓練過程中習得的文獻知識 , 卻未給予適當引用 。 需要注意的是 , 形式化驗證無法解決這些問題 。
盡管 AI 自主解決 Erd?s 問題的嘗試取得了一定成功 , 但也引發了誤導性的炒作和徹頭徹尾的虛假信息 , 并在社交媒體平臺上被放大 , 這對數學界造成了損害 。 除了 Erd?s 問題 , 未來可能還會有許多其他數學猜想列表成為(半)自主研究的目標 。 作者懇請相關研究人員關注本文提出的這些問題 。
更多信息請參考原論文 。

    推薦閱讀