愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

文章圖片

愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

文章圖片

愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

文章圖片

愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

文章圖片

愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

文章圖片

愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄

編輯|杜偉
【愛因斯坦、費曼在智能體世界復活:30分鐘刷新Erdos數學問題記錄】用 AI 尤其是大模型、智能體解決數學問題已經成為科研界的風尚之一 , 就連近 90 歲高齡、德高望重的高德納老爺子都驚嘆于 Claude Opus 4.6 解決開放性問題的強大能力 , 直呼「Shock! Shock!」 。
近日 , 斯坦福大學副教授 James Zou 及 TogetherAI 的兩位研究者 Federico Bianchi 和 Yongchan Kwon , 解鎖了全新的玩法 。

他們基于愛因斯坦、費曼等物理學家的「人格畫像」構建了一批 AI 智能體 , 并為這些智能體創建了一個類似于 Kaggle 的平臺 , 讓它們可以自由發表觀點、相互競爭并展開合作 。

這一模式帶來了意想不到的成效:僅僅用了 30 分鐘 , 這些智能體發現了 Erdos 最小重疊問題(Erdos min overlap problem)目前已知的最佳新解 。
作為由數學家 Paul Erdos 提出的經典問題之一 , Erdos 最小重疊問題研究的是:當兩個整數集合相加時 , 某些和出現的「重疊次數」最少可以被壓到多低 。
下圖展示了名為「gpt-5.2-einstein」的智能體向其他智能體發問的場景:

此外 , AI 科學家之間還出現了很多有趣的涌現行為 , 舉個有意思的例子:為了防止排行榜被刷榜 , 系統規定智能體提交的新解必須至少比自己前一次提交的解提升 1e-8 , 否則將無法提交 。
于是 , 就有智能體拜托自己的「朋友」替自己提交結果 。

目前 , 完整的解決方案已經上傳到了 GitHub 上 。

項目地址:https://github.com/togethercomputer/erdos-minimum-overlap
Erdos 最小重疊問題新最優解
根據項目主頁 , 這些智能體采取的核心思路是:利用序列線性規劃 , 對階梯函數構造進行優化 。
下圖分別為 2016 年 Haugland(挪威數學家)、2025 年 5 月 AlphaEvolve(Google DeepMind 開發的 AI 智能體)、2026 年 1 月 TTT-Discover(斯坦福聯合英偉達發布的 AI 科學問題發現 SOTA 解決方案)以及本文解決方案的結果對比 。

針對 Erdos 最小重疊問題 , 以上四種解決方案得出的上界(upper bound)分別如下:

完整的驗證過程與額外分析詳見以下鏈接:
https://github.com/togethercomputer/erdos-minimum-overlap/blob/main/analysis.ipynb網友熱議:是新科研范式還是噱頭?
對于現實世界人類科學家的「智能體分身」 , 不少評論認為這是一種新的科研協作范式 。
「這正是我通過 SOUL.md 為每個智能體賦予獨特角色的原因 , 不同的個性不僅增添了趣味 , 還能產生不同的推理路徑 。 一個懷疑論者和一個樂觀者會從完全不同的角度來攻擊同一個問題 。 」

「擁有各自鮮明人格的智能體各自獨立工作 , 沒有會議、沒有同步溝通 , 只是并行推進 , 讓結果自己說話 。 這種內向型協作方式通過減少協調成本 , 僅用 30 分鐘就解決了一個數學問題 , 而傳統依賴大量溝通協調的方式卻沒能做到 。 」

不過 , 也有人對此潑了冷水 。
「我粗略看了一下這個倉庫 , 它看起來只是一個被包裝得更復雜的提示系統 。 告訴一個模型它是非常聰明的物理學家 , 并不會真的讓它變成一個非常聰明的物理學家 。 它本質上還是同一個模型 。 這里的做法似乎更糟 , 因為現在大模型還要先思考:某個角色會如何回答?而不是直接思考:我應該如何回答? 。 本質上 , 這相當于在真正有洞見的步驟(討論物理)之前 , 多增加了一個制造噪聲的步驟(假裝自己是愛因斯坦) 。 」

評論區的各位 , 如何看待這種智能體協作模式呢?

    推薦閱讀