這個AI能自己造AI，十幾分鐘寫完代碼，一天交付可用模型

2026-05-03 Google 安卓

文章圖片

近日，在 OpenAI 發布的機器學習工程師基準測試（MLE-bench）中，一個名為 AIBuildAI 的智能體系統以 63.11% 的整體得分穩居第一。

AIBuildAI 是一個可以自動構建 AI 模型的 AI 智能體。這意味著，你只需給它一個自然語言任務描述和數據文件夾，它就能在一天內獨立完成模型設計、代碼生成、模型訓練、超參數調優、性能評估，并持續迭代改進模型性能。

（來源：受訪者提供）

這個“AI 工程師”背后的主要負責人，正是加州大學圣地亞哥分校（UCSD）電氣與計算機工程系副教授謝澎濤（Pengtao Xie）。他擁有卡內基梅隆大學機器學習系博士背景，研究方向聚焦人類學習技能啟發的機器學習，并將其應用于大語言模型、基礎模型以及生物醫學領域。

據謝澎濤介紹， AIBuildAI 的誕生，最初是為了解決實驗室內部一個非?，F實的困境。

“我們團隊有兩類學生。一類是生物醫學背景的，他們希望用 AI 預測 RNA 功能、蛋白質結構等具體問題，但缺乏建模和編程能力；另一類是 AI 方法背景的，雖然能自己寫代碼，卻要花好幾天甚至幾周反復實驗。 ”謝澎濤告訴 DeepTech 。

“如果有一個智能體，能讓用戶只用自然語言描述任務，后續所有步驟——模型架構設計、代碼編寫、訓練、超參數調優、性能評估、甚至自我復盤改進——全部自動完成，那對兩類學生都是巨大解放。 ”他補充道。

于是， AIBuildAI 項目正式啟動。 “智能體本身大約做了半年，但底層的推理、合成數據等技術我們已經積累了好幾年。 ”謝澎濤透露，團隊對于這款智能體的定位也十分明確：基于成熟 AI 模塊組合設計模型，解決落地性強的常規任務。
【這個AI能自己造AI，十幾分鐘寫完代碼，一天交付可用模型】
據悉， AIBuildAI 是一套模塊化、可閉環運行的 AI 智能體系統，整體分為三層，各司其職又深度聯動，實現從任務理解到模型交付的全流程無人干預。

頂層是任務理解與決策層。當用戶輸入“預測 RNA 功能”或“蛋白質酶分類”等自然語言指令時，這一層負責解析意圖、判斷任務類型并拆解執行步驟。它是整個系統的“指揮中心” ，決定了建模的方向和邏輯。

在這一核心中樞的選擇上，團隊選用了 Claude-Opus-4.6 大模型。 “我們測試對比了多個模型，雖然 GPT-5 在某些設計思路上表現出色，但在智能體最關鍵的環節——‘寫代碼’上， Claude 的穩定性、長流程邏輯理解和結構化指令執行力是最適配建模場景的。 ”

中層是推理與代碼生成層，也是 AIBuildAI 的技術核心，搭載團隊自研的 Dream PRM（過程獎勵模型）、Dream ORM（結果獎勵模型）推理模塊，負責模型設計、代碼編寫、迭代復盤。 PRM 負責步驟級精準推理， ORM 負責結果校驗與優化建議，雙重保障每一步執行不出錯，避免“一步錯、全流程崩”的問題，也是實現自動復盤改進的關鍵。

底層是執行與訓練層，其承接中層生成的代碼和方案，自動完成數據加載、模型訓練、超參數調優、性能評估、結果輸出，同時管控硬件資源和算力消耗。這一層把上層的“設計思路”轉化為可運行、可部署的實際模型。

（來源：受訪者提供）

為了驗證 AIBuildAI 的能力，團隊在 MLE-bench 的 75 個任務（涵蓋醫療、物理、生物等多個學科）中進行了測試。 MLE-Bench 是 OpenAI 推出的全球頂尖的全自動機器學習測評平臺，專門考核 AI 智能體 “獨立構建有效 AI 模型” 的能力，測評覆蓋簡單（Low）、中等（Medium）、高難度（High）三類真實 AI 任務，最終按整體準確率排名，是行業內公認的“全自動 ML 能力試金石” 。

AIBuildAI 在這個測評中交出了亮眼的成績，在無測試數據泄露的前提下排名第一。其中簡單任務準確率77.27%；中等任務準確率 61.40%；高難度任務準確率 46.67%；整體綜合準確率 63.11% 。

以“蛋白質酶類別預測”為例，該任務基于發表在 Science 論文的數據集， AIBuildAI 自動構建的模型，效果完全對標論文成果，普通用戶借助簡化數據集就能快速復現。

“對比學生手動寫代碼需要好幾天， AIBuildAI 十幾分鐘就能完成代碼編寫，大多數數據量不大的任務，一天內就能落地。 ”謝澎濤介紹道。

目前， AIBuildAI 已深度融入團隊實驗室工作，主要服務生物醫學背景的研究者，完美適配分類、回歸、序列分析等單模態任務，無論是生物信息數據分析，還是產業界的預測建模需求，都能輕松勝任。但對于 AI方向博士生的前沿研究、多模態融合任務，目前仍無法完全滿足，團隊仍在持續迭代優化。

針對用戶關心的系統適配問題，謝澎濤表示，現階段 AIBuildAI 僅支持 Linux 系統，暫無適配 Mac、Windows 的計劃。 “AI 模型訓練依賴 GPU ，而 99% 的 GPU 環境都部署在 Linux 上，足以覆蓋絕大多數使用場景。 ”

據悉， AIBuildAI 已開啟中小企業試用，收獲了不少真實反饋，也明確了下一步優化方向。用戶反饋的核心問題集中在兩點：數據處理能力不足，難以應對缺失值、標注混亂等問題；對用戶意圖理解不夠精準。

謝澎濤坦言，數據處理的技術難點并不大，通過增加數據質量檢查工具就能逐步優化，但現實場景中數據問題繁雜，實現泛化適配仍有挑戰。這也是團隊接下來的重點攻堅方向。

對于 AIBuildAI 的長遠未來，謝澎濤有著更宏大的構想：讓智能體具備自我學習、自我進化的能力。 “未來它能主動閱讀最新論文，歸納新知識、轉化為自身技能，不用人工干預就能實現能力升級。 ”

參考鏈接：
1.https://pengtaoxie.github.io/
2.https://github.com/aibuildai/AI-Build-AI
3.https://github.com/openai/mle-bench/pull/126
4.https://www.science.org/doi/10.1126/science.adf2465

運營/排版：何晨龍

推薦閱讀

上一篇：AI科學家登上Nature，論文從構思到發表全自動化，一篇已通過評審

下一篇：谷歌新論文證明LLM可以少吃80%內存，閃迪盤中跌去50億美元