這個AI能自己造AI,十幾分鐘寫完代碼,一天交付可用模型

這個AI能自己造AI,十幾分鐘寫完代碼,一天交付可用模型

文章圖片


近日 , 在 OpenAI 發布的機器學習工程師基準測試(MLE-bench)中 , 一個名為 AIBuildAI 的智能體系統以 63.11% 的整體得分穩居第一 。

AIBuildAI 是一個可以自動構建 AI 模型的 AI 智能體 。 這意味著 , 你只需給它一個自然語言任務描述和數據文件夾 , 它就能在一天內獨立完成模型設計、代碼生成、模型訓練、超參數調優、性能評估 , 并持續迭代改進模型性能 。


(來源:受訪者提供)

這個“AI 工程師”背后的主要負責人 , 正是加州大學圣地亞哥分校(UCSD)電氣與計算機工程系副教授謝澎濤(Pengtao Xie) 。 他擁有卡內基梅隆大學機器學習系博士背景 , 研究方向聚焦人類學習技能啟發的機器學習 , 并將其應用于大語言模型、基礎模型以及生物醫學領域 。

據謝澎濤介紹 , AIBuildAI 的誕生 , 最初是為了解決實驗室內部一個非?,F實的困境 。

“我們團隊有兩類學生 。 一類是生物醫學背景的 , 他們希望用 AI 預測 RNA 功能、蛋白質結構等具體問題 , 但缺乏建模和編程能力;另一類是 AI 方法背景的 , 雖然能自己寫代碼 , 卻要花好幾天甚至幾周反復實驗 。 ”謝澎濤告訴 DeepTech 。

“如果有一個智能體 , 能讓用戶只用自然語言描述任務 , 后續所有步驟——模型架構設計、代碼編寫、訓練、超參數調優、性能評估、甚至自我復盤改進——全部自動完成 , 那對兩類學生都是巨大解放 。 ”他補充道 。

于是 , AIBuildAI 項目正式啟動 。 “智能體本身大約做了半年 , 但底層的推理、合成數據等技術我們已經積累了好幾年 。 ”謝澎濤透露 , 團隊對于這款智能體的定位也十分明確:基于成熟 AI 模塊組合設計模型 , 解決落地性強的常規任務 。
【這個AI能自己造AI,十幾分鐘寫完代碼,一天交付可用模型】
據悉 , AIBuildAI 是一套模塊化、可閉環運行的 AI 智能體系統 , 整體分為三層 , 各司其職又深度聯動 , 實現從任務理解到模型交付的全流程無人干預 。

頂層是任務理解與決策層 。 當用戶輸入“預測 RNA 功能”或“蛋白質酶分類”等自然語言指令時 , 這一層負責解析意圖、判斷任務類型并拆解執行步驟 。 它是整個系統的“指揮中心” , 決定了建模的方向和邏輯 。

在這一核心中樞的選擇上 , 團隊選用了 Claude-Opus-4.6 大模型 。 “我們測試對比了多個模型 , 雖然 GPT-5 在某些設計思路上表現出色 , 但在智能體最關鍵的環節——‘寫代碼’上 , Claude 的穩定性、長流程邏輯理解和結構化指令執行力是最適配建模場景的 。 ”

中層是推理與代碼生成層 , 也是 AIBuildAI 的技術核心 , 搭載團隊自研的 Dream PRM(過程獎勵模型)、Dream ORM(結果獎勵模型)推理模塊 , 負責模型設計、代碼編寫、迭代復盤 。 PRM 負責步驟級精準推理 , ORM 負責結果校驗與優化建議 , 雙重保障每一步執行不出錯 , 避免“一步錯、全流程崩”的問題 , 也是實現自動復盤改進的關鍵 。

底層是執行與訓練層 , 其承接中層生成的代碼和方案 , 自動完成數據加載、模型訓練、超參數調優、性能評估、結果輸出 , 同時管控硬件資源和算力消耗 。 這一層把上層的“設計思路”轉化為可運行、可部署的實際模型 。


(來源:受訪者提供)

為了驗證 AIBuildAI 的能力 , 團隊在 MLE-bench 的 75 個任務(涵蓋醫療、物理、生物等多個學科)中進行了測試 。 MLE-Bench 是 OpenAI 推出的全球頂尖的全自動機器學習測評平臺 , 專門考核 AI 智能體 “獨立構建有效 AI 模型” 的能力 , 測評覆蓋簡單(Low)、中等(Medium)、高難度(High) 三類真實 AI 任務 , 最終按整體準確率排名 , 是行業內公認的“全自動 ML 能力試金石” 。

AIBuildAI 在這個測評中交出了亮眼的成績 , 在無測試數據泄露的前提下排名第一 。 其中簡單任務準確率77.27%;中等任務準確率 61.40%;高難度任務準確率 46.67%;整體綜合準確率 63.11% 。

以“蛋白質酶類別預測”為例 , 該任務基于發表在 Science 論文的數據集 , AIBuildAI 自動構建的模型 , 效果完全對標論文成果 , 普通用戶借助簡化數據集就能快速復現 。

“對比學生手動寫代碼需要好幾天 , AIBuildAI 十幾分鐘就能完成代碼編寫 , 大多數數據量不大的任務 , 一天內就能落地 。 ”謝澎濤介紹道 。

目前 , AIBuildAI 已深度融入團隊實驗室工作 , 主要服務生物醫學背景的研究者 , 完美適配分類、回歸、序列分析等單模態任務 , 無論是生物信息數據分析 , 還是產業界的預測建模需求 , 都能輕松勝任 。 但對于 AI方向博士生的前沿研究、多模態融合任務 , 目前仍無法完全滿足 , 團隊仍在持續迭代優化 。

針對用戶關心的系統適配問題 , 謝澎濤表示 , 現階段 AIBuildAI 僅支持 Linux 系統 , 暫無適配 Mac、Windows 的計劃 。 “AI 模型訓練依賴 GPU , 而 99% 的 GPU 環境都部署在 Linux 上 , 足以覆蓋絕大多數使用場景 。 ”

據悉 , AIBuildAI 已開啟中小企業試用 , 收獲了不少真實反饋 , 也明確了下一步優化方向 。 用戶反饋的核心問題集中在兩點:數據處理能力不足 , 難以應對缺失值、標注混亂等問題;對用戶意圖理解不夠精準 。

謝澎濤坦言 , 數據處理的技術難點并不大 , 通過增加數據質量檢查工具就能逐步優化 , 但現實場景中數據問題繁雜 , 實現泛化適配仍有挑戰 。 這也是團隊接下來的重點攻堅方向 。

對于 AIBuildAI 的長遠未來 , 謝澎濤有著更宏大的構想:讓智能體具備自我學習、自我進化的能力 。 “未來它能主動閱讀最新論文 , 歸納新知識、轉化為自身技能 , 不用人工干預就能實現能力升級 。 ”

參考鏈接:
1.https://pengtaoxie.github.io/
2.https://github.com/aibuildai/AI-Build-AI
3.https://github.com/openai/mle-bench/pull/126
4.https://www.science.org/doi/10.1126/science.adf2465

運營/排版:何晨龍

    推薦閱讀