前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

文章圖片

前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

文章圖片

前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

文章圖片

前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

機器之心發布
在大公司一路高歌猛進的 AI 浪潮里 , 小創業者和高校研究者正變得越來越迷茫 。 就連前段時間谷歌創始人謝爾蓋?布林回斯坦福 , 都要回答「大學該何去何從」「從學術到產業的傳統路徑是否依然重要」這類問題 。
AI , 真的只是大公司的游戲嗎?被算力掣肘的其他研究者、創業者 , 機會在哪里?在「強化學習」后訓練引領「下半場」的當下 , 這個問題變得愈發重要 。
好在 , 國內外都有專業團隊在關心這個問題 , 比如前 OpenAI CTO Mira 創辦的 Thinking Machines Lab , 前段時間就推出了一個叫「Tinker」的產品 , 專注于解決后訓練 Infra 的復雜性 。
而在國內 , 一群由 95 后青年科學家組成的團隊做出了足以對標甚至超越 Tinker 的競品 , 成為世界第一家能夠對標 Thinking Machines Lab 的公司 。
這個研究中心叫 Mind Lab , 是 Macaron AI 背后的實驗室 。 1 月 1 日 , 他們發布了亮相以來的第一款產品——Mind Lab Toolkit(MinT) 。 這是一個用 CPU 的機器就能高效訓練萬億參數模型的后訓練平臺 , 且成本優化了十倍 , 一天即可輕松完成一輪訓練 。 此外 , 它比 Thinking Machines 更早實現了 1T LoRA-RL , 是業界在萬億參數模型上進行高效強化學習的第一個成果 。

如果你是 Agent 領域創業公司或高校頂尖實驗室的成員 , 并且被算力限制了想象力 , 那你將是 MinT 的首批受益者 。 它的應用場景涵蓋基礎研究到垂直行業的廣泛領域 , 已經在圈內做出了一些成果 。
細看一下 , Mind Lab 的創始團隊也堪稱豪華 。 創始人 Andrew 畢業于 MIT , 目前擔任深圳清華大學研究院的研發中心主任 , 代表工作有和姚順雨合作的 Agent 微調的經典工作之一 FireAct 。
首席科學家馬驍騰博士則畢業于清華大學自動化系 , 常年深耕強化學習領域 。 團隊成員來自清華、MIT、CMU等高校 , 并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經歷 。
團隊累計發表論文超 100 篇 , 總引用量超 3 萬次 。
這樣一個團隊打造的 MinT , 正以極致的工程效率 , 將 AI 下半場的入場券交還到每一位研究者手中 。
預訓練時代結束
AI 下半場開啟
過去幾年 , 預訓練一直是 AI 領域的主旋律 —— 更大的模型、更多的數據、更長的訓練周期 。
如今 , 這一階段已趨于飽和:開源社區已經擁有萬億參數級別的模型 , 能夠編寫代碼、總結文檔、通過標準化考試 。
但當這些系統被部署到真實產品中 , 新的瓶頸開始顯現 。 模型一旦完成訓練 , 參數就被 ' 凍住 ' 了 , 不停重復著相同的錯誤 , 也無法適應不斷變化的用戶需求 , 實際使用效果只能靠抽卡 。
強化學習 , 正是破局的關鍵 。
DeepSeek R1 的發布更是向業界證明 , 強化學習能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數據 , 而是學會了在復雜任務中進行推理 。
在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術報告中都反復強調:后訓練仍是一片藍海 , 強化學習還沒看到天花板 。
2026 年的主旋律 , 是后訓練 。
后訓練時代的基礎設施
強化學習這么重要 , 為什么沒普及?答案是:算法太復雜 , 訓練太不穩定 。
為了解決這個問題 , 前 OpenAI CTO Mira 創立的 Thinking Machines 發布了 Tinker , 定義了后訓練 API 的新范式 , 迅速獲得美國學界和硅谷創業公司的熱捧 。
在 OpenAI 經歷了 Sam Altman 被解雇又回歸的內部動蕩后 , Mira 選擇離開 , 并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業界頂尖人才 。 資本市場對這家公司的追捧堪稱瘋狂 。 2025 年 7 月 , Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元 , 估值 120 億美元 。
他們押注的 , 正是后訓練賽道 。 2025 年 10 月 , Thinking Machines 發布了首款產品 Tinker , 12 月面向所有用戶開放 。 如果說 OpenAI 定義了大模型的推理 API 范式 , 那么 Tinker 定義的就是模型的訓練 API 范式 , 讓所有模型訓練共享 。
Tinker 已經獲得了學術界和工業界的廣泛認可 , 成為了硅谷和美國頂尖高校的訓練新范式 。

Mind Lab 與 MinT
國產后訓練基礎設施的崛起
Tinker 在海外大火的同時 , 國內也涌現出了對標甚至超越的力量 ——Mind Lab 推出的 MinT(Mind Lab Toolkit) 。
Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念 , 致力于讓 AI 系統能夠從真實世界的經驗中不斷成長 。
在他們看來 , 當前大模型最大的問題是:訓練完就 \"凍住\" , 無法從真實交互中持續學習進化 。
MinT , 正是為解決這個問題而生 。
MinT 和 Tinker 是什么關系?可以從兩個層面理解:
兼容性上 , MinT 做到了模型夠大夠全、接口完全一致 —— 與 Tinker API 完全兼容 。 這意味著使用 Tinker 的開發者可以幾乎零成本地遷移到 MinT , 享受國產基礎設施帶來的便利 。
技術領先性上 , MinT 不是簡單的 “國產替代” 。 事實上 , 早在 2025 年 12 月 1 日 , Mind Lab 就比 Thinking Machines 更早實現了 1T LoRA-RL , 是業界在萬億參數模型上進行高效強化學習的第一個成果 。
相關實現方案已經開源 , 并獲得了 Nvidia 官方轉載 。
具體方案詳見 Mind Lab 的技術報告:https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解決了什么問題?
MinT 的核心價值可以用一句話說清:不論模型是1B還是1T , 需要調度多少GPU , 你只管數據和算法 , 基礎設施的復雜工程全交給平臺 。
具體來說:用戶只需在本地 CPU 機器上寫幾行 Python 代碼 , MinT 就會自動把計算任務分發到大規模 GPU 集群執行 。 集群調度、資源管理、容錯恢復 , 這些讓開發者和研究人員頭疼的工程問題 , 統統由 MinT 搞定 。 切換不同的模型 , 只需修改代碼中的一個字符串 。
技術路線上 , MinT 采用 LoRA 技術 , 使多個訓練和推理任務可以共享同一計算資源池 , 從而顯著降低成本 。 LoRA 在選擇最優學習率的情況下 , 訓練進程與全參數微調幾乎完全一致 , 這為大規模高效后訓練奠定了理論基礎 。
目前 , MinT 已支持 Kimi K2 Thinking(萬億參數級別的 MoE 推理模型)、Qwen3-VL 系列視覺語言模型等前沿開源模型 , 并全面兼容 Tinker API 。 值得一提的是 , MinT 還優先支持了 π0 等具身 VLA 模型 , 這也體現出了中國公司在具身智能上的領先優勢 。

為什么需要 1T LoRA-RL?
強化學習被視為讓大模型從 “背題” 走向 “推理” 的關鍵 , 但現實里有三大難題:訓練不穩 , 小模型難以收斂 , 算力成本高 。 LoRA 提供了一條低成本路徑 , 只訓練少量低秩適配器即可顯著提升下游任務表現 , 且在 RL/Agent 訓練上幾乎不損失性能 。
Mind Lab 在 Kimi K2(萬億參數 MoE)上實現了端到端 LoRA 強化學習 , 帶來三點突破:

  • 成本:僅用常規全參 RL 約 10% 的 GPU 資源 , 64 塊 H800 即可完成訓練 。
  • 穩定性:獎勵與任務成功率平穩提升 , 無災難性發散;在 held-out 基準上既提升特定任務 , 又保持基座模型通用能力 。
  • 系統:統一調度張量 / 流水線 / 專家 / 序列并行 , 針對 MoE 路由不均衡與通信壓力做了專項優化 。 相關技術已貢獻至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目 。

為什么選擇 MinT?
MinT 的產品設計圍繞一個核心目標:把后訓練和強化學習的門檻打下來 。
  • 驗證成本上:MinT 允許開發者僅用 CPU 機器進行訓練驗證 , 告別配置 GPU 驅動和 OOM 的煩惱 。 這讓團隊可以在投入大規模 GPU 資源前 , 先低成本驗證算法可行性 。
  • 工程效率上:MinT 將采樣、訓練、回寫與發布無縫串聯 , 減少了工程拼裝成本 。 并行策略、權重管理、optimizer state 管理、滾動訓練、日志與可復現性等 , 都按工程標準打通 。
  • 開發體驗上:MinT 完全兼容 Tinker API , 現有代碼可快速適配 , 切換不同模型只需一行代碼 。 目前已支持 Qwen、Kimi 等先進的開源大模型 。
  • 迭代速度上:采用 LoRA-RL 技術讓模型迭代周期從 “按周” 縮短到 “按天” , 真正服務于快節奏的產品開發需求 。

誰是 MinT 最大的受益者?
【前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份】第一批使用 MinT 的受益者 , 一定是 Agent 領域的創業公司和研究模型的高校頂尖實驗室 。
它們共同的特點是:掌握核心的數據和問題的設定 。 他們并非不了解前沿算法 , 而往往是被算力與訓練框架難住了 。
據 Mind Lab 官網介紹 , 目前 MinT 已經獲得了頂尖高校和多個創業公司的認可 , 應用場景涵蓋基礎研究到垂直行業的廣泛領域 。
在學術機構方面:
  • 清華大學人工智能學院黃高副教授團隊(CVPR best paper 以及 NeruIPS best paper runner up 獲得者)利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究 。

  • 上海交通大學副教授、上海創智學院全時導師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究 。

在行業應用方面:
  • 硅谷創業公司 Eigen AI 合作探索運用 MinT 和 Data Agent 合成數據在 1T 模型上進行 agentic RL 訓練 。

  • 腦機接口公司姬械機利用 MinT 支持了他們的腦機接口 Agent BCI-Love , 可以進行情感交互對話 。

  • 瑞銘醫療利用 MinT 對醫療編碼模型進行了基于 RL 的后訓練 , 顯著提升了醫療編碼的準確率 , 并落地到數十家三甲醫院 。

這些案例展現了 MinT 的通用性 —— 從基礎研究到垂直行業 , 都能用 。
中國團隊引領后訓練浪潮
如何讓模型真正 “理解” 而非只是 “記住” , 是眾多創業團隊與科研工作者共同面對的核心問題 。 強化學習被視為解決這一問題的關鍵路徑 , 但其高門檻、高成本與不穩定性 , 長期限制了它在真實產品和中小團隊中的落地 。
2025 年 , 中國團隊在開源模型上大放異彩 。
2026 年 , 后訓練將是中國 AI 彎道超車的下一個關鍵戰場 。
Mind Lab 選擇了 LoRA-RL 這一技術路徑 , 在超大規模模型上完成了萬億參數級別的探索與驗證 , 再次證明了中國團隊在前沿研究上的工程能力與原創實力 。 MinT 正是 Mind Lab 希望將這些研究成果系統化、工具化的產物 —— 讓后訓練和強化學習不再只屬于少數頭部機構 , 而是成為更多公司與實驗室可以日常使用的能力 。
這正是 Mind Lab 真正布局的方向:讓先進研究轉化為可用工具 , 讓中國團隊在模型后訓練與強化學習這一關鍵技術浪潮中 , 實現自主可控 。
可以訪問以下鏈接了解更多:
  • Mind Lab 官網:https://macaron.im/mindlab
  • 相關文檔:https://mint.macaron.im/doc

    推薦閱讀