前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份

2026-01-13 創業人工智能 mint gpu openai

文章圖片

文章圖片

文章圖片

機器之心發布
在大公司一路高歌猛進的 AI 浪潮里，小創業者和高校研究者正變得越來越迷茫。就連前段時間谷歌創始人謝爾蓋?布林回斯坦福，都要回答「大學該何去何從」「從學術到產業的傳統路徑是否依然重要」這類問題。
AI ，真的只是大公司的游戲嗎？被算力掣肘的其他研究者、創業者，機會在哪里？在「強化學習」后訓練引領「下半場」的當下，這個問題變得愈發重要。
好在，國內外都有專業團隊在關心這個問題，比如前 OpenAI CTO Mira 創辦的 Thinking Machines Lab ，前段時間就推出了一個叫「Tinker」的產品，專注于解決后訓練 Infra 的復雜性。
而在國內，一群由 95 后青年科學家組成的團隊做出了足以對標甚至超越 Tinker 的競品，成為世界第一家能夠對標 Thinking Machines Lab 的公司。
這個研究中心叫 Mind Lab ，是 Macaron AI 背后的實驗室。 1 月 1 日，他們發布了亮相以來的第一款產品——Mind Lab Toolkit（MinT）。這是一個用 CPU 的機器就能高效訓練萬億參數模型的后訓練平臺，且成本優化了十倍，一天即可輕松完成一輪訓練。此外，它比 Thinking Machines 更早實現了 1T LoRA-RL ，是業界在萬億參數模型上進行高效強化學習的第一個成果。

如果你是 Agent 領域創業公司或高校頂尖實驗室的成員，并且被算力限制了想象力，那你將是 MinT 的首批受益者。它的應用場景涵蓋基礎研究到垂直行業的廣泛領域，已經在圈內做出了一些成果。
細看一下， Mind Lab 的創始團隊也堪稱豪華。創始人 Andrew 畢業于 MIT ，目前擔任深圳清華大學研究院的研發中心主任，代表工作有和姚順雨合作的 Agent 微調的經典工作之一 FireAct 。
首席科學家馬驍騰博士則畢業于清華大學自動化系，常年深耕強化學習領域。團隊成員來自清華、MIT、CMU等高校，并有OpenAI、DeepMind、Seed 等頂尖實驗室的工作經歷。
團隊累計發表論文超 100 篇，總引用量超 3 萬次。
這樣一個團隊打造的 MinT ，正以極致的工程效率，將 AI 下半場的入場券交還到每一位研究者手中。
預訓練時代結束
AI 下半場開啟
過去幾年，預訓練一直是 AI 領域的主旋律 —— 更大的模型、更多的數據、更長的訓練周期。
如今，這一階段已趨于飽和：開源社區已經擁有萬億參數級別的模型，能夠編寫代碼、總結文檔、通過標準化考試。
但當這些系統被部署到真實產品中，新的瓶頸開始顯現。模型一旦完成訓練，參數就被 ' 凍住 ' 了，不停重復著相同的錯誤，也無法適應不斷變化的用戶需求，實際使用效果只能靠抽卡。
強化學習，正是破局的關鍵。
DeepSeek R1 的發布更是向業界證明，強化學習能夠帶來驚人的泛化性和樣本效率 —— 模型不再只是 “記住” 數據，而是學會了在復雜任務中進行推理。
在 Gemini、DeepSeek V3.2、Kimi K2 等多個前沿模型的技術報告中都反復強調：后訓練仍是一片藍海，強化學習還沒看到天花板。
2026 年的主旋律，是后訓練。
后訓練時代的基礎設施
強化學習這么重要，為什么沒普及？答案是：算法太復雜，訓練太不穩定。
為了解決這個問題，前 OpenAI CTO Mira 創立的 Thinking Machines 發布了 Tinker ，定義了后訓練 API 的新范式，迅速獲得美國學界和硅谷創業公司的熱捧。
在 OpenAI 經歷了 Sam Altman 被解雇又回歸的內部動蕩后， Mira 選擇離開，并迅速組建了一支 “夢之隊”—— 核心成員包括 OpenAI 前研究副總裁 John Schulman、Lilian Weng 等業界頂尖人才。資本市場對這家公司的追捧堪稱瘋狂。 2025 年 7 月， Thinking Machines 完成了硅谷歷史上最大的種子輪融資 ——20 億美元，估值 120 億美元。
他們押注的，正是后訓練賽道。 2025 年 10 月， Thinking Machines 發布了首款產品 Tinker ， 12 月面向所有用戶開放。如果說 OpenAI 定義了大模型的推理 API 范式，那么 Tinker 定義的就是模型的訓練 API 范式，讓所有模型訓練共享。
Tinker 已經獲得了學術界和工業界的廣泛認可，成為了硅谷和美國頂尖高校的訓練新范式。

Mind Lab 與 MinT
國產后訓練基礎設施的崛起
Tinker 在海外大火的同時，國內也涌現出了對標甚至超越的力量 ——Mind Lab 推出的 MinT（Mind Lab Toolkit）。
Mind Lab 秉持 “From Static 'Brains' to Adaptive 'Minds'” 的理念，致力于讓 AI 系統能夠從真實世界的經驗中不斷成長。
在他們看來，當前大模型最大的問題是：訓練完就 \"凍住\" ，無法從真實交互中持續學習進化。
MinT ，正是為解決這個問題而生。
MinT 和 Tinker 是什么關系？可以從兩個層面理解：
兼容性上， MinT 做到了模型夠大夠全、接口完全一致 —— 與 Tinker API 完全兼容。這意味著使用 Tinker 的開發者可以幾乎零成本地遷移到 MinT ，享受國產基礎設施帶來的便利。
技術領先性上， MinT 不是簡單的 “國產替代” 。事實上，早在 2025 年 12 月 1 日， Mind Lab 就比 Thinking Machines 更早實現了 1T LoRA-RL ，是業界在萬億參數模型上進行高效強化學習的第一個成果。
相關實現方案已經開源，并獲得了 Nvidia 官方轉載。
具體方案詳見 Mind Lab 的技術報告：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解決了什么問題？
MinT 的核心價值可以用一句話說清：不論模型是1B還是1T ，需要調度多少GPU ，你只管數據和算法，基礎設施的復雜工程全交給平臺。
具體來說：用戶只需在本地 CPU 機器上寫幾行 Python 代碼， MinT 就會自動把計算任務分發到大規模 GPU 集群執行。集群調度、資源管理、容錯恢復，這些讓開發者和研究人員頭疼的工程問題，統統由 MinT 搞定。切換不同的模型，只需修改代碼中的一個字符串。
技術路線上， MinT 采用 LoRA 技術，使多個訓練和推理任務可以共享同一計算資源池，從而顯著降低成本。 LoRA 在選擇最優學習率的情況下，訓練進程與全參數微調幾乎完全一致，這為大規模高效后訓練奠定了理論基礎。
目前， MinT 已支持 Kimi K2 Thinking（萬億參數級別的 MoE 推理模型）、Qwen3-VL 系列視覺語言模型等前沿開源模型，并全面兼容 Tinker API 。值得一提的是， MinT 還優先支持了 π0 等具身 VLA 模型，這也體現出了中國公司在具身智能上的領先優勢。

為什么需要 1T LoRA-RL？
強化學習被視為讓大模型從 “背題” 走向 “推理” 的關鍵，但現實里有三大難題：訓練不穩，小模型難以收斂，算力成本高。 LoRA 提供了一條低成本路徑，只訓練少量低秩適配器即可顯著提升下游任務表現，且在 RL/Agent 訓練上幾乎不損失性能。
Mind Lab 在 Kimi K2（萬億參數 MoE）上實現了端到端 LoRA 強化學習，帶來三點突破：

成本：僅用常規全參 RL 約 10% 的 GPU 資源， 64 塊 H800 即可完成訓練。
穩定性：獎勵與任務成功率平穩提升，無災難性發散；在 held-out 基準上既提升特定任務，又保持基座模型通用能力。
系統：統一調度張量 / 流水線 / 專家 / 序列并行，針對 MoE 路由不均衡與通信壓力做了專項優化。相關技術已貢獻至 NVIDIA Megatron-Bridge 與火山引擎 verl 等開源項目。

為什么選擇 MinT？
MinT 的產品設計圍繞一個核心目標：把后訓練和強化學習的門檻打下來。

驗證成本上：MinT 允許開發者僅用 CPU 機器進行訓練驗證，告別配置 GPU 驅動和 OOM 的煩惱。這讓團隊可以在投入大規模 GPU 資源前，先低成本驗證算法可行性。
工程效率上：MinT 將采樣、訓練、回寫與發布無縫串聯，減少了工程拼裝成本。并行策略、權重管理、optimizer state 管理、滾動訓練、日志與可復現性等，都按工程標準打通。
開發體驗上：MinT 完全兼容 Tinker API ，現有代碼可快速適配，切換不同模型只需一行代碼。目前已支持 Qwen、Kimi 等先進的開源大模型。
迭代速度上：采用 LoRA-RL 技術讓模型迭代周期從 “按周” 縮短到 “按天” ，真正服務于快節奏的產品開發需求。

誰是 MinT 最大的受益者？
【前OpenAI CTO押注的賽道,被中國團隊搶先跑通,AI下半場人人有份】第一批使用 MinT 的受益者，一定是 Agent 領域的創業公司和研究模型的高校頂尖實驗室。
它們共同的特點是：掌握核心的數據和問題的設定。他們并非不了解前沿算法，而往往是被算力與訓練框架難住了。
據 Mind Lab 官網介紹，目前 MinT 已經獲得了頂尖高校和多個創業公司的認可，應用場景涵蓋基礎研究到垂直行業的廣泛領域。
在學術機構方面：

清華大學人工智能學院黃高副教授團隊（CVPR best paper 以及 NeruIPS best paper runner up 獲得者）利用 MinT 開展了 RL 如何突破 Base model 知識邊界的研究。
上海交通大學副教授、上海創智學院全時導師蔡盼盼的 RoPL 實驗室使用 MinT 在具身決策大模型和決策世界模型方面展開研究。

在行業應用方面：

硅谷創業公司 Eigen AI 合作探索運用 MinT 和 Data Agent 合成數據在 1T 模型上進行 agentic RL 訓練。
腦機接口公司姬械機利用 MinT 支持了他們的腦機接口 Agent BCI-Love ，可以進行情感交互對話。
瑞銘醫療利用 MinT 對醫療編碼模型進行了基于 RL 的后訓練，顯著提升了醫療編碼的準確率，并落地到數十家三甲醫院。

這些案例展現了 MinT 的通用性 —— 從基礎研究到垂直行業，都能用。
中國團隊引領后訓練浪潮
如何讓模型真正 “理解” 而非只是 “記住” ，是眾多創業團隊與科研工作者共同面對的核心問題。強化學習被視為解決這一問題的關鍵路徑，但其高門檻、高成本與不穩定性，長期限制了它在真實產品和中小團隊中的落地。
2025 年，中國團隊在開源模型上大放異彩。
2026 年，后訓練將是中國 AI 彎道超車的下一個關鍵戰場。
Mind Lab 選擇了 LoRA-RL 這一技術路徑，在超大規模模型上完成了萬億參數級別的探索與驗證，再次證明了中國團隊在前沿研究上的工程能力與原創實力。 MinT 正是 Mind Lab 希望將這些研究成果系統化、工具化的產物 —— 讓后訓練和強化學習不再只屬于少數頭部機構，而是成為更多公司與實驗室可以日常使用的能力。
這正是 Mind Lab 真正布局的方向：讓先進研究轉化為可用工具，讓中國團隊在模型后訓練與強化學習這一關鍵技術浪潮中，實現自主可控。
可以訪問以下鏈接了解更多：

Mind Lab 官網：https://macaron.im/mindlab
相關文檔：https://mint.macaron.im/doc

推薦閱讀

上一篇：全球首款雙形態洗地機器人！顆粒進化TR1將登臺CES 2026

下一篇：蘋果 MacBook 新品曝光，終于換了新設計