前千問大模型技術負責人林俊旸離職后首發長文 并談及千問

前千問大模型技術負責人林俊旸離職后首發長文 并談及千問

快科技3月27日消息 , 3月26日晚間 , 在本月初離職 , 廣受科技圈關注的原阿里千問技術負責人林俊旸在社交賬號發布了一篇名為《From \"Reasoning\" Thinking to \"Agentic\" Thinking》(從“推理式思維”到“智能體思維”)的文章 。
林俊旸在文章中并未透露與其職業規劃相關的話題 , 而是聚焦技術探討 , 詳談自己對大模型發展路線的理解及對AI下一階段的預判 。
林俊旸表示 , 過去兩年重塑了行業對大模型的評估方式與核心期待 。 OpenAI 的 o1 表明 , \"思考\"可以成為一種被訓練出來的能力 。 DeepSeek-R1 緊隨其后 , 證明推理式的后訓練可以在原始實驗室之外被復現、被擴展 。 這一階段至關重要 。
但 2025 年上半年 , 行業焦點主要停留在\"推理式思考\"本身:如何讓模型在推理的時候多想一會兒 。 現在該問下一步了 。 他的判斷是智能體式思考:為了行動而思考 , 在與環境交互的過程中 , 并根據來自世界的反饋持續更新計劃 。
他提到 , 2025 年初 , 千問團隊有一個很大的野心:做一個統一的系統 , 讓思考模式和指令模式合二為一 , 支持可調節的推理努力程度(類似于低/中/高推理設置) , 甚至能根據提示詞和上下文自動推斷合適的推理量 , 讓模型自主決定何時直接回答、何時稍作思考、何時為真正困難的問題投入大量計算 。
林俊旸指出 , 概念上 , 這是正確的方向 。 但\"合并\"說起來容易 , 做好卻極難 。 真正的難點在于數據 。 當人們談論合并思考與指令時 , 往往首先想到模型側的兼容性 , 更深層的問題是 , 兩種模式的數據分布和行為目標存在顯著差異 。
在嘗試平衡模型合并與提升后訓練數據質量和多樣性的過程中 , 團隊并未把所有事情都做對 , 結果往往是在兩個方向上都表現平庸:\"思考\"行為變得嘈雜、冗余或不夠果斷 , 而\"指令\"行為則變得不夠清晰、不夠可靠 , 且比商業用戶實際想要的成本更高 。 分開做在實踐中仍然有吸引力 。
2025 年下半年 , Qwen 的 2507 版本就發了獨立的 Instruct 和 Thinking 版本 , 30B 和 235B 各一套 。 而他的最終思考是 , 真正成功的合并需要一個平滑的推理力度光譜 , 模型能自己判斷該花多少力氣去想 。
“推理鏈更長 , 不等于模型更聰明 。 很多時候 , 推理鏈越長 , 反而說明模型在亂花算力 。 ”林俊旸在文中表示 。 隨即 , 他提到千問團隊意識到 , 行業正在從訓練模型的時代 , 走向訓練智能體的時代 , 它的定義特征是跟真實世界的閉環交互 。
智能體式思考和推理式思考 , 意味著不同的優化目標 , 推理式思考通常以最終答案前的內部思辨質量來評判:模型能否解出定理、寫出證明、生成正確代碼或通過基準測試 。
而智能體思維關注的是:模型能否在與環境交互的過程中持續取得進展 。 這意味著 , 核心問題從“模型能否思考得足夠久?” , 轉變為“模型能不能用一種撐得起有效行動的方式來思考?”模型訓練的核心對象也隨之變了 , 變成了模型加環境的整個系統 。
在這之中 , 模型架構和訓練數據當然還重要 , 但環境設計、rollout 基礎設施、評估器的穩健程度、多個 Agent 之間怎么協調 , 這些都進了核心圈 。 “好的思考”的定義也變了:在真實約束下最能撐起行動的那條軌跡 , 而非最長或最顯眼的那條 。 林俊旸預測 , 智能體式思考會成為主流 。
此前在3月4日凌晨 , 林俊旸在朋友圈發文告別阿里 。 他表示:“我要卸任了 。 再見 , 我親愛的qwen 。 ”
【前千問大模型技術負責人林俊旸離職后首發長文 并談及千問】3月5日 , 阿里巴巴CEO吳泳銘在內部郵件中回應林俊旸離職一事 , 表示公司已決定批準林俊旸同學的辭職 , 感謝林俊旸過去在崗位上的付出 。 同時還表示 , 公司將繼續堅持開源模型策略 , 持續加大AI研發投入和吸納優秀人才力度 。

    推薦閱讀