面壁智能開源新模型“劍指”具身智能,對話創始團隊

面壁智能開源新模型“劍指”具身智能,對話創始團隊

【面壁智能開源新模型“劍指”具身智能,對話創始團隊】2月4日 , 來自北京的端側AI模型公司面壁智能開源了僅有9B , 但高密度、全模態且擁有“全雙工交互”的新模型 MiniCPM-o 4.5 。 在毗鄰清華大學南校門的面壁智能公司總部 , 圍繞模型研發、端側模型未來的可能性以及面壁智能作為AI初創公司的發展戰略 , 新京報貝殼財經記者采訪了面壁智能CEO李大海、面壁智能首席科學家劉知遠、面壁智能聯合創始人兼COO雷升濤 , 以及該模型的主要研發者 , 面壁智能多模態首席科學家姚遠 。
李大海告訴貝殼財經記者 , 一直秉承“密度法則”(Densing Law , 由劉知遠提出 , 其認為模型的能力密度每100天就可倍增一次) , 不斷將大模型的能力壓縮至極致的面壁智能要做“大模型的光刻機” 。 而經歷范式提升后 , 擁有新能力的MiniCPM模型也有望在具身智能領域“大放異彩” 。
而劉知遠則把目光看向了未來 , 在他看來 , 隨著模型能力的提升 , 端側模型有望陪伴人類成長 , 最終每個人都會有專屬于自己的模型 , 讓電影中的“賈維斯”成為現實 。
清華大學計算機系長聘教授、面壁智能聯合創始人兼首席科學家劉知遠 。 新京報貝殼財經記者羅亦丹/攝
首創原生全雙工技術 , 僅有9B卻有望成為“具身大腦”
相比其他的大模型公司 , 面壁智能團隊在創業初期就選擇了一條非比尋常的道路:做“小而精悍” , 可在本地運行的端側模型 。 這次發布的MiniCPM-o 4.5 , 其參數量為9B(記者注:1B代表10億參數) , 對比DeepSeek-R1的671B , 以及通義千問Qwen3的235B , 可以發現面壁智能的這款新模型僅分別為前兩者的1.34%和3.83% 。
麻雀雖小 , 五臟俱全 。 姚遠介紹 , 該模型的能力覆蓋全模態、視覺理解、文檔解析、語音理解和生成、聲音克隆等方方面面 , 還擁有“邊看、邊聽、主動說”的全雙工與主動交互能力 , 這意味著其自身可以根據環境的動態變化實時反應 , 以最合適的時機、最恰當的內容回復 , 讓大模型對于信息的感知與傳遞不會慢半拍 。
姚遠對貝殼財經記者解釋道 , 傳統的單工模型猶如對講機 , 當模型回答時 , 無法接收外部信息 , “你很難想象一個人在說話的時候耳朵是堵住的 , 聽的時候又不能說話 , 而全雙工模型在語音方面就解決了這一問題 。 ”談到具體表現 , 姚遠稱 , 考慮到模型主動“打斷”用戶有可能會影響交互體驗 , 面壁實際上并沒有展示語音維度的能力 , 但在視覺上 , 全雙工模型可以根據看到的景色變化主動判斷交互的時機 , 輸入輸出的多模態信息流互不阻塞 , 對話的延遲更低 。
“我們在做這個模型時將其視為全模態基礎模型看待 , 我們相信 , 全模態在未來賦能終端上有非常大的潛力 , 無論是汽車、手機還是機器人 。 有了這樣一個能夠全雙工感知環境并回應用戶的模型 , 將可以把我們現在的設備從被動響應變為主動式智能 , 所以這是一個范式提升 , 未來一定能衍生出很多場景 。 ”李大海表示 。
對于MiniCPM-o 4.5的應用前景 , 面壁智能在官方公眾號中這樣寫道:具備類人感知與交互能力、再加上只有 9B 的“小身材” , 意味著像具身機器人、汽車、PC 等不同終端交互模式都將進化 。 以具身機器人為例 , 目前具身廠商是以研發運控、VLA 模型為主 , 但行業一直缺乏“理解、溝通、交互”的能力 , 而像 MiniCPM-o 4.5 則有望補齊具身機器人大腦能力 , 變得更加智能 。
李大海在接受貝殼財經記者采訪時表示 , 在具身智能領域 , 目前本體的發展比大腦更快 , 相信具身智能大腦的突破能夠為行業帶來突飛猛進的進展 。 姚遠也表示 , 多模態大模型“一定是具身智能實現通用性的最大機會” 。
堅持密度法則 , 面壁智能要做“大模型的光刻機”
此外 , 對于面壁智能作為初創公司 , 如何與國內外大廠“差異化競爭”的問題 , 李大海與雷升濤也回應了貝殼財經記者 。
李大海首先提到了面壁智能一直秉承的“密度法則” 。 他表示 , 這一定律引發的推論是每一個領先大模型的“保鮮期”都非常短 , 所以任何大模型公司都需要持續不斷進行研發 , 否則就會被淘汰 。
“面壁智能要做‘大模型的光刻機’ , 在技術層面 , 我們會不斷訓練出更高知識密度的大模型 。 同時 , 我們也會同步構建其他優勢 , 積極商業化 , 目前我們的端側模型在汽車、手機等很多終端設備上運轉 , 交出了還算不錯的答卷 。 ”李大海說 。
雷升濤則補充道 , 當前讓底層的infra(注:基礎設施)模型在端側跑到極致 , 是一件非常難的事情 。 他舉例稱 , “比如車載AI的遺留物品提醒功能 , 我們最開始做出來時是4秒 , 客戶認為4秒鐘‘人就已經走出十來步了’ , 希望我們做到2秒以內 , 而最終我們把這個功能做到了1秒之內 , 這一體驗就非常極致 。 端側模型意味著算力小、內存小 , 有著極致的約束 , 我們把infra這一塊做到極致 , 就能拉長模型領先的時間 。 ”
而對于未來 , AI的發展將走向何方 , 劉知遠認為有兩大“主旋律” 。
在他看來 , 其一是智能能力越來越強 , 智能使用越來越高效 , “在過去五六年的時間里 , 我們見證了模型從海量數據中學習知識、理解用戶意圖、深度思考 , 接下來這一兩年 , 我們將快速見證模型的專業能力越來越強 , 跟世界的交互越來越強 。 當智能體具備了在相關領域進行自主探索、學習成長的能力后 , 下一步的大突破將是多智能體的協同 , 完成任何一個個體都無法完成的工作 , 這也是面壁智能團隊將持續發展的方向 。 ”
另一個方面則是“密度法則” , 劉知遠表示 , 未來大模型將像芯片一樣 , 不斷提高密度 , 極致地降低模型使用成本與模型尺寸 , 這樣就可以將模型放入終端 , 更好地服務用戶 。
“我們可以預見 , 在未來三到五年的時間里 , 會有越來越多的終端具備更強智能 , 當個人的模型也具備了自主學習能力和協同能力時 , 就會形成一個重要的奇點:這個世界上每個人都會有專屬于自己的 , 持續成長的模型 , 成為每個人越來越貼心的、懂你的助手 。 ”劉知遠說 。
記者聯系郵箱:luoyidan@xjbnews.com
新京報首席記者 羅亦丹
編輯 岳彩周
校對 付春愔

    推薦閱讀