剛剛，面壁小鋼炮開源進階版「Her」，9B模型居然有了「活人感」

2026-03-16 人工智能清華大學 ai ChatGPT

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

機器之心編輯部
你有沒有想過一個問題：為什么和 AI 對話，總覺得少了點「人味兒」。
不是它回答得不夠準確，也不是它理解不了你的意思，而是每次交互都很機械。
你問一句，等它答完，然后突然畫面一轉，對不起，它對現實世界的觀察仿佛瞬間「掉線」。那幾秒里， AI 仿佛順手關掉了眼睛和耳朵，陷入一種「間歇性失明失聰」的狀態，根本不能根據眼前瞬息萬變的畫面實時調整自己的反應。
這種感覺，就像兩個人在用對講機聊天。你按住通話鍵說話時，對方聽不見；對方說話時，你也插不上嘴。一次只能一個方向傳遞信息。
這不是產品設計問題，而是技術限制。因為絕大多數 AI 都在用單工模式運行，用起來感覺很死板。
2 月 4 日，面壁開源了行業首個全雙工全模態大模型 MiniCPM-o 4.5 ，相比已有多模態模型， MiniCPM-o 4.5 首次實現了「邊看邊聽邊說」以及「自主交互」的全模態能力，模型不再只是把視覺、語音作為靜態輸入處理，而是能夠在實時、多模態信息流中持續感知環境變化，并在輸出的同時保持對外界的理解。
目前， MiniCPM-o 4.5 已在 GitHub、Hugging Face 等平臺開源：

開源地址：https://github.com/OpenBMB/MiniCPM-o
Hugging Face: https://huggingface.co/openbmb/MiniCPM-o-4_5

雖然參數量只有 9B ， MiniCPM-o 4.5 卻在全模態、視覺理解、文檔解析、語音理解和生成、聲音克隆等方面，均做到了全模態模型 SOTA 水平。在涵蓋 8 個主流評測基準的 OpenCompass 綜合評估中得分 77.6。

MiniCPM-o 4.5 在 MMBench（綜合視覺理解）、MathVista（數學推理）及 OmniDocBench（文檔解析）等關鍵任務上擊敗了頂級閉源模型 Gemini 2.5 Flash 。

不僅如此， MiniCPM-o 4.5 在提升能力密度的同時也在追求極致能效比：以更低顯存占用、更快響應速度，在保持 SOTA 級多模態表現下，實現更高推理效率與更低推理成本。

如果說過去的 AI 只是按部就班地執行指令，那么 MiniCPM-o 4.5 則賦予了 AI 一種真正的「本能」—— 它不僅能眼觀六路、耳聽八方地實時感知世界，還能在恰當的時機主動開口、自由接話，實現不受輪次約束的即時交流，真正開啟了人機交互的新時代。
一手實測：這才是進階版「Her」的樣子
話不多說，我們開始上手體驗。
體驗鏈接：https://minicpm-omni.openbmb.cn/
我們先來玩一個「我畫你猜」的小游戲。畫面剛開始，我的筆只勾勒出了兩條長長的兔子耳朵，模型幾乎立刻給出了判斷，問：這是兔子嗎？接著還不忘給補充一句彩虹屁，畫的很不錯，情緒價值直接拉滿。
接著，我的筆鋒一轉，又開始勾勒蝴蝶的輪廓。起初，只是一段看似隨意的線條，模型試探性地問了一句：「這是一片葉子嗎？」語氣里帶著明顯的不確定。隨著筆畫逐漸增多，剛畫完半邊蝴蝶翅膀，模型立刻捕捉到了變化，迅速修正判斷：「這是蝴蝶。」
整個過程像極了一個坐在旁邊陪你畫畫的朋友：先大膽猜、再迅速改口，偶爾還不忘夸你兩句。猜對不重要，重要的是它始終跟著你的筆走，邊看邊想，邊想邊聊。

接下來相同的游戲，我們和 ChatGPT 玩了一把，雖然其回答很流暢，但它并沒有在關鍵線索出現時迅速作出判斷，而是等到畫面幾乎已經完整、圖像特征已經非常明顯之后，才終于給出正確答案。
MiniCPM-o 4.5 的狀態更像在場的同伴：它會邊看邊聽、邊理解邊開口，不必等待用戶拋出問題，而是依據畫面與環境的變化，實時補充、修正甚至主動推進自己的表述。相比之下， ChatGPT 的交互更偏問答機 —— 你不追問，它往往就停在上一輪輸出里，難以在信息流持續變化時保持同步更新。

接下來，測試難度加大。我們設計了一個圍繞微波爐的測試場景。
當我們詢問橘子能不能放進微波爐時， MiniCPM-o 4.5 給出了非常明確的否定 —— 不可以，理由干脆，沒有任何猶豫。
而當我們把問題換成蛋糕，模型立刻給出了肯定的回答，不僅如此，它還順帶補充了一句：「這看起來是一塊巧克力蛋糕。」顯然，它并不是在機械地回答能不能，而是在同步理解眼前的具體對象。
更讓人驚喜的是，交互并沒有止步于這一問一答。當蛋糕被放進微波爐加熱、時間結束后，它提醒我們：「蛋糕已經熱好了。」
這個看似不起眼的細節，其實揭示了一件非常重要的事：模型能夠持續理解環境、跟蹤狀態變化，并在合適的時間主動介入。

這次我們又和 ChatGPT 做了一次對比，整體來看，它在前半段的表現依舊可圈可點，但在計時結束， ChatGPT 陷入了「禮貌的沉默」，并未主動提醒我們取出食物。
這一現象暴露出目前主流模型最核心的短板 —— 缺乏內生的主動交互意識。

在接下來的測試中，我們在白板上構思并繪制了一個卡通形象的草圖。 MiniCPM-o 4.5 能夠實時觀察到繪圖的過程，并準確捕捉到每一個細節的變化。模型不僅能「看」，還能同步進行自然語言點評，并在落筆的同時，即時評論。

最后是一個玩紙牌游戲，要求是讓MiniCPM-o 4.5按順序描述圖片中出現的紙牌，當聽到警報聲時，告訴我游戲結束。
可以看出，隨著人手依次將撲克牌放在鏡頭當中， MiniCPM-o 4.5展現了極其流暢的交互節奏，模型并非單純播報數字，而是使用了諸如「The first card is...」等自然語言，使交互更像是在與真人交談。當背景中突然響起了清脆的鬧鐘鈴聲（Ding!）時， MiniCPM-o 4.5主動提醒警報響起了，游戲結束。

整體看下來，感受頗深的一點是：MiniCPM-o 4.5 很大程度上擺脫了以往的被動式響應，讓我們看到了 AI 與人類「同頻共振」的可能，也讓邊看邊聽邊說不再只是一句空談。
MiniCPM-o 4.5：邁向類人交互
MiniCPM-o 4.5 之所以以 9B 小身板達到「類人感知 + 交互溝通」的能力。這背后藏著面壁對人機交互形態的終極思考。
從偽雙工到真全雙工：重構并行交互能力
人類的交互是天然并行的，我們在說話的同時，從不停止觀察周圍 —— 對方的表情、環境的動靜，這些信息在同一時刻被感知、被響應。這對人來說習以為常，但對大模型而言，卻是一面高墻。
傳統多模態大模型大多是在處理「離線、靜態」的交互狀態。無論是圖像還是視頻，通常都需要用戶先整理、上傳，再基于這些已完成處理的輸入向模型提問；模型一次性生成一大段結果，用戶再進行下一輪反饋。這是一種嚴格的「提交 — 響應」式交互，天然存在時延，也缺乏過程中的動態調整能力。
流式全模態模型的出現開始打破這一限制，包括 GPT-4o、Gemini Live 等已經可以以并行流的方式持續輸入，視覺、語音信號不再是一次性提交，而是實時、連續地進入系統。這是相對于「提交 — 響應」式交互的顯著進步。
但仔細看就會發現，這些流式全模態模型在本質上仍然是單工。輸入與輸出在本質上是阻塞的。模型一旦開始「說話」，就幾乎無法再感知外部環境，等同于「閉上眼睛、捂住耳朵」，喪失了時間維度的感知能力。
MiniCPM-o 4.5 打破的就是這面墻。它構建了一種全雙工、全模態的大模型架構，使輸入與輸出流互不阻塞：模型在生成語音或文本的同時，仍然可以持續感知外界的視頻與音頻流。
技術實現上，團隊采用了三項關鍵設計:

時間對齊與時分復用：將輸入的視頻、音頻流與輸出的文本、語音 Token 在毫秒級時間線上嚴格對齊，通過時分復用機制將并行的全模態流劃分為微小周期性時間片內的順序信息組，使模型能在宏觀串行中處理微觀并行。
循環分塊編碼：將離線模態編碼器轉化為支持流式輸入輸出的在線版本，模型將多模態流切分為微小分塊 (Chunks) 并循環處理，這種高度復用的架構確保模型在輸出的同時依然能持續解碼環境信息。
端到端語音生成：語音解碼器采用文本與語音 Token 交錯建模的方式，通過稠密的隱藏層連接實現端到端生成，而非簡單的 TTS 拼接。這種深度融合使模型能根據實時的視覺與音頻反饋，動態調整語音的語氣與情感，顯著提升了音色的擬人度與表現力，同時也提升了長語音 (如超過 1 分鐘) 生成的穩定性。

如果說全雙工架構給了 AI 一雙「永不閉合」的眼睛和一對「時刻傾聽」的耳朵，那么自主交互機制，則是給了它一顆「懂得察言觀色」的大腦。
自主交互：讓模型擺脫「外掛」
MiniCPM-o 4.5 另一個突破在于全模態的自主交互機制。模型開始在實時信息流中，自行判斷語義是否已經成熟到需要觸發回應的時機，從而決定是否開口、何時開口。
你可能會問：現在不是已經有不少語音或全模態對話模型，可以被打斷了嗎？答案是：表面上看起來是，但本質并不一樣。
這類模型通常依賴外部 VAD（語音活動檢測）模塊來控制交互流程：監聽用戶是否重新開口，一旦檢測到聲音，就強行中斷當前輸出。這類方案在體驗上確實比「完全插不上嘴」好了一些，但會引入一系列本質性問題。例如 VAD 不理解語義，無法區分說話者，會被拍桌子、環境噪聲等誤觸發，且必須等待固定靜音閾值 (如 1 秒) 才能響應，人為拉長了延遲。
然而更本質的問題是：我們很難想象，一個真正面向 AGI 的模型，會需要一個「不太聰明的小工具」來告訴它什么時候該說話。說話時機的控制是被外包給外部工具的 —— 這意味著模型本身沒有真正的交互自主性。
MiniCPM-o 4.5 的發布，首次讓模型真正具備了基于語義的自主交互判斷能力：它能夠自行判斷交互是否成熟、何時進入說話狀態，而不再依賴 VAD 等外部工具來裁決發言時機。取而代之的是一種內生的高頻語義決策機制 —— 語言模型持續感知視頻與音頻輸入，并以約 1Hz 的頻率自主決定是否發言。正是這種高頻語義判斷與全雙工機制的結合，使模型首次具備了主動提醒、主動評論等真正意義上的主動交互能力。其特點可總結為：

語義驅動的決策：模型以高頻（如每秒一次）的狀態，完全基于語義理解來自主判斷是否需要進入「說話狀態」。
去工具化：擺脫外部 VAD ，模型在實時監聽多模態信號的過程中，自行決定繼續傾聽還是產生文本與語音 Token 進行回復。
時機自由度：賦予模型在時間維度上的自由度，使行為時機與行為內容實現一體化。

正是基于這種自主決策機制， MiniCPM-o 4.5 展現出比傳統方式更智能的交互表現：

極低延遲的及時回復：模型可以根據語義進行「預判」，不再需要死等外部工具的硬性靜音信號。在人類話音剛落甚至即將結束時，模型即可啟動推理，實現連貫的實時反饋。
智能抗干擾與內生打斷：及時打斷：打斷行為不再是外部強制掛斷，而是模型根據外部實時信號進行的內生判斷。抗干擾能力（抵抗打斷）：面對環境噪聲或旁人閑聊，模型展現出一定的「抵抗能力」，不會輕易被非目標信號干擾。
內生的主動回復（異步交互）：模型具備了跨越時空限制的回復能力，不僅局限于即時對話，還能根據環境變化或預設任務（如「水滿提醒」、「電梯到達提醒」）在未來的某個時機自主發起交互。

重塑智能終端的「大腦」
當這種「類人感知 + 交互溝通」的實時本能，與僅有 9B 參數量的輕量模型相結合時， MiniCPM-o 4.5 成為了智能終端真正需要的那顆會溝通的大腦。
想象一下：你戴著 AI 眼鏡走在路上，一輛車從側面突然沖出，在你尚未反應之前， AI 已經脫口而出一句「小心」。這種體驗的關鍵不在于「看見」，而在于跟上人的節奏，主動介入交互。
更進一步，當全雙工全模態模型被部署到具身機器人、汽車或 PC 等終端時， AI 帶來的不再只是功能增強，而是一種顯著的真人交互感。
從更本質的層面看，流式全模態能力，是多模態走向類人化、走向深度交互的必經之路，而這條路天然指向強端側場景。
原因很直接：一方面，流式模型需要在毫秒級持續感知視覺與音頻輸入，未來甚至會以全天候、伴隨式的方式存在。如果運行在云端，意味著個體生活細節被持續上傳，這在隱私層面難以接受；端側部署則為這種能力提供了現實前提。另一方面，伴隨式交互對低延遲和連續可用性要求極高，只有端側才能在斷網、移動等復雜場景下保持穩定工作。
也正因此，全雙工全模態模型真正拉開了應用空間：在智能監控與提醒中，它能持續感知并主動介入；在人機協作系統中，它能根據環境變化實時調整行為；在無障礙輔助領域，它還能為視障、聽障人群提供即時、多模態的信息支持。
當 AI 真正跟上人的節奏，那些過去「想得到卻用不了」的場景，才開始變得順理成章。
結語
MiniCPM-o 4.5 的發布，某種程度上也是面壁智能技術實力的一次集中展示。回顧面壁的技術路線，我們會發現一個清晰的脈絡：他們始終圍繞高能力密度這一核心目標。
在 Scaling Law 邊際效益逐漸遞減的當下，行業本就迫切需要新的技術指引。面壁提出的 Densing Law ，正在重塑這一競爭邏輯，不再比誰的模型更大，而是比誰能在更小的參數規模下，榨出更高的能力密度。
這種技術布局的前瞻性，往往容易被市場低估。在大模型敘事中，市場的注意力天然傾向于那些參數量動輒千億、萬億的模型。相比之下，高能力密度是一種更工程化的追求。它的價值，往往只有在端側部署、實時交互、連續感知等真實場景中，才會被充分放大。
也正是這樣，由清華大學人工智能學院助理教授、面壁智能多模態首席科學家姚遠主導完成的 MiniCPM-o 4.5 全雙工全模態模型才顯得格外關鍵。全雙工全模態模型的出現，或許正是我們正在經歷的下一次范式轉換的起點。
當 AI 不再需要在說和聽之間切換，當它可以像真人一樣保持持續的感知和適時的回應，我們與 AI 的關系也將從使用工具轉變為協同工作乃至情感陪伴。
【剛剛，面壁小鋼炮開源進階版「Her」，9B模型居然有了「活人感」】文中視頻鏈接：https://mp.weixin.qq.com/s/9rdsklv3I8mrFHaSRUGSzw

推薦閱讀

上一篇：佰維存儲創始人孫日欣：AI下沉，存儲的“微縮時代”

下一篇：鄧明揚一作論文改寫生成范式！何愷明也署名了