獨家專訪劉知遠、姚遠:為什么真正像人的AI,一定要跑在端側?

獨家專訪劉知遠、姚遠:為什么真正像人的AI,一定要跑在端側?

文章圖片

獨家專訪劉知遠、姚遠:為什么真正像人的AI,一定要跑在端側?

文章圖片


2026 年 , 你理想中的 AI 助手是什么樣的?

回想過去 , Siri 的出現曾讓人眼前一亮 。 語音喚醒、簡單問答、調用軟件執行基本操作……這些能力在當時已經足夠驚艷 。

但近兩年 , 隨著大模型能力的飛速發展 , 我們對 AI 助手也有了更高的期待:它不應該只是一個“你說一句、它答一句”的對話機器 , 而應該更接近真人交流的狀態——能夠自由流暢主動對話、可以隨時被打斷、在合適的時機主動提醒 , 甚至做到邊聽、邊看、邊思考、邊回答 。

然而現實是 , 即便是當前最先進的模型 , 在“說話”時依然會“閉上眼睛、捂住耳朵” 。 你可以向它提問 , 但它只能被動回應 , 無法主動察覺環境變化并及時介入 。 這與我們心中那個類人的 AI 助手 , 仍有不小的距離 。

要想達到與人更相似的交互效果 , 模型首先需要具備持續聽和看的能力 。 但這帶來了一個兩難困境:持續處理音視頻流需要巨大的算力 , 云端部署雖能提供充沛算力 , 卻不可避免地引入延遲問題;更關鍵的是 , 當 AI 助手需要時刻感知你的環境時 , 無法回避將音視頻實時上傳云端帶來的隱私風險 。

在這些背景下 , 端側 AI 是一條理想的解決路徑 。 本地運算既能保障響應速度 , 又能從根本上規避數據外泄的風險 , 這在機器人、自動駕駛等需要實時決策的場景的可控性來說尤為重要 。 然而 , 如何在算力有限的端側設備上跑出足夠強的智能 , 始終是行業共同面臨的難題 。

面壁智能是該領域的探索者之一 。 作為一家將“高效”作為第一性原理的大模型公司 , 它專注于提升智能密度 , 即用更小的參數實現更強的性能 。 其 MiniCPM 系列模型以“以小博大”著稱 , 全平臺下載量已突破 1800 萬 , 早在 2024 年就已將 GPT-4o、GPT-4V 級別的核心能力成功部署到手機、汽車等端側設備上 。
【獨家專訪劉知遠、姚遠:為什么真正像人的AI,一定要跑在端側?】

圖丨劉知遠(左)和姚遠(右)(來源:受訪人)

今天 , 面壁智能發布的 MiniCPM-o 4.5 , 是他們在端側全模態交互方向上的最新答卷 。 DeepTech 獨家專訪了清華大學計算機系長聘教授、面壁智能聯合創始人兼首席科學家劉知遠與清華大學人工智能學院助理教授、面壁智能多模態首席科學家姚遠 , 深入探討了新模型的技術突破、背后的技術理念 , 以及他們對下一代智能交互的展望 。

9B 參數 , 如何實現“聽說同步”?

MiniCPM-o 4.5 是面壁智能繼去年發布的 MiniCPM-o 2.6 之后推出的重要升級 。 面壁團隊此次首創了原生全雙工技術 , 采用端到端的全模態架構 , 結合全雙工多模態實時流機制、主動交互機制、可配置語音建模設計 , 讓參數規模僅為 9B 的 MiniCPM-o 4.5 在交互體驗上實現了大幅提升 。


(來源:面壁智能)

所謂“全雙工” , 通俗來說就是模型可以同時看、聽和說 , 對話不需要像傳統模型那樣輪流進行 。 而“全模態” , 則是指模型能夠同時處理視頻、音頻、文本等多種信息輸入 , 并以文本和語音形式輸出回應 。 兩者結合 , 意味著 MiniCPM-o 4.5 能夠在“說話”的同時繼續觀察和傾聽環境變化 , 并根據新的信息實時調整回應策略 。

這和人類的真實對話更加相似 。 我們可以從生活中的場景中來理解這種能力:就像推銷員對顧客講解商品時 , 并不會滔滔不絕地講話 , 而是一邊說話一邊觀察對方的反應 , 并能夠根據實際情況實時插話、調整或互動 。

相比之下 , 傳統多模態大模型只能處理離線靜態數據 , 且在全模態方面往往只能處理文本+單一模態(例如視覺/語音) 。 更關鍵的是 , 當模型開始生成回復時 , 它必須先完成整個回應過程 , 才能重新接收外部信息 。 用面壁智能技術團隊的話來說 , 就像人在說話時捂住眼睛和耳朵 , 是一種“對講機”式的對話 。

這種設計在實際使用中會造成諸多不便 。 比如 , 當你讓 AI 描述眼前的畫面 , 而畫面內容突然發生變化時 , 它無法感知這種變化 , 只能基于幾秒鐘前的舊信息繼續幻覺般的描述 , 甚至可能“胡說八道” 。

再比如 , 在智能駕駛場景中 , 如果 AI 正在播報導航信息 , 卻無法同時感知路況變化 , 可能錯過重要的安全提醒時機 。

MiniCPM-o 4.5 通過全雙工技術架構 , 為這個問題提供了一種新的解決方案 。 該模型將并行處理的視頻流和音頻流切成極小的切片 , 采用脈沖式信息處理方式 。

具體來說 , 模型不再是一口氣吞下整個視頻或音頻文件 , 而是將多模態信息實時交替地輸入到語言模型主干中 , 在信息建模方面實現毫秒級時間線上同步所有輸入和輸出流 。

它更像是在探索一種伴隨態 AI , 而不只是聊天機器人 。 伴隨態的優勢是 , 不持續提問也會收到持續反饋以及行為隨環境變化而調整 , 讓模型可以做到即時自由的對話 , 而非只是一問一答的機械交互 。

例如 , 現在只需一句指令 , 就能讓模型對白板畫畫進行實時描述 。

這種持續感知和主動提醒的能力有望在一些場景中 , 為用戶帶來全新體驗 , 例如在車機/移動場景 , 幫助司機減少頻繁左顧右盼尋找停車位或店鋪 。

此前 , 面壁智能的 MiniCPM-V 系列曾展示這樣一個案例:在車載記錄儀上 , 告訴用戶剛才路過了幾家怎么樣的店鋪 , 但它還是一種概念的驗證 , 更像是一種“事后總結”;而本次發布的模型 MiniCPM-o 4.5 則實現了對當下狀態即時提醒和實用價值 。

在車機智能座艙場景 , 你只要告訴模型“幫我找停車位”或“看到咖啡店告訴我” , 模型可根據實際情況即時反饋和提醒 , 這樣司機可減少左顧右盼找停車位或店鋪的精力 , 進而更專注地開車 。

值得注意的是 , 市面上已有一些模型具備類似的實時對話或可打斷的能力 , 但它們中的大多數需要依靠 VAD(語音活動檢測 , Voice Activity Detection)等外部工具來實現 。

VAD 的作用是檢測環境中是否有人在說話 , 一旦檢測到語音信號 , 系統就會強行中斷模型的輸出 , 然后重新開始一輪“聽→處理→說”的流程 。

姚遠對 DeepTech 解釋道:“當前通行的模型被打斷停下來的機制 , 可以理解為并不是它‘感知’到的 , 其實是 VAD 聽到后告訴它‘你別說了’ 。 ”

換句話說 , VAD 只能檢測到有聲音 , 但無法理解聲音的內容和意圖 。 比如你正在和 AI 對話 , 旁邊有人咳嗽一聲 , 或者電視里傳來人聲 , 系統就可能誤判為用戶在說話 , 導致 AI 莫名其妙地停下來;又比如 , 你只是“嗯”了一聲表示自己在聽 , 系統也可能把這當成打斷信號 。

而且 VAD 的判斷存在滯后 , 它無法從語義上判斷用戶是否真正說完了 , 只能機械地依賴聲音信號:在檢測到人聲停止后 , 還需等待一段時間確認沒有后續語音 , 才會判定說話結束 。 這種“硬等”的機制導致系統響應總是慢半拍 , 造成不流暢的用戶體驗 。

與之不同 , MiniCPM-o 4.5 的感知和判斷能力是模型內生的 。 在持續接收視覺和聽覺信息的同時 , 模型會同步不斷進行語義理解與“用戶是否正在說話”“自己是否需要說話”的高頻判斷 。

因此 , 它在保持感知的同時 , 可以根據環境瞬時的變化實時反應 , 以最合適的時機、最恰當的內容回復 , 讓大模型對于信息的感知與傳遞不會慢半拍 。

這個特性可進一步應用在具身智能領域 , 為機器人提供持續感知的大腦底座 。

目前 , 具身智能機器人在控制方面已展現出良好的能力 , 領域內的共識是:多模態大模型是具身智能的核心認知底座之一 , 有望為后者提供對多模態世界的基本理解、知識、規劃能力 。 在未來 , 機器人可能可以對微波爐“叮”的聲音、敲門、水龍頭漏水等事件具有持續的感知力 , 并在更多場景中提供及時響應與主動服務 。

當然 , 這些展示的案例只是展示模型的能力 , 后續還需要產品方面更深入的打磨和調優 , 以保障用戶在使用模型過程中的高度可控 。

劉知遠對 DeepTech 解釋道:“就像《星際穿越》里的機器人塔斯 , 它能主動說話、講笑話 , 但當主角覺得幽默不合時宜 , 一句‘調低幽默值’ , 它就會立刻收斂 。 ”未來 , MiniCPM-o 4.5 或許也能具備類似的可控性 。

除了對話響應能力大幅提升外 , 在基礎能力方面 , MiniCPM-o 4.5 延續了前代產品的亮眼表現 , 在流式全模態能力、視覺能力和語音能力方面保持同尺寸領先水平 。


(來源:資料圖)

語音交互是本次升級的重點之一 。 通過深度挖掘海量互聯網對話數據、專業級語音錄制資源 , 以及端到端模型結構的優化 , MiniCPM-o 4.5 在音色自然度、語調豐富性、語音穩定性等方面顯著提升 。

尤為突出的是 , 它有效解決了長語音合成中常見的錯字率高、效果不穩定等問題——即使生成大于 1 分鐘的長語音 , 依然保持較好的穩定性、一致性與流暢感 。 更值得一提的是 , 該模型支持推理階段的聲音克?。 航鐾ü低程崾敬屎圖該脛擁撓鏌粞?, 即可模擬特定人物的語音風格與表達習慣 。

讓智能真正跑起來的 , 不只是算法

有了模型還不夠 , 為了打通到應用落地的“最后一公里” , 面壁智能本次還透露了將在年中發布的基于 NVIDIA Jetson 系列模組的“松果派”(Pinea Pi)開發板套件 。

其產品定位是 Agent 原生的端側多模態開發板 , 目的是讓開發者用簡單方式快速開發端側智能硬件 , 將端側智能設備的定義權交到用戶和開發者手中 。


(來源:資料圖)

目前 , 開發者想要完成 AI 智能硬件開發 , 需要面對英偉達等芯片公司提供的 C++、CUDA 和 TensorRT 等復雜技術棧 , 開發門檻較高 。 而市面上的開發板大多是芯片公司提供的裸板 , 外設需要開發者自行購買、適配驅動、手動搭建多模態 Pipeline 。

松果派則希望改變這一現狀 。 它被設計為“開箱即用”的完整解決方案 , 預裝了完整的多模態 AI 開發環境 , 包含攝像頭、麥克風等必要外設 , 以及經過優化的驅動程序和中間件 。

從商業模式角度看 , 松果派采用了類似早期香橙派、樹莓派的策略 。 通過標準化、開放的硬件形態教育市場 , 吸引開發者加入生態 。

除了硬件 , 面壁智能還將配套推出了高效推理框架和演示系統 。 未來兩者都將開源 , 為開發者提供完整的開發工具鏈 。

始于非共識的創新:他們沒有繼續押注更大的云端模型 , 而是端側

在劉知遠看來 , 端側 AI 并不是短期押注某個產品的形態 , 而是過去數十年信息革命向智能革命演進過程中 , 必然會出現的一層結構 。 “這并不是因為它更容易做 , ”他說 , “而是真正能承載智能革命的大規模落地 , 一定發生在距離用戶最近的地方 。 ”

劉知遠指出:就像 PC 發展早期一樣 , 當計算能力足夠強大時 , 計算會從大型機向個人設備轉移 。 AI 的發展也將遵循同樣的規律 。

因此 , 他提出“未來計算三分天下”的觀點:超算用于科研探索 , 云計算支撐通用服務 , 而端側計算(端算)將成為體量最大、最貼近人類日常的智能形態 。

屆時 , “超智-云智-端智”可能呈現金字塔式的分布結構 。 從規模 × 頻率 × 場景密度進行判斷 , 劉知遠認為 , 端側的核心價值不是算力 , 而是貼近現實:盡管單個端側設備的智能不一定最強 , 但從體量分配來看 , 端側智能承載的是整個人類社會的日常運轉 , 因而必然會超過超智和云智 。

2022 年底 , OpenAI 正式發布 ChatGPT , 大模型由此進入爆發期 。 隨后 , 領域內開始爭相復現大模型的能力:堆參數、租算力成為扎堆的方向 。

而在此之前 , 劉知遠已做出了另一種選擇 。 早在 2018 年 , 他已明顯察覺到 AI 向“通用”的關鍵轉折點邁進 , 開始從專用系統邁向通用和強大的系統 。 他對大模型發展模式的判斷是:與集成電路、計算機、搜索引擎等技術歷史上的變革類似 , 一旦技術成熟 , 創新的主體一定不再只是高校 , 而是系統性研發——通過科技公司的推動縮短從前沿探索到產業應用的鏈條 。

2020 年底 , 大模型還未火爆 , 劉知遠當時正與唐杰(現清華大學教授)、黃民烈(現清華大學教授)、文繼榮(現中國人民大學高瓴人工智能學院院長)等在智源開發“悟道”大模型 。 直到 2021 年 3 月發布完悟道 1.0 之后 , 劉知遠萌生創業的想法 , 并于 2022 年 8 月聯合創立面壁智能 。

“當時最直接的動力 , 是看到大模型展現出的通用能力:one for all(一個模型覆蓋多任務) , 遠遠超出我們當年在各自細分方向上的經驗 。 那時候 , 我們在學術方向還在研究自然語言處理里的具體任務 , 比如機器翻譯、關系抽取、腦圖估計等等 。 ”劉知遠回憶道 。

與后來行業普遍選擇押注更大的云端模型不同 , 面壁智能從一開始就將重心放在端側 AI 上 。 這在當時 , 是一條明顯的“非共識”路徑 。

而這種路徑在劉知遠看來是正是驅動創新的源泉:99% 的人都認為正確的方向 , 往往已經沒有太大的空間 。 他認為 , 有人做了 A , 不是再 copy 做 A+ 。 “最底層、最可貴的地方在于 , 應與之協同構建出共生共榮的生態 , 這種非共識的創新性正是中國創業公司稀缺之處 。 ”

無論從投資還是產業發展角度 , 繼續在同一條路徑上扎堆、跟風并不是一個明智的做法:是一條必然內卷的路線 , 當下的時代應該多開拓和創新 。

從 2000 年前后的互聯網發展的歷史浪潮中 , 也可以印證這一點:當時百度、搜狐等企業“百花齊放” , 20 多年后的今天 , 放眼全球社會各方面都已浸透互聯網的身影 , 并催生了各種衍生產業 。

2010 年 , 中國的創業風向已經由過去的“Copy to China”轉變到創新商業模式 , 逐漸發展出淘寶、美團、滴滴等一系列企業 。

到 2020 年之后 , 伴隨著大模型與 AI 的這一波浪潮 , 可以看到的是:包括 AI for Science 在內的模式創新 , 正成為驅動整個產業變革、形成新生產力的核心力量 。 “我們正在做的事情只不過是順應了技術的發展浪潮、順應了時代的發展 。 ”劉知遠表示 。

產學研協同的落地邏輯:從技術迭代到 AGI 的長期探索

當然 , 產業化這條路與學術界“少量跑通即可閉環”有本質的不同 。 姚遠指出 , 學術界強調從最前沿探索遙遠的可能性 , 而產業化必須抗住海量數據的檢驗 。 因此 , 如何找到學術界的前沿方向與工程可落地的交集 , 極其考驗工程直覺 。

假如一條主線模型是通向 AGI 必須持續推動的核心 , 他們會從各篇論文里“采蜜”式地挑精華 , 一旦技術本身不夠簡潔、沒有直擊本質 , 反而堆了很多臃腫設計 , 它就會妨礙這條主線長期迭代 。

這一代從面壁模型迭代中也可以看到:從 MiniCPM-1 到 MiniCPM-o 系列 , 每一代都會引入新的教師模型 。 團隊不僅讓模型的基礎能力保持優異 , 更在不斷拓展其能力邊界 。 沿途積累的所有關鍵技術技巧與優化策略 , 都被持續集成并兼容到最新的代碼庫中 。 姚遠表示:“目前的 o 4.5 版本已全面兼容之前所有版本的技術 , 這說明它們彼此之間具備高度的可疊加性 。 ”

劉知遠指出 , 如果將 AGI 看成是一張拼圖 , 最關鍵的一塊未必是高等數學 , 也未必是專業能力 , 而是具備很強的人類智商水平 。 因此從這個角度來看 , 全模態的全雙工是可能很慢但值得努力的方向 , 也是通往未來 AGI 的關鍵拼圖之一 。 “既然大家都還沒做出來 , 那么讓端側、全雙工在真實系統里跑起來就是我們的機會 。 ”

他認為 , 從整個人類的未來長遠發展來看 , AI 扮演的角色是:替代人類花費大量機械、重復的腦力勞動去完成的事情 , 而人類則花更多精力去做頂層規劃、做創新、去思考更有意思的事情 。 “Agent 在中文里有一個傳神的名稱叫代理 , AI 更重要使命是陪伴人類完成自身共同進步的工作 , 這也是對促進新質生產力發展來說長遠和重要的標志 。 ”

他們并不擔心 AI 走得太快 , 而是認為過去 100 多年 , 人類整體的科學與創新其實在減速 , 就好像是《三體》中智子將科技鎖死了 。

“我們已經很久沒有建立關于世界、宇宙的‘新坐標’了 , 盡管人類在很多方面已竭盡全力 , 但很難進到知識的邊界再去拓展版圖 , 它的科學基礎仍然是一兩百年前的東西 。 ”劉知遠指出 , 這背后的邏輯是:人類已無法成為全人類知識的主人 , 未來唯有依靠 AI , 讓我們重新執掌全人類的知識 , 進而實現對世界的全面認知 。

結語

全模態的意義不止是交互 , 很可能是模型增長的新路徑 。 未來 , 它可能會以伴隨態出現在我們生活的方方面面:盲人輔助、智能車機、幫助記錄上課/會議并自動整理、語音提問即時答疑……

新方向讓我們看到了更多的可能性:大模型正在從問答模式向持續參與現實世界轉變 。 但需要看到的是 , 技術目前仍處于早期探索階段 , 我們并不是要將生活的全部全都交給它 , 而是通過風險把控和配套人工輔助核驗等機制 , 共同解鎖 AI 的能力邊界 。

當 AI 具備類人的感知交互 , 人與智能的邊界正在被重新定義 。

運營/排版:何晨龍

    推薦閱讀