和vivo總裁聊了聊，發現我對影像的理解太淺了

2026-05-02 機器人 vivo ai

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

這兩天差評君受 vivo 邀請來到了位于海南的博鰲亞洲論壇年會。
說起來我們還是第一次來參加這種大型的國際對話活動，差友們把排面打在公屏上。

關于博鰲亞洲論壇，給沒聽過的差友介紹一下，這其實是一個國際組織來的，他們每年都會在博鰲這個小鎮舉辦一次年會——亞洲各國的政商大佬們和專家們聚在這里，坐著一起聊經濟、談合作，商量怎么把亞洲發展得更好。
所以每年面對不同的全球性挑戰，以及科技發展趨勢，博鰲亞洲論壇都會有一些新的議題。
那對于我們科技媒體來說，當然還是更加關心年會上的科技議題了。
在這方面， vivo 每年都會在博鰲論壇上給大家帶來創新產品，分享科技戰略，比如去年他們就展示了 MR 頭顯、6G 等領域的新技術，并宣布進軍機器人賽道。

而今年 vivo 又展示了新的戰略規劃，其中讓我印象最深刻的還是 vivo 總裁胡柏山在會上的講話:
AI 想要真正從虛擬世界走進現實，就必須要能夠做到主動感知和理解我們所在的這個世界，而想要建立起這種能看懂物理世界的感知能力，影像是一切的基石。
差評君翻譯下來，就是別管是能打醉拳、翻跟斗的機器人，還是 OpenClaw 引發的養蝦熱潮， AI 跟世界交互才剛剛開始。
“不兒，這真的是因為藍廠在影像上已經建立起優勢，才這么說的嗎？”
帶著這個疑問，差評君在會后的媒體群訪環節跟胡柏山聊了聊，總算是把這話題給聊透了，那咱們今天就順著他的話，嘮嘮 vivo 的“影像 + AI ”大棋。
現場大家問了胡柏山很多問題，但總結下來，最核心的就兩點：

第一，在咱們消費者這里，率先實現 AI 落地的肯定是手機，而手機的未來，是從現在的 Smart Phone（智能手機）變成 Agent Phone（智能體手機）。
雖然現在各種 AI 硬件層出不窮，什么AI眼鏡、AI錄音筆等等，但沒有哪個設備能比手機更加普及，并且離人更近——你想想，手機 24 小時不離身，還能聯動周邊的一系列生態，天生就是做 AI 落地的載體。
當然，目前手機的處理器算力和內存帶寬來說，想要跑大參數的模型還是有瓶頸的，所以
vivo 選擇聚焦端側 AI ，先讓 AI 在手機上流暢地跑起來，用端側 Agent 解決用戶的場景痛點，把體驗值拉升起來。

說到這點，差評君也在現場問了胡柏山對于之前
AI 手機的隱私權限風險怎么看，他的回答也蠻直接了當的，就是用戶的隱私權限和數據應該歸用戶自己來管理，所以手機必須得做好端側 AI ，
關鍵數據都跑在本地，大程度降低在云端泄露的風險。
還有對于手機 AI 如何調用第三方應用能力的問題，他表示還是需要通過像 MCP 這種統一的協議來做，在標準的接口范圍內，把事情做的有邊界。
第二，即便現在 Al 是行業的“流量密碼” ，但是對于 vivo 來說，影像依舊是不變主角。 Al 和影像不是誰替代誰，而是要融合起來，一起驅動智能生態的。

有點迷？那先來聽聽胡柏山透出的猛料，比如：
MR 頭顯的下一代要開始商業化；他們要把感知這條賽道做起來，把視覺和聽覺這些感知能力整合到一起；以及 vivo 已經明確做聚焦室內場景的家用機器人了……等等等等，每一句話都透露了 vivo 接下來的大動作是圍繞“影像 + AI ”的布局來的。
不管是演講還是群訪，藍廠都在反復強調一個邏輯就是：沒有影像， AI 在物理世界里就是“睜眼瞎” 。
怎么理解這句話呢？我給大家拆解一下。
首先，大家應該都知道， AI 其實是沒有感知能力的，它懂語言，但它看不懂我們的世界。

對于大多數 AI 來說，你扔給它的照片本質上只是符號和統計規律，而告訴它這些信息都代表了什么的，在過去是成千上萬的人工標注員，他們通過手工框選貼標簽，告訴 AI 圖片中的水杯、桌子、車輛、寵物貓狗長什么樣。
不過這兩年不一樣了， AI 自動化標注起來了，那些低端、機械化的標注活兒， AI 自己就能搞定，只剩一些復雜的高端標注還需要人來做。行業趨勢也從“靠人力堆數據”變成了“ AI + 精細化人工” 。

于是，現在你扔給 AI 一張圖片，它基本可以給你描述清楚當中都有哪些東西，但是這并不代表它看見的東西，就是你所看見的。
因為它看到的其實是一張貼滿了標簽的二維平面，而不是你所認知的物理空間。
打個比方，你看到一瓶放在桌面上的水，你腦子里會知道它有重量，它要放在桌子上，它是否會滾動，它掉下來會是什么個運動狀態——你之所以會這么想，并不是因為你識別出了這瓶水和桌子，而是因為你是知道這個物理世界是怎么運行的。
但是 AI 不會這樣，它只會知道水瓶和桌子，以及水瓶應該是在桌子的上面而不是下面。

因為如此，去年“ AI 教母”李飛飛提出了空間智能這個概念，用“世界模型”讓 AI 看懂物理世界，理解物體之間的空間關系、物理約束以及運動規律等等。
從目標來說， vivo 跟李飛飛所追求的是一樣的，都是最終實現 AI 對于物理世界的感知——只不過 vivo 打算走一條更符合自身情況的路子，用影像來當 AI 在物理世界的感知器官。
為啥是影像呢？
咱們從數據采集方式來看，錄音只有聲音；傳感器只有距離、亮度等信息，沒有語義。只有影像能夠把前面這兩項給囊括進來，把三維的現實世界，給你變成 AI 能讀懂的結構化信息。

而且過去這么多年手機廠商影像的飛速進步，帶來了海量的技術和場景數據積淀，比如對于光線的計算、前后景分割、人像分割、拍攝視角識別、場景識別等等積累，對于 AI 感知物理世界都有所幫助——
因為之前有研究表明，拍攝角度不同、光線差異、或者是有人從鏡頭前方走過等情況，都會降低 AI 的識別準確度。
就像 vivo X300 Ultra 和 X300s 這回的影像 Agent ，之所以能自動推薦拍攝參數，核心就是手機影像能精準識別拍攝對象、光線條件，再結合 AI 算法，幫我們省去手動調節的麻煩。

另外，我還刷到過有文章說， AI 之所以無法很好地理解物理世界，有一個很大的原因是真實數據不足所造成的訓練缺口。
因為過去傳統的方式是，用實驗室捕捉到的數據來訓練 AI ，這些地方的燈光固定、實驗者會穿特定著裝，跟現實場景相去甚遠。
而商業級和通用的影像訓練資料很多是非標數據，也就是沒有打上力學標簽，會導致 AI 無法準確識別某個動作的力度。
從這點來說，手機影像的優勢在于它更貼近普通人的日常生活，數據基本就是我們每天隨手拍的場景。
比如清晨的陽光、路邊的小吃、家里的寵物等等，你拍越多真實的日常場景喂給 AI， AI 對于我們普通人的生活就理解得越精細，甚至可以在手機上復制一個你的數字生命。
而且由于 AI 是跑在端側的，你也不用擔心云端的隱私泄露問題。

而對于未來影像和 AI 的結合，胡柏山認為影像應該是具備多模態感知能力的智能感官，他原話是這么說的：
“它不僅要識別“這是一只貓” ，更要理解：貓在沙發上跳躍的可能軌跡、下一秒可能打翻水杯的關聯、以及它此刻慵懶的情緒。 ”
在 vivo 看來， AI 的感知能力應該是主動的，可以幫你觀察環境亮度、空間的縱深、甚至人際的距離，如果未來的 AI 想要能和人進行很好的互動，那么前面這些就是必須要具備的。
舉個很實在的例子：未來手機看到你在逛超市，就能推送優惠信息；看到你在開會，就能自動開啟會議
Agent ，幫你做會議紀要。這些場景，沒有影像主動的實時感知， AI 根本無從下手。

聊到這里，咱們總算是把影像和 AI 感知能力之間的聯系給嘮明白了，而在聽完博鰲的分享后，我也是回過味來了——
你們還記得不， 2023 年胡柏山就透露過 vivo 會切入機器人賽道，并且還說：“最適合做機器人的就是手機行業，甚至沒有之一。 ”
現在來看，這些行業巨頭看到的東西，跟我們普通人還是不太一樣，當年胡柏山敢說這話，是因為影像積累的視覺感知能力，正是機器人
“看懂世界”的關鍵，而 vivo 要做的，就是把這種能力，延伸到手機之外的生態產品上。

他們的戰略很清晰，就是以影像 + AI 為核心，構建感知系統，一邊重塑手機，讓手機變成更智能的“隨身助理；一邊布局 MR 頭顯、家庭機器人等生態設備，讓感知能力覆蓋更多場景。
胡柏山在群訪現場劇透，機器人 LAB 現在還在梳理路徑，會聚焦年輕人的生活場景，比如照顧寵物、收納衣物，先從簡單的場景入手，逐步迭代，不追求一步到位。
而且他們很清醒地認為，大模型未來會越來越同質化，真正的差異化在于
場景數據——因為不同品牌聚焦的場景不同，積累的數據就不同，而影像正是獲取這些差異化數據的核心。

就像特斯拉的 FSD 雖然開源部分技術了，但是最核心的代碼和數據并沒有公開，所以其他家也做不到跟特斯拉一樣的體驗，而 vivo 更聚焦場景數據，這也會成為自己的核心競爭力。
在這波AI的大浪潮里，每一家頭部廠商都在為未來布局，但 vivo 沒有盲目地跟風追 AI 熱點，而是選擇了在自己原有的影像長板基礎上，去為 AI 打造感知能力，讓 AI 在未來可以真正走進我們現實的生活中。
我們總說人類是“視覺動物” ，其實我們創造的智能體，未來也會是“視覺動物”——
vivo 接下來想做的，就是好好打磨 AI 的這雙“眼睛” ，用影像來給 AI 落地鋪路架橋。
雖然目前我們還沒看到最終的成果，但藍廠是打算先從手機 - MR 頭顯 - 機器人的發展路徑入手，用“沿途下蛋”的方式，不斷產出階段性的成果，這也讓我們看到了未來更多的可能性。
【和vivo總裁聊了聊，發現我對影像的理解太淺了】

推薦閱讀

上一篇：格羅方德起訴高塔半導體！

下一篇：趨境科技發布ATaaS：全球領先的高效能AI Token生產服務平臺