和vivo總裁聊了聊,發現我對影像的理解太淺了

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片

和vivo總裁聊了聊,發現我對影像的理解太淺了

文章圖片



這兩天差評君受 vivo 邀請來到了位于海南的博鰲亞洲論壇年會 。
說起來我們還是第一次來參加這種大型的國際對話活動 , 差友們把排面打在公屏上 。

關于博鰲亞洲論壇 , 給沒聽過的差友介紹一下 , 這其實是一個國際組織來的 , 他們每年都會在博鰲這個小鎮舉辦一次年會——亞洲各國的政商大佬們和專家們聚在這里 , 坐著一起聊經濟、談合作 , 商量怎么把亞洲發展得更好 。
所以每年面對不同的全球性挑戰 , 以及科技發展趨勢 , 博鰲亞洲論壇都會有一些新的議題 。
那對于我們科技媒體來說 , 當然還是更加關心年會上的科技議題了 。
在這方面 , vivo 每年都會在博鰲論壇上給大家帶來創新產品 , 分享科技戰略 , 比如去年他們就展示了 MR 頭顯、6G 等領域的新技術 , 并宣布進軍機器人賽道 。

而今年 vivo 又展示了新的戰略規劃 , 其中讓我印象最深刻的還是 vivo 總裁胡柏山在會上的講話:
AI 想要真正從虛擬世界走進現實 , 就必須要能夠做到主動感知和理解我們所在的這個世界 , 而想要建立起這種能看懂物理世界的感知能力 , 影像是一切的基石 。
差評君翻譯下來 , 就是別管是能打醉拳、翻跟斗的機器人 , 還是 OpenClaw 引發的養蝦熱潮 , AI 跟世界交互才剛剛開始 。
“不兒 , 這真的是因為藍廠在影像上已經建立起優勢 , 才這么說的嗎?”
帶著這個疑問 , 差評君在會后的媒體群訪環節跟胡柏山聊了聊 , 總算是把這話題給聊透了 , 那咱們今天就順著他的話 , 嘮嘮 vivo 的“影像 + AI ”大棋 。
現場大家問了胡柏山很多問題 , 但總結下來 , 最核心的就兩點:

第一 , 在咱們消費者這里 , 率先實現 AI 落地的肯定是手機 , 而手機的未來 , 是從現在的 Smart Phone(智能手機)變成 Agent Phone(智能體手機) 。
雖然現在各種 AI 硬件層出不窮 , 什么AI眼鏡、AI錄音筆等等 , 但沒有哪個設備能比手機更加普及 , 并且離人更近——你想想 , 手機 24 小時不離身 , 還能聯動周邊的一系列生態 , 天生就是做 AI 落地的載體 。
當然 , 目前手機的處理器算力和內存帶寬來說 , 想要跑大參數的模型還是有瓶頸的 , 所以
vivo 選擇聚焦端側 AI , 先讓 AI 在手機上流暢地跑起來 , 用端側 Agent 解決用戶的場景痛點 , 把體驗值拉升起來 。

說到這點 , 差評君也在現場問了胡柏山對于之前
AI 手機的隱私權限風險怎么看 , 他的回答也蠻直接了當的 , 就是用戶的隱私權限和數據應該歸用戶自己來管理 , 所以手機必須得做好端側 AI ,
關鍵數據都跑在本地 , 大程度降低在云端泄露的風險 。
還有對于手機 AI 如何調用第三方應用能力的問題 , 他表示還是需要通過像 MCP 這種統一的協議來做 , 在標準的接口范圍內 , 把事情做的有邊界 。
第二 , 即便現在 Al 是行業的“流量密碼” , 但是對于 vivo 來說 , 影像依舊是不變主角 。 Al 和影像不是誰替代誰 , 而是要融合起來 , 一起驅動智能生態的 。

有點迷?那先來聽聽胡柏山透出的猛料 , 比如:
MR 頭顯的下一代要開始商業化;他們要把感知這條賽道做起來 , 把視覺和聽覺這些感知能力整合到一起;以及 vivo 已經明確做聚焦室內場景的家用機器人了……等等等等 , 每一句話都透露了 vivo 接下來的大動作是圍繞“影像 + AI ”的布局來的 。
不管是演講還是群訪 , 藍廠都在反復強調一個邏輯就是:沒有影像 , AI 在物理世界里就是“睜眼瞎” 。
怎么理解這句話呢?我給大家拆解一下 。
首先 , 大家應該都知道 , AI 其實是沒有感知能力的 , 它懂語言 , 但它看不懂我們的世界 。

對于大多數 AI 來說 , 你扔給它的照片本質上只是符號和統計規律 , 而告訴它這些信息都代表了什么的 , 在過去是成千上萬的人工標注員 , 他們通過手工框選貼標簽 , 告訴 AI 圖片中的水杯、桌子、車輛、寵物貓狗長什么樣 。
不過這兩年不一樣了 , AI 自動化標注起來了 , 那些低端、機械化的標注活兒 , AI 自己就能搞定 , 只剩一些復雜的高端標注還需要人來做 。 行業趨勢也從“靠人力堆數據”變成了“ AI + 精細化人工” 。

于是 , 現在你扔給 AI 一張圖片 , 它基本可以給你描述清楚當中都有哪些東西 , 但是這并不代表它看見的東西 , 就是你所看見的 。
因為它看到的其實是一張貼滿了標簽的二維平面 , 而不是你所認知的物理空間 。
打個比方 , 你看到一瓶放在桌面上的水 , 你腦子里會知道它有重量 , 它要放在桌子上 , 它是否會滾動 , 它掉下來會是什么個運動狀態——你之所以會這么想 , 并不是因為你識別出了這瓶水和桌子 , 而是因為你是知道這個物理世界是怎么運行的 。
但是 AI 不會這樣 , 它只會知道水瓶和桌子 , 以及水瓶應該是在桌子的上面而不是下面 。

因為如此 , 去年“ AI 教母”李飛飛提出了空間智能這個概念 , 用“世界模型”讓 AI 看懂物理世界 , 理解物體之間的空間關系、物理約束以及運動規律等等 。
從目標來說 , vivo 跟李飛飛所追求的是一樣的 , 都是最終實現 AI 對于物理世界的感知——只不過 vivo 打算走一條更符合自身情況的路子 , 用影像來當 AI 在物理世界的感知器官 。
為啥是影像呢?
咱們從數據采集方式來看 , 錄音只有聲音;傳感器只有距離、亮度等信息 , 沒有語義 。 只有影像能夠把前面這兩項給囊括進來 , 把三維的現實世界 , 給你變成 AI 能讀懂的結構化信息 。

而且過去這么多年手機廠商影像的飛速進步 , 帶來了海量的技術和場景數據積淀 , 比如對于光線的計算、前后景分割、人像分割、拍攝視角識別、場景識別等等積累 , 對于 AI 感知物理世界都有所幫助——
因為之前有研究表明 , 拍攝角度不同、光線差異、或者是有人從鏡頭前方走過等情況 , 都會降低 AI 的識別準確度 。
就像 vivo X300 Ultra 和 X300s 這回的影像 Agent , 之所以能自動推薦拍攝參數 , 核心就是手機影像能精準識別拍攝對象、光線條件 , 再結合 AI 算法 , 幫我們省去手動調節的麻煩 。

另外 , 我還刷到過有文章說 , AI 之所以無法很好地理解物理世界 , 有一個很大的原因是真實數據不足所造成的訓練缺口 。
因為過去傳統的方式是 , 用實驗室捕捉到的數據來訓練 AI , 這些地方的燈光固定、實驗者會穿特定著裝 , 跟現實場景相去甚遠 。
而商業級和通用的影像訓練資料很多是非標數據 , 也就是沒有打上力學標簽 , 會導致 AI 無法準確識別某個動作的力度 。
從這點來說 , 手機影像的優勢在于它更貼近普通人的日常生活 , 數據基本就是我們每天隨手拍的場景 。
比如清晨的陽光、路邊的小吃、家里的寵物等等 , 你拍越多真實的日常場景喂給 AI, AI 對于我們普通人的生活就理解得越精細 , 甚至可以在手機上復制一個你的數字生命 。
而且由于 AI 是跑在端側的 , 你也不用擔心云端的隱私泄露問題 。

而對于未來影像和 AI 的結合 , 胡柏山認為影像應該是具備多模態感知能力的智能感官 , 他原話是這么說的:
“它不僅要識別“這是一只貓” , 更要理解:貓在沙發上跳躍的可能軌跡、下一秒可能打翻水杯的關聯、以及它此刻慵懶的情緒 。 ”
在 vivo 看來 , AI 的感知能力應該是主動的 , 可以幫你觀察環境亮度、空間的縱深、甚至人際的距離 , 如果未來的 AI 想要能和人進行很好的互動 , 那么前面這些就是必須要具備的 。
舉個很實在的例子:未來手機看到你在逛超市 , 就能推送優惠信息;看到你在開會 , 就能自動開啟會議
Agent , 幫你做會議紀要 。 這些場景 , 沒有影像主動的實時感知 , AI 根本無從下手 。

聊到這里 , 咱們總算是把影像和 AI 感知能力之間的聯系給嘮明白了 , 而在聽完博鰲的分享后 , 我也是回過味來了——
你們還記得不 , 2023 年胡柏山就透露過 vivo 會切入機器人賽道 , 并且還說:“最適合做機器人的就是手機行業 , 甚至沒有之一 。 ”
現在來看 , 這些行業巨頭看到的東西 , 跟我們普通人還是不太一樣 , 當年胡柏山敢說這話 , 是因為影像積累的視覺感知能力 , 正是機器人
“看懂世界”的關鍵 , 而 vivo 要做的 , 就是把這種能力 , 延伸到手機之外的生態產品上 。

他們的戰略很清晰 , 就是以影像 + AI 為核心 , 構建感知系統 , 一邊重塑手機 , 讓手機變成更智能的“隨身助理;一邊布局 MR 頭顯、家庭機器人等生態設備 , 讓感知能力覆蓋更多場景 。
胡柏山在群訪現場劇透 , 機器人 LAB 現在還在梳理路徑 , 會聚焦年輕人的生活場景 , 比如照顧寵物、收納衣物 , 先從簡單的場景入手 , 逐步迭代 , 不追求一步到位 。
而且他們很清醒地認為 , 大模型未來會越來越同質化 , 真正的差異化在于
場景數據——因為不同品牌聚焦的場景不同 , 積累的數據就不同 , 而影像正是獲取這些差異化數據的核心 。

就像特斯拉的 FSD 雖然開源部分技術了 , 但是最核心的代碼和數據并沒有公開 , 所以其他家也做不到跟特斯拉一樣的體驗 , 而 vivo 更聚焦場景數據 , 這也會成為自己的核心競爭力 。
在這波AI的大浪潮里 , 每一家頭部廠商都在為未來布局 , 但 vivo 沒有盲目地跟風追 AI 熱點 , 而是選擇了在自己原有的影像長板基礎上 , 去為 AI 打造感知能力 , 讓 AI 在未來可以真正走進我們現實的生活中 。
我們總說人類是“視覺動物” , 其實我們創造的智能體 , 未來也會是“視覺動物”——
vivo 接下來想做的 , 就是好好打磨 AI 的這雙“眼睛” , 用影像來給 AI 落地鋪路架橋 。
雖然目前我們還沒看到最終的成果 , 但藍廠是打算先從手機 - MR 頭顯 - 機器人的發展路徑入手 , 用“沿途下蛋”的方式 , 不斷產出階段性的成果 , 這也讓我們看到了未來更多的可能性 。
【和vivo總裁聊了聊,發現我對影像的理解太淺了】

    推薦閱讀