李飛飛再談世界模型:AGI是營銷術語,空間智能才是AI缺失的能力

李飛飛再談世界模型:AGI是營銷術語,空間智能才是AI缺失的能力

文章圖片

李飛飛再談世界模型:AGI是營銷術語,空間智能才是AI缺失的能力

文章圖片

李飛飛再談世界模型:AGI是營銷術語,空間智能才是AI缺失的能力

文章圖片


李飛飛最近發布的長文《從語言到世界:空間智能是 AI 的下一個前沿》在硅谷引起巨大反響 , 甚至被許多人稱為“空間智能宣言” 。 緊接著 , 她聯合創辦的 World Labs 又發布了全球首個大型世界模型產品 Marble 。 而就在幾天后 , 她接受了 Lenny's Podcast 的播客訪談 , 圍繞著她近期一系列的重要舉措 , 詳細闡述了她對 AI 未來的思考、世界模型的技術路徑 , 以及為什么空間智能將成為人工智能的下一個十年 。


圖丨相關訪談(來源:Youtube)

在這場長達一個多小時的對話中 , 李飛飛回顧了 AI 從寒冬到復興的歷史轉折 , 坦率地談論了創業過程中的焦慮與壓力 , 她還直言不諱地指出 AGI(通用人工智能 , Artificial General Intelligence)“更像是營銷術語而非科學術語” , 強調當前 AI 最大的短板是缺乏空間智能——那種讓人類能夠在三維世界中導航、操控物體、預測物理現象的能力 。 她還解釋了為什么僅靠數據和算力的“苦澀教訓”無法讓機器人真正成熟 , 以及為什么每個人在 AI 時代都不該被邊緣化 。

從 ImageNet 到世界模型

今天 , 幾乎所有人都在談論 AI , 但很少有人記得 , 僅僅在九年前 , 將自己稱為“AI 公司”在商業上幾乎是自殺 。 李飛飛在訪談中回憶道:“2015 年中到 2016 年中 , 一些科技公司甚至避免使用 AI 這個詞 , 因為他們不確定 AI 是否是個貶義詞 。 ”那時的 AI 還深陷“寒冬” , 公眾興趣寥寥 , 研究資金有限 。

而這場寒冬的解凍 , 要追溯到 2012 年的一個技術突破 。 那一年 , 杰弗里·辛頓(Geoffrey Hinton)教授帶領的團隊在 ImageNet 挑戰賽中使用神經網絡算法取得突破性成功 , 這被廣泛認為是現代 AI 或深度學習的誕生時刻 。 而這場革命的基礎 , 正是李飛飛從 2006 年開始構建的 ImageNet 數據集 。

【李飛飛再談世界模型:AGI是營銷術語,空間智能才是AI缺失的能力】
圖丨ImageNet(來源:ImageNet)

2000 年 , 李飛飛在加州理工學院開始攻讀博士學位 , 當時 AI 研究者已經意識到純粹基于規則的編程無法賦予機器真正的認知能力 。 機器學習的概念已經開始興起 , 它讓計算機能夠從數據中學習模式 , 而不是為每一種情況編寫規則 。

但李飛飛很快發現了一個被普遍忽視的瓶頸 。 “我們有各種各樣的數學模型 , 包括神經網絡、貝葉斯網絡等等 , 但這些模型缺乏訓練數據 , ”她在訪談中回憶道 。 這個洞察來自對人類學習方式的觀察 。 人類學習依賴海量的經驗積累 , 進化本身也是一個跨越漫長時間的大數據學習過程 。 而當時的 AI 模型就像營養不良的孩子 , 再精妙的算法也難以施展 。

于是 , 這個觀察促使她和學生們啟動了一個在當時看來“完全瘋狂”的項目:從互聯網上精心收集 1500 萬張圖片 , 創建包含 2.2 萬個概念的分類體系 。

這個大膽的賭注最終得到了回報 。 辛頓團隊的那兩塊游戲顯卡和 1500 萬張標注圖片 , 成為現代 AI 的黃金配方雛形 。

這個“黃金配方”一直延續至今 。 “如果你看 ChatGPT 背后的技術成分 , 它仍然使用這三大要素:互聯網規模的數據(主要是文本)、比 2012 年復雜得多但仍是神經網絡的架構 , 以及大量 GPU 。 ”李飛飛指出 。

然而 , 就在大語言模型席卷全球之際 , 李飛飛卻將目光投向了另一個方向 。 2019 年 , 當 GPT-2 問世時(注:原訪談中李飛飛提及的是“GPT-2 , came out in late 2020” , 但 GPT-2 實際發布于 2019 年 2 月 , GPT-3 發布于 2020 年 6 月 , 此處也可能是指 GPT-3) , 作為斯坦福人本人工智能研究院(Human-Centered AI Institute , HAI)的聯合院長 , 她與自然語言處理領域的同事們展開了深入討論 。 “我們都看到了未來 , ”她回憶道 。 但她也意識到 , 僅有語言是不夠的 。

空間智能:被忽視的認知基礎架構

在李飛飛看來 , 當今 AI 的根本局限在于缺乏空間智能 。 “大語言模型雖然雄辯 , 卻缺乏經驗;博學 , 卻未能落地 , ”她在長文中寫道 , “它們是黑暗中的文字匠人 。 ”

李飛飛舉了一個簡單的例子:“你給最先進的多模態大語言模型(Multimodal LLMs , MLLMs)播放幾個辦公室房間的視頻 , 然后要求它數清楚有多少把不同的椅子 。 這是一個學齡兒童都能做到的事情 , 但 AI 做不到 。 ”更不用說那些需要在腦海中旋轉物體、估計距離、預測基本物理現象的任務 , 在這些方面 , AI 的表現往往不比隨機猜測更好 。

相比之下 , 空間智能滲透在人類活動的方方面面 。 從日常的停車、接球、倒咖啡 , 到古希臘學者埃拉托色尼用影子測量地球周長、沃森和克里克用物理模型發現 DNA 雙螺旋結構 , 這些人類智慧的高光時刻都離不開對空間的理解和操控 。

“我們對世界的看法是整體的 , ”李飛飛強調 , “不僅僅是我們正在看的東西 , 還包括一切事物在空間上如何關聯、它意味著什么以及為什么重要 。 通過想象、推理、創造和互動——而非僅僅描述——來理解這一點 , 正是空間智能的力量 。 ”

在訪談中 , 她進一步闡述了為什么空間智能對 AI 如此關鍵:“想象一個非?;靵y的第一響應現場 , 可能是火災、交通事故或自然災害 。 如果你沉浸在那些場景中 , 思考人們如何組織自己去救人、阻止進一步的災難、撲滅火焰——很多都是關于移動、對物體和世界的即時理解、情境感知 。 語言是其中一部分 , 但在很多情況下 , 語言無法幫你撲滅火焰 。 ”

“人類認知的核心不僅僅是語言” , 李飛飛強調 , “而是對三維空間的理解和操作能力 。 從停車到接鑰匙 , 從設計建筑到發現 DNA 的雙螺旋結構 , 都依賴于空間智能 。 ”

當前的 AI 模型在這方面表現糟糕得令人吃驚 。 最先進的多模態大語言模型(Multimodal LLMs , MLLMs)在估計距離、方向和大小方面的表現 , 往往不比隨機猜測好多少 。 它們無法在腦海中旋轉物體 , 無法導航迷宮 , 無法預測基本的物理現象 。 AI 生成的視頻雖然新奇 , 但往往在幾秒鐘后就失去了連貫性 。

這也正是李飛飛在 2022 年開始系統性地思考世界模型的原因 。 這個概念也是她多年計算機視覺和機器人研究的自然延伸 。 2024 年 , 她在 TED 演講中首次系統闡述了空間智能和世界模型的愿景 , 幾個月后 , 與賈斯汀·約翰遜(Justin Johnson)、克里斯托夫·拉斯納(Christoph Lassner)和本·米爾登霍爾(Ben Mildenhall)共同創立了 World Labs 。


圖丨 World Labs 創始團隊(來源:World Labs)

李飛飛為世界模型定義了三個核心能力:生成性——能夠創造具有幾何和物理一致性的世界;多模態——可以處理圖像、視頻、文本、動作等多種輸入;交互性——能夠基于動作預測下一個世界狀態 。 簡單來說 , 如果大語言模型教會了機器讀寫 , 世界模型將教會它們觀察和建造 。

Marble 的誕生:從研究到產品

大約一兩個月前 , World Labs 團隊第一次看到他們的模型通過簡單的文字和圖像提示 , 生成出可以自由導航的三維世界 。 那一刻的震撼 , 或許類似于當年看到 ImageNet 訓練出第一個真正有效的深度神經網絡 。 經過一年多的艱苦研發 , 全球首個生成式三維世界模型終于誕生 。

這就是 11 月發布的 Marble 。 它與現有的視頻生成工具有本質區別 。 “世界不是被動地觀看視頻經過 , ”李飛飛借用柏拉圖的洞穴寓言來解釋 , “視覺的本質是從二維中理解三維或四維世界 。 ”視頻生成模型輸出的是平面的二維世界 , 而 Marble 輸出的是具有深度空間結構的三維世界——用戶可以在其中自由探索、互動 , 甚至導出特定視角的視頻片段 。


圖丨Marble(來源:World Labs)

產品推出后 , 應用場景的多樣性超出了團隊預期 。 影視制作公司用它大幅加速虛擬制作流程 , “他們說這讓制作時間縮短了 40 倍” , 因為創作者可以在 Marble 生成的三維場景中自由定位攝像機位置并拍攝片段 。 游戲開發者將 Marble 場景導出為網格數據 , 用于 VR 游戲或傳統游戲開發 。

更令人意外的應用來自科學研究領域 。 一個心理學團隊聯系 World Labs , 希望用 Marble 為精神病學研究創建實驗環境 。 “他們需要理解患者的大腦如何對不同特征的沉浸式環境做出反應 , 比如雜亂的或整潔的空間 。 對研究人員來說 , 獲取這類沉浸式場景非常困難 , 創建它們需要太長時間和太多預算 。 Marble 幾乎能即時提供大量實驗環境 。 ”李飛飛說 。

機器人研究者也看到了 Marble 的價值 。 訓練機器人需要在多樣化的合成環境中學習 , 但創建這些訓練數據一直是巨大痛點 。 “你希望機器人能在三維世界中執行動作 , 但訓練數據缺乏三維世界中的動作 , ”李飛飛指出 , “世界模型可以生成那些合成環境 。 否則人類必須為機器人手工構建每一個資產 , 那將花費更長時間 。 ”

甚至還有人詢問能否用 Marble 進行暴露療法 。 “昨晚一個朋友給我打電話 , 談到他的恐高癥 , 問我 Marble 是否可以用于治療 。 ”李飛飛說 。

機器人的未來:為何“苦澀的教訓”還不夠

在訪談中 , 主持人代表投資人本·霍洛維茨(Ben Horowitz)提出了一個問題:為什么 AI 歷史上著名的“苦澀教訓”(bitter lesson)單獨無法解決機器人問題?

“苦澀教訓”源自圖靈獎得主理查德·薩頓(Richard Sutton)的一篇論文 , 核心觀點是:簡單模型加海量數據總是勝過復雜模型加少量數據 。 這個規律在語言模型上得到了完美驗證 , 而李飛飛建立 ImageNet 的初衷也正是相信大數據的力量 。


圖丨Richard Sutton(來源:University of Alberta)

但機器人領域不同 。 “語言模型研究者很幸運 , ”李飛飛坦言 , “他們有完美的設置:訓練數據是文字(最終是 token) , 模型輸出也是文字 。 目標函數和訓練數據完美對齊 。 ”

相比之下 , 機器人面臨的挑戰更復雜 。 首先是數據獲取困難 。 雖然可以使用網絡視頻 , 但“你希望從機器人那里得到的是在三維世界中的動作 , 而訓練數據缺乏這些” 。 研究者不得不尋找不同方法來彌補這個“方釘圓孔”的問題 , 比如遠程操作數據或合成數據 。

其次 , 當前主流方法將數據切分為一維或二維 Token 序列 , 這讓一些原本簡單的空間任務變得極其困難 。 “世界模型將在提供這些信息方面發揮決定性作用 , ”李飛飛說 , “但我們必須謹慎 , 因為我們還處于早期階段 , 苦澀教訓還有待檢驗 。 ”

更關鍵的是 , 機器人是物理系統 , 而不僅僅是算法 。 李飛飛提醒道:“要讓機器人工作 , 我們不僅需要大腦 , 還需要物理身體和應用場景 。 ”她以自動駕駛汽車為例:從 2005 年斯坦福賽車在內華達沙漠跑完 130 英里 , 到今天 Waymo 在舊金山街頭運營 , 經歷了 20 年歷程 。 “而自動駕駛汽車只是在二維表面運行的金屬盒子 , 目標是不碰到任何東西 。 機器人則是在三維世界中運行的三維物體 , 目標恰恰是要接觸東西 。 ”

做這些工作時 , 李飛飛對人類大腦的尊敬與日俱增 。 “我們的大腦只消耗約 20 瓦功率 , 比房間里的任何燈泡都暗 , 卻能做這么多事情 。 說實在的 , 我在 AI 領域工作得越久 , 就越尊重人類 。 ”

AGI 的迷思與 AI 的未來

“世界模型”一直以來也被認為是通往 AGI 的關鍵技術之一 , 然而作為世界模型的支持者和推動者 , 李飛飛對 AGI 何時到來這一問題的態度卻有點出人意料 , 在她看來 , “AGI 更像是一個營銷術語而非科學術語 。 ”

作為科學家 , 她認真對待的是 AI 本身 , 也就是那個自 1940 年代圖靈提出“機器能思考嗎”以來就存在的宏大問題 。 “我進入這個領域是因為受到這個大膽問題的啟發:機器能否像人類一樣思考和行動?對我來說 , 那一直是 AI 的北極星 。 從這個角度看 , 我不知道 AI 和 AGI 有什么區別 。 ”

她指出 , 沒有人真正定義過 AGI 。 “有很多不同的定義 , 從機器的某種超能力 , 一直到機器能否成為社會中經濟上可行的代理人——換句話說 , 能夠謀生 。 這算是 AGI 的定義嗎?”

當被問及當前技術路徑能否達到 AGI 時 , 李飛飛的回答既現實又充滿雄心:“我絕對認為我們需要更多創新 。 更多數據、更多 GPU 和更大的當前模型架構仍有很多工作要做 , 但我也絕對認為我們需要創新更多 。 ”

她列舉了 AI 仍然無法完成的任務:數清視頻中有多少把椅子 , 展現類似牛頓那樣從觀察天體運動中推導出運動定律的創造力 , 或是在師生辦公室談話中展現出的情感認知智能 。 “人類文明史上沒有一個深刻的科學學科在某個時刻說‘我們完成了 , 我們不再創新了’ 。 AI 作為人類文明中最年輕的學科之一 , 我們仍在摸索表面 。 ”

最近 , DeepMind 的首席執行官德米斯·哈薩比斯(Demis Hassabis)提出了一個有趣的 AGI 測試方法:如果給最先進的模型提供截至 20 世紀末的所有信息 , 看它能否得出愛因斯坦的突破性發現 。 “我們離那還很遠 , ”李飛飛說 , “事實上情況更糟 。 即使給 AI 所有數據 , 包括牛頓時代沒有的現代天體儀器數據 , 讓它創造 17 世紀關于物體運動的方程組 , 今天的 AI 根本做不到 。 ”

李飛飛補充說 , 情感智能也是巨大的空白 。 一個學生走進老師辦公室 , 討論動力、熱情和困擾 , 那種對話的深度 , 即便是今天最強大的聊天機器人也無法企及 。

“AI 是人類文明史上最年輕的學科之一 , 我們還在摸索表面 , ”她說 。 沒有任何一個成熟的科學領域會宣稱“我們完成了 , 不需要再創新了” 。 盡管大型語言模型已經取得了驚人的進展 , 李飛飛堅信我們需要更多的創新 , 而不僅僅是更大的數據集、更多的 GPU 和更大規模的現有架構 。

以人為本:技術的終極歸宿

在采訪接近尾聲時 , 李飛飛分享了一個貫穿她整個職業生涯的信念:“你們的領域叫人工智能 , 但它一點也不‘人工’ 。 它由人啟發 , 由人創造 , 最重要的是 , 它影響人 。 ”這是她經常提醒畢業生的話 , 也是她在 2018 年決定離開工業界、回到斯坦福創立 HAI 的原因 。

那一年 , 她在《紐約時報》發表文章 , 呼吁為 AI 發展和應用建立一個以人為本的指導框架 。 HAI 隨后成為全球最大的 AI 研究機構 , 涉及斯坦福七個學院的數百名教師 , 從醫學到教育 , 從可持續發展到人文學科 。


圖丨HAI(來源:Stanford University)

但李飛飛強調 , 她不是烏托邦主義者 。 “AI 會影響工作和人 , 這是無可回避的事實 。 但我相信 , AI 目前和未來會做什么 , 取決于我們 , 取決于人 。 ”她相信技術對人類文明是凈正向的 , 因為創新是人類的本質 。 從數千年前的文字記錄到今天 , 人類不斷創新 , 不斷改進工具 , 從而讓生活更美好 , 讓工作更高效 , 構建文明 。

然而 , 她也清醒地認識到技術的雙刃劍屬性:“如果我們作為社會、作為個體不做正確的事 , 我們也可能搞砸 。 ”她呼吁每個人都應該關心 AI , 因為它會影響你的個人生活、你的社區、整個社會和未來的世代 。 “作為負責任的個體關心這件事 , 是第一步 , 也是最重要的一步 。 ”

在訪談的最后 , 李飛飛回答了一個她在全球各地旅行時最常被問到的問題:如果我是音樂家、中學教師、護士、會計或農民 , 我在 AI 時代還有角色嗎?

她的回答是:“這是 AI 最重要的問題 。 答案是響亮的‘是’ 。 每個人都在 AI 中有角色 。 ”她舉例說 , 如果你是年輕藝術家 , 應該擁抱 AI 作為工具——擁抱 Marble , 讓它幫助你以最獨特的方式講述你的故事 。 如果你是護士 , 她希望你知道 , 她的整個職業生涯中有很大一部分投入到醫療 AI 研究 , 因為醫護人員過度勞累 , AI 可以也應該極大地幫助他們 。

“硅谷往往不善于與普通人心對心地交流” , 她說 , “我們總是拋出‘無限生產力’或‘無限休閑時間’這樣的詞匯 。 但歸根結底 , AI 是關于人的 。 任何技術都不應奪走人的尊嚴 。 人的尊嚴和能動性 , 應該是每一項技術開發、部署和治理的核心 。 ”

參考資料:
1.https://www.youtube.com/watch?v=Ctjiatnd6Xk

運營/排版:何晨龍

    推薦閱讀