日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

李飛飛創(chuàng)業(yè)之后首個(gè)專訪:視覺空間智能與語(yǔ)言一樣根本

李飛飛創(chuàng)業(yè)之后首個(gè)專訪:視覺空間智能與語(yǔ)言一樣根本

文章圖片

李飛飛創(chuàng)業(yè)之后首個(gè)專訪:視覺空間智能與語(yǔ)言一樣根本

文章圖片

李飛飛創(chuàng)業(yè)之后首個(gè)專訪:視覺空間智能與語(yǔ)言一樣根本

文章圖片

機(jī)器之心報(bào)道
機(jī)器之心編輯部
不久之前 , 李飛飛教授的空間智能創(chuàng)業(yè)公司 World Labs 以及全明星的創(chuàng)業(yè)陣容正式亮相 。
隨后 , 李飛飛與另一位聯(lián)合創(chuàng)始人 Justin Johnson 接受了 a16z 的專訪 。
在這次訪談播客中 , 李飛飛重點(diǎn)分享了 AI 領(lǐng)域新的研究前沿:空間智能 。 她說(shuō):「視覺空間智能非常根本 , 與語(yǔ)言一樣根本」 。
節(jié)目中 , 她首先介紹了自己的早期貢獻(xiàn) ImageNet 對(duì)計(jì)算機(jī)視覺發(fā)展的影響 。 之后介紹了計(jì)算和數(shù)據(jù)在 AI 發(fā)展中的作用 。
然后 , 她定義了 AI 的終極目標(biāo)以及空間智能在這其中所扮演的重要角色 。 最后 , 她介紹了自己的 World Labs 團(tuán)隊(duì)以及度量空間智能發(fā)展進(jìn)展的方式 。
在本文中 , 機(jī)器之心對(duì)此次專訪的核心內(nèi)容進(jìn)行了整理 。 感興趣的讀者也可以查看下面的完整視頻 。
視頻鏈接:https://mp.weixin.qq.com/s/N5iKQAEHm0V1MQqioQgR5g
主持人:過(guò)去兩年出現(xiàn)了很多消費(fèi)級(jí) AI 公司 。 但您其實(shí)已經(jīng)在這個(gè)領(lǐng)域深耕了幾十年 , 您是一路看著 AI 發(fā)展到如今的并且做出過(guò)非常關(guān)鍵的貢獻(xiàn) 。 現(xiàn)在正是激動(dòng)人心的時(shí)刻 , 對(duì)嗎?
李飛飛:回望過(guò)去 , AI 確實(shí)正處在一個(gè)激動(dòng)人心的時(shí)刻 。 我個(gè)人已經(jīng)在這個(gè)領(lǐng)域 20 多年了 , 而現(xiàn)在我們已經(jīng)走出了最后一個(gè) AI 寒冬 。 我們已經(jīng)見證了現(xiàn)代 AI 的誕生 , 看到了深度學(xué)習(xí)的爆發(fā) , 向我們展示了下棋等可能性 , 但隨后我們開始看到技術(shù)的深化以及產(chǎn)業(yè)界開始采用 AI(如語(yǔ)言模型) 。 我認(rèn)為我們實(shí)際上現(xiàn)在正處于寒武紀(jì)大爆發(fā)過(guò)程中 , 因?yàn)楝F(xiàn)在不只是文本 , 像素、視頻、音頻方面都在出現(xiàn)可能的 AI 應(yīng)用和模型 。 所以這是一個(gè)非常激動(dòng)人心的時(shí)刻 。
主持人:請(qǐng)介紹一下你們自己 。
Johnson:我最早是在研究生階段開始研究 AI 。 我在加州理工大學(xué)讀了數(shù)學(xué)和計(jì)算機(jī)科學(xué) 。 但在快畢業(yè)時(shí) , 有一篇當(dāng)時(shí)非常著名的論文問(wèn)世 , 是當(dāng)時(shí)谷歌大腦的 Quoc V. Le 和吳恩達(dá)等人的論文 。 那是我首次接觸到深度學(xué)習(xí)這個(gè)概念 , 然后它就決定了我未來(lái)十幾年的生活:使用強(qiáng)大的算法 , 輔以大量算力和海量數(shù)據(jù) , 就能得到一些神奇的結(jié)果 。 那是在 2011 或 2012 年 , 當(dāng)時(shí)我就決定這是我以后要做的事情 。 而當(dāng)時(shí)在斯坦福的李飛飛是少數(shù)正在研究 AI 的人 。 那是深度學(xué)習(xí)和計(jì)算機(jī)視覺發(fā)展的一個(gè)特殊時(shí)期 —— 那時(shí)候 , 新興的技術(shù)才剛剛開始有效果并獲得應(yīng)用 , 比如判別式計(jì)算機(jī)視覺開始可以分辨圖像中的內(nèi)容 , 早期的生成式 AI 也開始出現(xiàn)了 。

實(shí)際上 , 在我博士階段那段時(shí)間 , 學(xué)術(shù)界搞清楚了很多現(xiàn)在常用的核心算法 。 每天早上起床看新論文就好像在圣誕節(jié)打開禮物一樣 。 每天都會(huì)有一些驚人的新發(fā)現(xiàn)、驚人的新應(yīng)用或算法 。 而過(guò)去一兩年世界上的所有人都有了這種感覺 , 但對(duì)于我們這些有很長(zhǎng)經(jīng)驗(yàn)的人來(lái)說(shuō) , 這種感覺已經(jīng)持續(xù)了很長(zhǎng)時(shí)間了 。
李飛飛:很明顯 , 我比 Justin 大很多 。 我是從另一個(gè)角度進(jìn)入 AI 的 , 即物理學(xué) , 因?yàn)槲业谋究票尘笆俏锢韺W(xué) 。 物理學(xué)是一門教你大膽思考問(wèn)題 , 探求世界上剩余未知的學(xué)科 。 當(dāng)然 , 物理學(xué)關(guān)注的是原子世界、宇宙之類的 , 但這卻以某種方式讓我進(jìn)入了一個(gè)真正抓住了我的想象力的領(lǐng)域:智能 。 我在加州理工大學(xué)完成了人工智能和計(jì)算神經(jīng)科學(xué)的博士學(xué)位 。 所以 Justin 和我實(shí)際上并沒有重疊 , 但我們的母校都是加州理工大學(xué)并且有同一位導(dǎo)師 。 是的 , 同一位導(dǎo)師 , 你的本科導(dǎo)師和我的博士導(dǎo)師都是 Pietro Perona 。
我在讀博士時(shí) , 是 AI 在公眾眼中還處于冬天的時(shí)候 , 但在我的眼中不是冬天 , 是春季前的冬眠 。 實(shí)際上生機(jī)勃勃 。 機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模的能力切實(shí)地越來(lái)越強(qiáng)大 。 我認(rèn)為我們是機(jī)器學(xué)習(xí)和 AI 世代 , 而現(xiàn)在是深度學(xué)習(xí)世代 。 機(jī)器學(xué)習(xí)是深度學(xué)習(xí)的先驅(qū) 。
在我博士結(jié)束開始助理教授生涯的那段時(shí)間 , 有一個(gè)之前常被人忽視的因素開始生效了 , 那就是數(shù)據(jù) 。 我實(shí)驗(yàn)室的學(xué)生可能比大多數(shù)人更早意識(shí)到了這個(gè)基本點(diǎn):如果讓數(shù)據(jù)驅(qū)動(dòng)模型 , 就可以釋放出前所未見的力量 。 這就是基于 ImageNet 的研究瘋狂發(fā)展的原因 。
那時(shí)候 , 計(jì)算機(jī)視覺和 NLP 社區(qū)都有各自的數(shù)據(jù)集 , 都很小 。 但只要能獲得互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集 , 就必定大有作為 。 幸運(yùn)的是 , 那時(shí)候 , 互聯(lián)網(wǎng)時(shí)代也正在到來(lái) 。 在那股浪潮中 , 我來(lái)到了斯坦福 。
主持人:這就是時(shí)代的轉(zhuǎn)變!圖像處理是一個(gè)時(shí)代 。 Transformer 和 Stable Diffusion 都是不同的時(shí)代 。 這些技術(shù)解鎖了我們的發(fā)展?jié)摿?, 可以這樣說(shuō)嗎?還是說(shuō)有其它東西解鎖了我們的發(fā)展?jié)摿Γ?br /> Johnson:我認(rèn)為真正解鎖發(fā)展?jié)摿Φ淖畲笠蛩厥怯?jì)算 。 盡管人們也常提及這一點(diǎn) , 但我認(rèn)為人們還是低估了它 。 過(guò)去十年中 , 計(jì)算能力的增長(zhǎng)令人震驚 。 第一篇真正被認(rèn)為是深度學(xué)習(xí)計(jì)算機(jī)視覺突破時(shí)刻的論文是 AlexNet , 這是 2012 年的一篇論文 。

其中一個(gè)深度神經(jīng)網(wǎng)絡(luò)在 ImageNet 挑戰(zhàn)中表現(xiàn)非常出色 , 并且超越了飛飛研究的所有其他算法 。 AlexNet 神經(jīng)網(wǎng)絡(luò)有 6000 萬(wàn)參數(shù) , 在 2 臺(tái) GTX580 上訓(xùn)練了 6 天 , 那是當(dāng)時(shí)的頂級(jí)消費(fèi)級(jí)顯卡 , 于 2010 年推出 。 而現(xiàn)在最強(qiáng)大的應(yīng)該是英偉達(dá) GB200 。 猜猜看 GTX580 和 GB200 的計(jì)算能力差多少倍?數(shù)千倍 。 也就是說(shuō) , 如果在單臺(tái) GB200 上訓(xùn)練 AlexNet , 所需時(shí)間不超過(guò) 5 分鐘 。
李飛飛:2012 年 AlexNet 在 ImageNet 上取得的突破彰顯了一個(gè)非常經(jīng)典的模式 。 要知道 , 卷積神經(jīng)網(wǎng)絡(luò)發(fā)表于 1980 年代 。 我記得我在讀研究生時(shí)還學(xué)習(xí)過(guò)它 , 大概有 6、7 層 。 AlexNet 和早期卷積神經(jīng)網(wǎng)絡(luò)的唯一區(qū)別就是有更強(qiáng)大的 GPU 和更多數(shù)據(jù) 。
主持人:是的 , 我相信大家都知道那個(gè)著名的「苦澀的教訓(xùn)」 。 也就是對(duì)于一個(gè)算法 , 不要吝惜計(jì)算 , 要盡可能地使用所有可用的計(jì)算 。 另一個(gè)方面是數(shù)據(jù) , 你們?cè)趺纯?br /> Johnson:是的 , 數(shù)據(jù)很重要 。 在我看來(lái) , 數(shù)據(jù)方面也分為兩個(gè)時(shí)代 。 第一個(gè)時(shí)代是 ImageNet 為代表的監(jiān)督學(xué)習(xí)世代 。 這時(shí)候 , 我們空有大量數(shù)據(jù) , 卻不知道如何使用它們 —— 我們能獲得大量圖像數(shù)據(jù) , 但需要人們?nèi)?biāo)注它們 。 而在新的時(shí)代 , 我們不再需要人類標(biāo)注就能進(jìn)行訓(xùn)練 。
主持人:我沒有 AI 背景 , 但聽起來(lái)你似乎還是要使用人類標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練 , 只是這些標(biāo)注是隱式的 。
李飛飛:從哲學(xué)角度看 , 這是一個(gè)非常重要的問(wèn)題 。 但實(shí)際上這個(gè)說(shuō)法更適用于語(yǔ)言 , 而不是像素 。
主持人:是的 , 所以說(shuō)視頻片段還是有人類標(biāo)注的 。 注意力就是人類已經(jīng)搞清楚了事物之間的關(guān)系 , 然后讓 AI 學(xué)習(xí)它們 。 只是這些標(biāo)注是隱式的 。
Johnson:可以這么說(shuō) 。 但區(qū)別在于 , 在監(jiān)督學(xué)習(xí)時(shí)代 , 學(xué)習(xí)任務(wù)會(huì)受到更多限制 。 因?yàn)楫?dāng)時(shí)對(duì)數(shù)據(jù)的標(biāo)注必須非常準(zhǔn)確 , 飛飛當(dāng)時(shí)就要和她的學(xué)生們花很多時(shí)間去想該把哪些分類放入 ImageNet 挑戰(zhàn)之中 。
主持人:過(guò)去都是預(yù)測(cè)建模 , 大概四年前 , 我們開始進(jìn)入生成式 AI 時(shí)代 。 在我看來(lái) , 它們非常不一樣 。 但你們認(rèn)為這些是連續(xù)發(fā)展的過(guò)程嗎?
李飛飛:這個(gè)問(wèn)題很有趣 。 實(shí)際上在我讀研究生時(shí) , 生成式模型就已經(jīng)存在了 。 我們當(dāng)時(shí)嘗試過(guò)做生成式模型 , 生成字母和數(shù)字之類的 , 但沒人記得了 。 但我們確實(shí)嘗試過(guò) , Geoffrey Hinton 寫過(guò)這方面的論文 。 實(shí)際上 , 如果你從概率分布的角度來(lái)思考 , 那么就可以從數(shù)學(xué)上進(jìn)行生成 。 只是這樣的生成結(jié)果不會(huì)給人留下深刻印象 。 所以生成的概念在數(shù)學(xué)和理論上早已存在 , 但沒有任何作用 。 這里就要說(shuō)到 Justin 的博士生涯了 。 他的博士生涯就反映了這個(gè)領(lǐng)域的故事 。 他的第一個(gè)項(xiàng)目是一個(gè)數(shù)據(jù)項(xiàng)目 , 我強(qiáng)迫他做的 , 他不喜歡 。
Johnson:回想起來(lái) , 我學(xué)到了很多非常有用的東西 。
李飛飛:我很高興你現(xiàn)在這么說(shuō) 。 所以我讓 Justin 轉(zhuǎn)向了深度學(xué)習(xí) , 他研究的是基于圖像生成文本 。
Johnson:實(shí)際上這個(gè)故事分為三個(gè)階段 。 第一個(gè)階段是圖像 - 文本匹配 。 實(shí)際上我博士階段的第一篇論文和第一份學(xué)術(shù)出版物就是關(guān)于使用 Scene Graph 進(jìn)行圖像檢索 。
李飛飛:之后我們開始研究基于像素生成文本 , 但這仍然是一種非常有損的方式 , 無(wú)法將像素世界的信息有效地轉(zhuǎn)移到文本世界 。 而 Justin 在此做了一項(xiàng)非常著名的研究 , 成功地讓這個(gè)過(guò)程做到了實(shí)時(shí)實(shí)現(xiàn) 。
Johnson:2015 年時(shí)有一篇論文 , 是 Leon Gatys 等人提出的一種實(shí)現(xiàn)藝術(shù)風(fēng)格的神經(jīng)算法 。 該算法可以將真實(shí)照片轉(zhuǎn)換成梵高風(fēng)格 。 現(xiàn)在我們已經(jīng)習(xí)慣了這樣的應(yīng)用 , 但在 2015 年 , 這很有開創(chuàng)性 。 那天這篇論文出現(xiàn)在 arXiv 里面 , 讓我腦洞大開 。 我當(dāng)時(shí)想 , 我一定要理解這個(gè)算法 。 我想玩這個(gè)算法 , 我想把我自己的形象制作成梵高風(fēng)格 。 然后我仔細(xì)研讀了這篇論文 , 并在一個(gè)周末里重新實(shí)現(xiàn)了它 , 理解了它的工作方式 。

這實(shí)際上是一個(gè)非常簡(jiǎn)單的算法 , 大概就 300 行 Lua 代碼 。 雖然簡(jiǎn)單 , 但速度很慢 。 這就是一個(gè)優(yōu)化過(guò)程 。 如果想要生成一張圖像 , 就需要運(yùn)行這個(gè)優(yōu)化循環(huán) 。 生成的圖像很漂亮 , 但我想讓這個(gè)過(guò)程更快一點(diǎn) 。 當(dāng)時(shí)我和其他一些人想出了多種不同的方法來(lái)加速這一過(guò)程 。 但我想出的那個(gè)吸引了很多關(guān)注 。
李飛飛:我為 Justin 感到自豪 。 我也為他在博士階段做的最后一個(gè)工作感到自豪 。 那就是生成式 AI 領(lǐng)域方面的研究:基于輸入的語(yǔ)言生成畫面 。 這是最早期的生成式 AI 研究之一 。 那時(shí)候用的模型是生成對(duì)抗網(wǎng)絡(luò)(GAN) 。 這很難用 , 并且使用的語(yǔ)言也不是自然語(yǔ)言 , 而是必須輸入一個(gè) scene graph 語(yǔ)言結(jié)構(gòu) 。 所以可以看到 , 從匹配到風(fēng)格遷移再到生成 , 這是一個(gè)連續(xù)演進(jìn)的過(guò)程;但在外部世界看來(lái) , 這些就像是突然發(fā)生的一樣 。

主持人:現(xiàn)在你們創(chuàng)立的 World Labs 研究的是空間智能 。 你們?yōu)槭裁礇Q定這么做?
李飛飛:我在我的書也寫到了 , 我的整個(gè)學(xué)術(shù)之旅實(shí)際上就是尋找北極星的激情 , 我也相信這些北極星對(duì)我們領(lǐng)域的發(fā)展至關(guān)重要 。 在我研究生畢業(yè)后 , 我的北極星是講述圖像故事 , 這是非常重要的視覺智能 。 而視覺智能是 AI 和 AGI 的重要組成部分 。 所以當(dāng) Andrej 和 Justin 做到這一點(diǎn)時(shí) , 我想的是:天啦 , 那是我的人生夢(mèng)想!我接下來(lái)做什么?它來(lái)得比我預(yù)想的快 , 我以為還要再過(guò) 100 年呢 。

視覺智能是我的熱情所在 。 因?yàn)槲蚁嘈艑?duì)于每個(gè)智能體 , 比如人、機(jī)器人或其他形式)而言 , 知道如何看世界、推理世界、在其中互動(dòng)是非常重要的 —— 無(wú)論是導(dǎo)航、操縱還是制造東西 , 甚至建立文明 。 視覺空間智能非常根本 , 與語(yǔ)言一樣根本 。 所以很自然 , 我們 World Labs 要做的就是解鎖空間智能 , 這就是我們的北極星 。 現(xiàn)在就是做這件事的時(shí)候 。 就像 Justin 說(shuō)的 , 我們現(xiàn)在已經(jīng)有了計(jì)算 , 對(duì)數(shù)據(jù)有了更深度的理解 , 在算法方面也有一些進(jìn)步 。 我們還有 Christoph Lassner 和 Ben Mildenhall 這兩位站在研究前沿的聯(lián)合創(chuàng)始人 。 因此 , 我們正處于正確的時(shí)刻 。
主持人:可以更清晰地描述一下什么是空間智能嗎?
Johnson:空間智能是機(jī)器在三維空間和時(shí)間中以三維方式感知、推理和行動(dòng)的能力 , 這能幫助它理解事物在三維空間和時(shí)間(4D)中的位置 , 事物的交互方式 。 這是將 AI 從大型數(shù)據(jù)中心帶出來(lái) , 放入 3D/4D 世界中 , 使其理解這個(gè)世界的豐富性 。
主持人:你們四位現(xiàn)在出來(lái)創(chuàng)立公司 , 為什么說(shuō)現(xiàn)在是正確的時(shí)刻?
Johnson:過(guò)去十年的重點(diǎn)是理解已經(jīng)存在的數(shù)據(jù) , 但接下來(lái)的十年將是關(guān)于理解新的數(shù)據(jù) 。 我們已經(jīng)有足夠的硬件設(shè)備和傳感器來(lái)幫助我們理解這個(gè)世界 。
在 2014 年 , 我和 Andrej Karpathy 做過(guò)一些早期的語(yǔ)言建模工作 , 比如 LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和 GRU(門控循環(huán)單元) , 那是在 Transformer 之前的時(shí)代 。 但大約在 GPT-2 出現(xiàn)時(shí) , 這類模型已經(jīng)無(wú)法在學(xué)術(shù)界繼續(xù)進(jìn)行研究了 , 因?yàn)樗鼈冃枰乃懔μ嗔?。
不過(guò) , Ben 提出的 Nerf 方法非常有趣 , 因?yàn)槟憧梢栽谝粌蓚€(gè)小時(shí)內(nèi)在單個(gè) GPU 上訓(xùn)練這些模型 。 那時(shí)許多研究者開始關(guān)注這些問(wèn)題 , 因?yàn)楹诵牡乃惴▎?wèn)題還沒有解決 , 并且你實(shí)際上可以在不需要大量計(jì)算資源的情況下取得成果 。 因?yàn)橹恍枰粋€(gè) GPU 就能達(dá)到 SOTA , 所以很多學(xué)術(shù)界的研究者開始轉(zhuǎn)向思考如何在 Nerf 推動(dòng)核心算法的進(jìn)步 。
實(shí)際上 , 我在博士期間與飛飛交流時(shí) , 發(fā)現(xiàn)我們不約而同地達(dá)成了相似的結(jié)論 。
主持人:她非常有說(shuō)服力 。
Johnson:是的(笑) 。 當(dāng)時(shí)我們都在思考如何從導(dǎo)師那里找到自己的獨(dú)立研究方向 , 結(jié)果我們最后找到的是相似的研究路徑 。
李飛飛:對(duì)我來(lái)說(shuō) , 能與最聰明的人討論問(wèn)題 , 我首先想到的就是 Justin 。 這毫無(wú)疑問(wèn)(笑) 。
主持人:語(yǔ)言模型的方法現(xiàn)在很流行 。 這兩者是互補(bǔ)的嗎?還是完全獨(dú)立的?比如大家都知道 OpenAI、GPT 以及多模態(tài)模型 , 那么它們是不是已經(jīng)達(dá)到了我們想要的空間推理能力呢?
Johnson:要回答這個(gè)問(wèn)題 , 我們得稍微解開一下這些系統(tǒng)背后的「黑箱」 。 對(duì)于語(yǔ)言模型和如今的多模態(tài)語(yǔ)言模型 , 它們的底層表示形式是以一維的方式存在的 。
我們談?wù)撋舷挛拈L(zhǎng)度、談?wù)?Transformer 和序列以及注意力機(jī)制 。 它們的基礎(chǔ)是對(duì)世界的一維表示 。 這在處理語(yǔ)言時(shí)是非常自然的 , 因?yàn)闀鴮懙奈谋颈举|(zhì)上是一維的、由離散字符組成的序列 。 這種底層表示形式是促成大型語(yǔ)言模型發(fā)展的原因 。 現(xiàn)在的多模態(tài)語(yǔ)言模型則把其他模態(tài)的數(shù)據(jù)硬塞進(jìn)這個(gè)一維的序列表示中 。
而當(dāng)我們談到空間智能時(shí) , 方向就完全不同了 。 我們認(rèn)為本質(zhì)上 , 三維應(yīng)該成為表示的核心 。 從算法的角度來(lái)看 , 這為我們提供了以不同方式處理數(shù)據(jù)的機(jī)會(huì) , 并從中獲得不同類型的輸出 , 解決不同的問(wèn)題 。 從一個(gè)粗略的層面上看 , 多模態(tài)的大型語(yǔ)言模型(LLMs)也能處理圖像 。 沒錯(cuò) , 它們確實(shí)能做到 。 但我認(rèn)為 , 這些方法并沒有將三維表示作為其核心方法的基礎(chǔ) 。
李飛飛:我完全認(rèn)同 Justin 的觀點(diǎn) 。 1D 和 3D 表征是最核心的區(qū)別之一 。 另一件事有點(diǎn)哲學(xué)意味 , 但至少對(duì)我來(lái)說(shuō) , 語(yǔ)言從根本上來(lái)說(shuō)是一種純粹生成的信號(hào) 。 世界上本沒有語(yǔ)言 —— 天上沒有文字 。 對(duì)于語(yǔ)言 , 無(wú)論你輸入什么數(shù)據(jù) , 都是在同樣的數(shù)據(jù)上進(jìn)行泛化 , 輸出同樣的數(shù)據(jù) 。 這就是語(yǔ)言到語(yǔ)言 。
但在 3D 世界不一樣 , 3D 世界遵循著物理定律 。 由于材料和許多其他原因 , 它自己的結(jié)構(gòu) 。 并且從根本上支持這些信息并能夠表示和生成它 , 這從根本上來(lái)說(shuō)是一個(gè)完全不同的問(wèn)題 。
主持人:所以語(yǔ)言是一維的 , 可能不是物理世界的最佳表示形式 , 它可能損失了很多信息含量 。
另一類生成式 AI 模型是基于像素的 , 它們處理的是 2D 圖像和 2D 視頻 。 你可以說(shuō) , 當(dāng)你看一個(gè)視頻時(shí) , 它看起來(lái)像是三維的 , 因?yàn)槟憧梢云揭葡鄼C(jī)或進(jìn)行其他操作 。 那么 , 空間智能與 2D 視頻有什么不同呢?
Johnson:思考這個(gè)問(wèn)題時(shí) , 需要拆解兩件事 。 第一是底層的表示形式 , 第二是面向用戶的可操作性 。 這里比較容易讓人感到困惑 , 因?yàn)閺母旧现v , 我們看到的世界是二維的 , 對(duì)吧?
就像我們有兩只眼睛 , 我們的視網(wǎng)膜是二維結(jié)構(gòu) 。 因此 , 我們的視覺系統(tǒng)實(shí)際上是在感知二維圖像 。 但問(wèn)題在于 , 根據(jù)你使用的表示形式 , 不同的模型會(huì)提供更自然或不那么自然的操作方式 。 即便最終你看到的可能是一個(gè)二維圖像或視頻 , 背后的表示方式?jīng)Q定了它的可操作性 。
你的大腦將其感知為三維世界的投影 。 比如你想移動(dòng)物體 , 移動(dòng)相機(jī) , 理論上 , 你可以使用純 2D 表示和模型來(lái)實(shí)現(xiàn) , 但它并不適合你要求模型解決的問(wèn)題 。 可以對(duì)動(dòng)態(tài)三維世界進(jìn)行二維投影的建模 , 但如果將三維表示放在模型的核心位置 , 問(wèn)題與表示方式之間會(huì)更加匹配 。 所以我們把賭注押在在底層結(jié)構(gòu)中引入更多的三維表示 , 這將能夠?yàn)橛脩籼峁└玫目刹僮餍?。
李飛飛:完全同意 。 這也回到了我所追尋的北極星 —— 為什么選擇「空間智能」 , 而不是「平面像素智能」?我認(rèn)為智能的進(jìn)化路徑必然像 Justin 所說(shuō)的那樣 , 轉(zhuǎn)向「可操作性」 。
回顧生物進(jìn)化的歷程 , 動(dòng)物和人類 , 這些獲得了智慧的智能生物擁有了在世界中互動(dòng)、創(chuàng)造文明、甚至隨心所欲地完成各種任務(wù)的能力 。 將這些能力轉(zhuǎn)化為原生的三維技術(shù) , 是釋放潛在 AI 應(yīng)用洪流的關(guān)鍵 。 即便有些應(yīng)用場(chǎng)景看似是二維的 , 其核心依然是三維的 。
主持人:這確實(shí)是一個(gè)極其關(guān)鍵的觀點(diǎn) 。 可以通過(guò)一些實(shí)際用例 , 具體談?wù)勀銈冋趧?chuàng)建這個(gè)具備空間智能的模型有什么應(yīng)用場(chǎng)景嗎?
Johnson:這要分幾類講 。 隨著時(shí)間推移 , 模型將逐步具備更多的功能 。 其中最讓我興奮的一項(xiàng)是「世界生成」 。 我們已經(jīng)習(xí)慣了使用文生圖工具 , 最近也看到了不少文生視頻的應(yīng)用 。 但是 , 試想一下 , 如果將其提升到生成完整的三維世界 , 你得到的不再僅僅是一張圖片或一個(gè)短片 , 而是一個(gè)充滿活力且可交互的三維世界 。 無(wú)論是用于游戲 , 還是 VR 等應(yīng)用場(chǎng)景 。
李飛飛:也可以用于教育 。
Johnson:是啊 , 這項(xiàng)技術(shù)一旦實(shí)現(xiàn) , 其應(yīng)用前景將無(wú)窮無(wú)盡 。 這將開啟一種全新的媒體形式 。 我們現(xiàn)在已經(jīng)能夠創(chuàng)建虛擬的互動(dòng)世界 , 但這需要數(shù)億美元和大量開發(fā)時(shí)間 。 這種技術(shù)在經(jīng)濟(jì)上唯一可行的模式就是以每件 70 美元的價(jià)格賣給數(shù)百萬(wàn)玩家 , 以收回投資 。
如果我們能降低創(chuàng)建這些成本 , 更多的應(yīng)用場(chǎng)景將會(huì)不斷涌現(xiàn) 。 試想 , 你可以擁有一個(gè)個(gè)性化的 3D 體驗(yàn) , 其豐富性和細(xì)節(jié)程度絲毫不遜色于一款頂級(jí)的 3A 大作 , 但卻是為一個(gè)非常小眾的需求量身定制的 。 雖然這可能不是我們當(dāng)前產(chǎn)品路線圖上的內(nèi)容 , 但這正是空間智能所能帶來(lái)的一種全新媒體形式的愿景 。
主持人:在生成一個(gè)世界時(shí) , 不僅包括場(chǎng)景生成 , 還需要生成運(yùn)動(dòng)和物理現(xiàn)象 。 那么在技術(shù)發(fā)展到極致時(shí) , 這些功能是否也包括在內(nèi)?
其次 , 如果我與之互動(dòng) , 會(huì)包含語(yǔ)義嗎?比如 , 我打開一本書 , 里面的文字是否有意義?這將是一個(gè)完整的、可以深度體驗(yàn)的世界 , 還是一個(gè)靜態(tài)場(chǎng)景?
Johnson:這項(xiàng)技術(shù)將逐步發(fā)展 , 想要實(shí)現(xiàn)你所描述的這些功能非常困難 。 因此 , 我們會(huì)先從靜態(tài)問(wèn)題入手 , 因?yàn)樗鄬?duì)更容易解決 。 但最終 , 我們的目標(biāo)是實(shí)現(xiàn)完全動(dòng)態(tài)、完全可交互的體驗(yàn) , 涵蓋你提到的所有內(nèi)容 。
李飛飛:這就是空間智能的定義 。 雖然我們會(huì)從更靜態(tài)的東西開始 , 但你提到的所有功能 , 都是我們空間智能發(fā)展路線圖中的內(nèi)容 。
Johnson:這也是我們的公司名「World Labs」的來(lái)源 。 我們的目標(biāo)是構(gòu)建并理解世界 。 這有點(diǎn)像內(nèi)部人才懂的梗 , 我發(fā)現(xiàn)給別人說(shuō)這個(gè)名字時(shí) , 他們總是沒 get 到 。
因?yàn)樵谟?jì)算機(jī)視覺和生成領(lǐng)域 , 我們通常會(huì)對(duì)事物進(jìn)行劃分 。 第一級(jí)通常是物體 , 對(duì)吧?比如一個(gè)麥克風(fēng)、一杯水或者一把椅子 。 這些是世界中的離散物體 。 很多 ImageNet 項(xiàng)目都是識(shí)別這些物體 。
接下來(lái)是場(chǎng)景 , 場(chǎng)景是多個(gè)物體的組合 。 比如 , 現(xiàn)在這個(gè)錄音室里有桌子、麥克風(fēng)、幾個(gè)人、椅子 , 這些都是物體的組合 。
但是我們的目標(biāo)是超越場(chǎng)景的世界 。 場(chǎng)景可能是單個(gè)的 , 但我們想打破邊界 , 走出房間 , 穿過(guò)門 , 走上街頭 , 看到汽車駛過(guò) , 樹葉隨風(fēng)搖擺 , 能夠與萬(wàn)事萬(wàn)物互動(dòng) 。
李飛飛:另一個(gè)令人興奮的點(diǎn)是 Justin 提到的「新媒體」 。 這項(xiàng)技術(shù)將使得現(xiàn)實(shí)世界、虛擬世界、想象中的世界和增強(qiáng)現(xiàn)實(shí)之間的界限變得模糊 。
由于現(xiàn)實(shí)世界是三維的 , 因此在數(shù)字世界中 , 必須使用三維表示才能與現(xiàn)實(shí)世界無(wú)縫融合 。 你無(wú)法通過(guò)二維或一維的方式有效地與三維現(xiàn)實(shí)世界互動(dòng) , 解鎖這種能力將帶來(lái)無(wú)限的應(yīng)用場(chǎng)景 。
主持人:剛才 Justin 提到的第一個(gè)例子可能更像 AR , 對(duì)吧?
【李飛飛創(chuàng)業(yè)之后首個(gè)專訪:視覺空間智能與語(yǔ)言一樣根本】李飛飛:是的 。 就在 World Labs 成立的同時(shí) , 蘋果發(fā)布了 Vision Pro , 并提出了「空間計(jì)算」的概念 , 好像是偷走了我們的想法(笑) 。
但我們做的是「空間智能」 。 空間計(jì)算必然需要空間智能 。 我們還不確定最終的硬件形態(tài)會(huì)是什么 , 可能是護(hù)目鏡、眼鏡甚至隱形眼鏡 。 但在真實(shí)世界和增強(qiáng)現(xiàn)實(shí)之間的那個(gè)界面 , 比如你不是專業(yè)技工 , 但它可以指引如何修車 , 或者它只是為了玩 Pokémon Go , 這最終將成為 AR 和 VR 領(lǐng)域的操作系統(tǒng) 。
Johnson:在技術(shù)發(fā)展到極致時(shí) , AR 設(shè)備將有什么用途?它需要一直運(yùn)行 , 陪伴在你身邊 , 觀察你所看到的世界 。 因此 , 它需要理解你所看到的事物 , 可能還要幫助你完成日常任務(wù) 。
但我也對(duì)虛擬和物理世界的融合感到非常興奮 。 如果你能夠?qū)崟r(shí)、完美地理解周圍的三維環(huán)境 , 那么這實(shí)際上也會(huì)淘汰我們現(xiàn)在很多對(duì)物理世界的依賴 。 比如說(shuō) , 現(xiàn)在我們有手機(jī)、iPad、電腦顯示器、電視 , 甚至還有手表 。 這些屏幕是為了在不同的環(huán)境和位置下向你展示信息 。
但如果你能無(wú)縫地將虛擬內(nèi)容與物理世界融合 , 那么實(shí)際上這些不同尺寸的屏幕可能就不再必要了 。 理想情況下 , 「空間智能」技術(shù)將以最適合當(dāng)下情境的方式 , 將你所需要的信息呈現(xiàn)給你 。
李飛飛:還有一個(gè)巨大的應(yīng)用場(chǎng)景 , 就是幫助 AI 智能體在現(xiàn)實(shí)世界中執(zhí)行任務(wù) 。 比如你不是專業(yè)技工 , 但能通 AR 設(shè)備完成修理汽車這樣的任務(wù) , 那么 AI 智能體同樣也能夠做到 。 比如機(jī)器人 , 它們的交互界面天然就是三維世界 。 它們的大腦是數(shù)字化的 , 要將它們學(xué)習(xí)到的數(shù)據(jù)轉(zhuǎn)化到現(xiàn)實(shí)世界中的執(zhí)行 , 必將依賴于空間智能 。
主持人:對(duì)于任何公司來(lái)說(shuō) , 這些都是非常廣泛的業(yè)務(wù)領(lǐng)域 , 尤其是要同時(shí)涉足每一個(gè)領(lǐng)域 。 那么 , 你如何看待前沿、深度點(diǎn)技術(shù)和這些具體應(yīng)用領(lǐng)域之間的關(guān)系呢?
李飛飛:我們把自己定位為一家深度技術(shù)公司 , 專注于提供可以服務(wù)不同應(yīng)用場(chǎng)景的模型平臺(tái) 。
主持人:在你們提到的這三類應(yīng)用中 , 有沒有哪一類是更適合早期發(fā)展的 , 你們的公司會(huì)優(yōu)先傾向哪個(gè)領(lǐng)域?
李飛飛:現(xiàn)在硬件設(shè)備還沒完全成熟 。
Johnson:我在讀研的時(shí)候就買了我的第一臺(tái) VR 頭顯 , 那是一次改變生活的技術(shù)體驗(yàn) 。 戴上它的那一刻 , 我的反應(yīng)是「天啊 , 這太棒了」 。 我想 。 很多人在第一次使用 VR 時(shí)都會(huì)有類似的感受 。
所以 , 我對(duì)這個(gè)領(lǐng)域已經(jīng)期待了很久 , 我也非常喜歡 Vision Pro 。 Vision Pro 發(fā)布時(shí) , 我熬夜訂購(gòu)了第一批 。 但是現(xiàn)實(shí)情況是 , 作為一個(gè)面向大眾市場(chǎng)的平臺(tái) , 它還沒有準(zhǔn)備好 。
李飛飛:因此 , 作為一家公司 , 我們很可能會(huì)先進(jìn)入一個(gè)更為成熟的市場(chǎng) 。
Johnson:不過(guò)有時(shí)候 , 簡(jiǎn)單也能體現(xiàn)出廣泛的適用性 。 我們相信 , 有些根本性的問(wèn)題如果能夠很好地解決 , 便可以應(yīng)用于許多不同的領(lǐng)域 。 我們將公司的長(zhǎng)期愿景定位為構(gòu)建并實(shí)現(xiàn)「空間智能」的夢(mèng)想 。
主持人:聽起來(lái)你們有很多技術(shù)要開發(fā) 。
Johnson:是的 , 我認(rèn)為這是一個(gè)非常難的問(wèn)題 。 對(duì)于那些不直接從事 AI 領(lǐng)域的人來(lái)說(shuō) , 他們可能會(huì)覺得 AI 是一項(xiàng)不分領(lǐng)域的大型技術(shù) 。 然而 , 對(duì)于那些在這個(gè)領(lǐng)域耕耘已久的人來(lái)說(shuō) , 我們深知要構(gòu)建任何 AI 項(xiàng)目 , 需要多種不同類型的專業(yè)人才 。
而針對(duì)空間智能方面的研究 , 我們需要高質(zhì)量、大規(guī)模的工程能力 , 還需要對(duì)三維世界有深刻的理解 , 另外還要與計(jì)算機(jī)圖形學(xué)領(lǐng)域緊密聯(lián)系 。 因此 , 在組建團(tuán)隊(duì)時(shí) , 我們將考慮如何找到每個(gè)領(lǐng)域中世界頂尖的專家 , 匯聚他們的力量 , 來(lái)共同攻克這一艱難的課題 。
李飛飛:當(dāng)我思考如何為 World Labs 組建最好的創(chuàng)始團(tuán)隊(duì)時(shí) , 我意識(shí)到必須從一群非凡的多學(xué)科創(chuàng)始人開始 。
當(dāng)然 , 這對(duì)我來(lái)說(shuō)是很自然的 。 Justin Johnson 是我最優(yōu)秀的學(xué)生、最聰明的技術(shù)專家之一 。 其他人一直名聲很大 , 其中一人是曾與 Justin 一通合作過(guò)的人 , Ben Mildenhall , 我們談?wù)摿怂?Nerf 方面的開創(chuàng)性工作 。 另一個(gè)人是 Christopher Lassner , 他在計(jì)算機(jī)圖形學(xué)領(lǐng)域很有名 。
此人很有先見之明 , 在 Gaussian splat 出現(xiàn)前五年就開始研究這種方法并用于 3D 建模了 。 當(dāng)我們聽說(shuō)有與 Christopher Lassner 合作的潛在可能性時(shí) , Justin 直接跳了起來(lái) 。

主持人:Ben 與 Christopher 是我們的傳奇 。 當(dāng)然這只是我們團(tuán)隊(duì)的一小部分 。 必須再次強(qiáng)調(diào)一下 , 這里有很多要構(gòu)建和工作的地方 , 不僅僅是在 AI 或圖形方面 , 還有系統(tǒng)等等 。
李飛飛:到目前為止 , 我個(gè)人最自豪的是這支強(qiáng)大的團(tuán)隊(duì) 。 在我的整個(gè)職業(yè)生涯中 , 我有幸與最聰明的年輕人一起工作 。 從斯坦福大學(xué)當(dāng)教授開始 。 不過(guò)我們?cè)?World Labs 聚集的人才更真是驚人 , 我從未見過(guò)這種專注度 。
我認(rèn)為這里最重要的區(qū)別在于 —— 我們相信空間智能 。 所有的多學(xué)科人才 , 無(wú)論是系統(tǒng)工程、機(jī)器學(xué)習(xí)、基礎(chǔ)設(shè)施、生成式模型、數(shù)據(jù)、圖形 , 我們所有人 , 無(wú)論是在探求研究之旅、技術(shù)之旅 , 甚至個(gè)人愛好 , 我們相信空間智能即將發(fā)生 , 并共同努力 。 這就是我們構(gòu)建創(chuàng)始團(tuán)隊(duì)的方式 。 這種專注、動(dòng)力與才華讓我感到謙卑 。 我太喜歡這種感覺了 。
主持人:你說(shuō)過(guò)你就像在被北極星指引著 。 這可能就像 , 你實(shí)際上無(wú)法觸及它們 , 但它指引了方向 。 那么 , 你如何知道什么時(shí)候目標(biāo)完成了?還是說(shuō)這是一件終身的事 , 會(huì)無(wú)限地持續(xù)下去?
李飛飛:這個(gè)世界上存在真正的北極星和概念上的北極星 。 有些目標(biāo)是可以達(dá)到的 。
主持人:比如世界模型里的北極星?
李飛飛:是的 。 你知道在我看來(lái) , 解決了這個(gè)問(wèn)題我們就可以找到方向 。 但我認(rèn)為對(duì)我來(lái)說(shuō) , 當(dāng)很多人、企業(yè)使用我們的模型來(lái)釋放他們對(duì)空間智能的需求時(shí) , 那一刻 , 我們就算達(dá)到了一個(gè)重要的里程碑 。
Johnson:這就是你們工作的影響所在 。 我認(rèn)為這是一件非常具有奠基意義的事情 , 就像宇宙是一個(gè)巨大的四維結(jié)構(gòu) , 空間智能的主要作用就是理解它的所有深度 , 并找出其中的所有應(yīng)用 。 雖然我們今天心中已有一組特定的想法 , 但我認(rèn)為這次旅程會(huì)將我們帶到現(xiàn)在無(wú)法想象的地方 。
李飛飛:技術(shù)的魔力在于不斷打開更多的可能性 。 所以我們會(huì)持續(xù)推進(jìn) , 這些可能性將會(huì)不斷擴(kuò)大 。
參考鏈接:https://x.com/a16z/status/1837234492630569198

    推薦閱讀