我們希望AI有多智能?世界模型可能比我們更懂世界

我們希望AI有多智能?世界模型可能比我們更懂世界

近年來 , AI已經學會了寫文本、生成圖像、制作視頻 , 甚至可以生成可運行的計算機代碼 。 隨著這些功能的普及 , AI研究的關注點轉向了一個更深層的問題:機器是否能夠學會世界的實際運作方式 , 而不僅僅是如何描述它?
對于研究人員來說 , 這個問題具有現實意義 , 從機器人如何在家中導航到自動駕駛汽車如何預測十字路口可能發生的情況 。 這就是世界模型的用武之地 。
世界模型并不是一個新概念 。 這個術語最初出現在1950年代 , 在2018年左右重新出現在現代AI研究中 , 并在2024年隨著OpenAI的Sora和Google DeepMind的Genie等模型獲得了更廣泛的關注 。
2025年 , 這一概念進一步擴展為世界基礎模型 , 英偉達的Cosmos使其廣受歡迎 , 該模型榮獲CES 2025最佳AI獎 。 Meta的V-JEPA 2也在2025年發布 , 聲稱能夠理解重力等物理規律 。
那么 , 世界模型到底是什么 , 誰在構建它們 , 為什么它們正在成為AI研究最重要的領域之一?讓我們深入了解一下 。
世界模型 vs 基礎模型 vs 世界基礎模型
我們首先需要澄清這些術語 。
\"世界模型\"最初指的是構建來理解和預測特定環境內發生事件的AI系統 , 如機械臂工作空間或視頻游戲關卡 。 例如 , 一個智能體學習對象在Atari游戲中如何移動 。
基礎模型是在大規模數據集上訓練的大型通用系統 , 能夠同時處理多個任務 。 這包括大語言模型 , 如ChatGPT或Gemini , 它們主要從文本中學習廣泛模式 , 以及在圖像、音頻或代碼上訓練的多模態模型 。
世界基礎模型結合了兩種想法 , 采用基礎模型的規模 , 并專門訓練它們使用視頻和感官數據模擬物理現實(想想英偉達的Cosmos或Genie 3) 。
然而 , \"世界模型\"一詞經常被用作這些更大世界基礎模型的簡稱 , 而不是該短語最初描述的更窄系統 。
從書本智慧到世界智慧
大語言模型善于聽起來很博學 。 然而 , 這種知識來自閱讀大量文本 , 而不是來自對世界的直接體驗 。 它們被訓練來預測下一個Token , 即基于文本模式的下一個詞或詞的一部分 。 因此 , 它們可以描述重力如何作用或交通如何流動 , 而無需真正感受重量、運動或因果關系 。
一些人說世界模型是大語言模型的繼承者 。 但AI數據公司Encord的聯合創始人兼首席執行官Eric Landau告訴CNET:\"很難說這是下一步 , 但這絕對是一個并行運行的軌道 。 \"
它們不再專注于句子 , 而是專注于行動后接下來會發生什么 。 這可能涉及預測對象如何在空間中移動 , 當某個東西被遮擋時場景如何變化 , 或者對于AI智能體或機器人 , 回答類似\"如果我向左轉 , 攝像頭會看到什么?\"的問題 。
語言模型和世界模型之間的關鍵區別在于它們被訓練預測的內容 。 語言模型預測文本 。 世界模型預測環境中的變化 。 該環境可以是物理的 , 如房間或道路 , 也可以是虛擬的 , 如模擬世界 。 通過學習行動如何導致后果 , 世界模型理論上使AI系統能夠在行動前進行推理 , 而不是一步一步地反應 。
AI智能體平臺Integral AI的首席執行官兼聯合創始人Jad Tarifi告訴CNET , 大語言模型已經包含了一種世界知識形式 , 但它是不完整的 。
\"大語言模型確實學習了隱藏在其網絡權重中的基本隱式世界模型 , \"Tarifi說 。 \"但這是一個破碎的世界模型 。 \"
直接作為世界模型訓練的模型旨在構建更清潔、更直接的世界運作方式表示 。
世界模型如何工作?
在基本層面上 , 世界模型試圖預測當環境內發生某事時環境如何變化 。
研究人員主要使用兩種方法 。 在第一種方法中 , 世界是實時生成的 。 當一個人在場景中移動或與對象交互時 , 模型根據它對運動、對象和基本物理學的學習更新接下來發生的事情 。 它的工作原理有點像響應你的運動的視頻游戲世界 。
第二種方法預先構建整個世界 , 就像電影布景一樣 。 模型創建一個具有自己規則的固定空間環境 , 然后你走進去 。 因為結構已經存在 , 你可以探索它或改變事物 , 而不會使場景移位或失去邏輯 。
兩種方法都旨在做同樣的事情 。 它們幫助AI理解世界是如何組合的 , 以及行動如何導致結果 , 而不是僅僅基于語言進行猜測 。
從機器人技術到日常使用
隨著AI從聊天機器人轉向智能體、機器人和需要在較少監督下操作的系統 , 對世界模型的興趣有所增長 。 在現實世界中直接訓練這些系統既昂貴、緩慢 , 有時還很危險 。 世界模型提供了一個更安全的替代方案 , 允許AI在模擬環境中學習和失敗 , 同時發展對現實如何表現的更深理解 。
這就是為什么世界模型在機器人技術、自動駕駛和其他形式的物理AI中最重要 。 Landau告訴CNET , 機器人和其他具身系統是最明顯的使用案例 , 無論它們是直接部署還是用于在仿真中訓練其他AI系統 。
研究人員期望這些應用會快速擴展 。
\"世界模型將從純視頻預測轉向能夠生成抽象概念的模型 。 我們應該期望這些模型在機器人技術、科學自動化和人機交互中大規模部署 , \"Tarifi說 。 \"我也認為它們將革命化醫學 。 \"
Landau同意醫學是\"一個非常合理的使用案例\" 。 他指出了在藥物發現和理解不同條件如何在人體內相互作用方面的潛力 , 為在現實世界測試之前探索治療提供了更全面的方式 。
世界模型還可以塑造創意和教育工具 。 AI系統不再生成單一圖像或視頻 , 而是可以生成一個隨著人們探索而響應的環境 , 允許設計師走過原型或學生與復雜系統互動 , 而不是閱讀相關內容 。
風險和限制
模擬現實是困難的 。 模型在理解物理學或因果關系方面的小錯誤可能會隨時間放大 。
Landau說計算是一個主要約束 。 今天的世界模型需要大量GPU資源 , 在機器人或自動駕駛車輛等實時系統中部署具有挑戰性 。 他還指出數據是另一個瓶頸 。 世界模型依賴基于軌跡和豐富傳感器的數據 , 這比用于訓練語言模型的文本要難收集得多 。 如果模擬數據無法準確反映現實世界 , 模型可能會學習錯誤的物理學或因果關系 。
Tarifi指出風險不僅僅是技術性的 。 他警告未經檢查的激勵措施、將自主智能體惡意用作武器以及保護人類機構的需要 , 特別是當社會為他所描述的\"向勞動不再是大多數人口經濟生活來源的經濟轉型\"做準備時 。
聚光燈下的AI
對AI日益增長的關注是《時代》雜志將AI架構師評為2025年年度人物的原因 。 這反映了AI創新在各行各業和社會中變得多么核心 。 正如英偉達首席執行官黃仁勛告訴《時代》雜志的:\"這是我們時代最具影響力的技術 。 \"
世界模型是從只會響應的AI轉向能夠推理、規劃和預測的AI的轉變 。 該技術仍在開發中 , 但它指向了先進AI研究的發展方向 。
Q&A
Q1:世界模型是什么?它與大語言模型有什么不同?
A:世界模型是專門訓練來理解和預測環境變化的AI系統 , 它們預測行動后會發生什么 , 而不是像大語言模型那樣預測文本 。 大語言模型通過閱讀文本獲得知識 , 世界模型則通過學習行動和后果的關系來理解世界如何運作 。
Q2:世界模型主要應用在哪些領域?
A:世界模型主要應用在機器人技術、自動駕駛和物理AI領域 。 它們還有望應用于醫學領域的藥物發現 , 創意和教育工具 , 以及需要AI在模擬環境中學習和操作的任何場景 。
Q3:世界模型面臨哪些主要挑戰和限制?
A:世界模型面臨的主要挑戰包括:計算資源需求高、需要大量GPU;數據收集困難 , 需要基于軌跡和豐富傳感器的數據;模擬精度問題 , 小錯誤可能隨時間放大;以及潛在的安全風險 , 如惡意使用自主智能體作為武器 。
【我們希望AI有多智能?世界模型可能比我們更懂世界】

    推薦閱讀