Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

文章圖片

Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

文章圖片

Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

文章圖片

Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

文章圖片

Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

文章圖片

Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭

文章圖片

編輯:定慧
【新智元導讀】Runway Gen-4.5這波有點厲害!
剛剛更新的Runway Gen-4.5擊敗谷歌Veo3 , 重奪AI視頻王座!
在Artificial Analysis的榜單中Runway以1247的ELO分數拿下第一 。

在觀看了RunwayGen-4.5的宣傳視頻后 , 被其中的一句話所打動:
我們創造了一個 , 你可以用來創造一切的的產品 。
RunwayGen-4.5此前代號為WhisperThunder 。
Gen-4.5采用最先進技術 , 在視頻生成的運動質量、提示詞遵循度和視覺保真度方面樹立了全新標桿 。

以下是一些驚艷的例子 。
RunwayGen-4.5在視頻模型的預訓練數據效率和后訓練技術方面均取得顯著進步 , 并成為用于世界建模的新基礎模型 。
Gen-4.5在ArtificialAnalysis文本轉視頻排行榜中獲得1247Elo積分 , 創下新標準并超越了全球所有其他AI視頻模型 。

Runway是第一家將文生視頻技術真正做成可供大眾使用的SaaS產品的公司 。
在2023年初 , Runway率先推出了Gen-1(視頻生視頻)和Gen-2(文生視頻) 。
當時谷歌的ImagenVideo和Meta的Make-A-Video還停留在實驗室演示階段 , 而Runway直接讓普通用戶通過網頁就能生成視頻 。

它是第一個讓「AI視頻生成」成為獨立商業賽道的公司 , 甚至早于OpenAI的Sora(Sora發布于2024年初) 。
Gen-4.5實現了前所未有的物理精確度和視覺精度 。

  • 物體以逼真的重量、動量和力量運動 。
  • 液體以恰當的動力學特性流動 。
  • 表面細節以極高的保真度渲染 。
  • 而像發絲和材質編織這樣的精細細節在運動和時間內保持連貫 。
在復雜場景、精細構圖、物理準確性上都表現出色 , 并且能生成富有表現力的角色 。
Gen-4.5能夠處理從照片級真實感和電影感 , 到風格化動畫的廣泛美學風格 , 同時保持連貫的視覺語言 。
Gen-4.5從初期研發、預訓練、后訓練到推理的整個開發過程完全基于英偉達GPU完成 。
盡管能力有了飛躍 , Rnway仍表現出視頻生成模型常見的若干限制:
  • 因果推理:效果有時會先于原因出現(例如 , 門在按下把手之前就打開了) 。
  • 物體恒存性:物體可能在幀間意外消失或出現(例如 , 杯子被遮擋后消失) 。
  • 成功偏差:動作異常容易成功(例如 , 瞄準不佳的射門仍能得分) 。

Runway創始人最新訪談
Runway Gen 4.5如何重塑模擬引擎革命?
Runway ML創始人Cristóbal Valenzuela訪談剛剛曝光!
【Runway重奪全球第一!碾壓谷歌Veo3,沒千億算力也能干翻科技巨頭】
視頻模型正從娛樂工具轉向世界模擬引擎 , 這是否預示AGI新時代的曙光?
Cristóbal Valenzuela在 Gen 4.5模型社區投票登頂視頻競技場排行榜后 , 與Lukas Biewald展開深度對話 , 剖析視頻建模領域的挑戰與創新 。
視頻AI的終局是「世界模擬器」嗎?

以小博大:專注與效率的勝利


采訪一開始 , Lukas就拋出了一個尖銳的問題:「Runway作為一個創業公司 , 是如何與擁有無限資源的谷歌競爭的?」
Chris的回答非常坦誠 。 七年前Runway剛成立時 , 甚至沒人覺得「視頻模型」是一個值得投入的領域 。 如今雖然行業已被引爆 , 且巨頭紛紛入局 , 但Chris認為資源仍然不是決定性因素 。
  • 專注(Obsession):
  • 相比大廠的廣泛布局 , Runway擁有一支對視頻生成愿景極度癡迷的團隊 。
  • 效率(Efficiency):
  • 當你沒有幾千億美元可以揮霍時 , 你必須在訓練和推理的效率上極度創新 。 「在有限資源下做到世界第一 , 迫使我們變得更具創造力 。 」


二級標題煉丹的玄學:技術中的「品味」


Gen 4.5為什么能大幅領先?Chris提到了一個有趣的詞——「品味」(Taste) 。
這里的「品味」指的不僅僅是生成畫面的美學風格 , 更多是指「如何訓練模型的直覺」 。
  • 模型訓練沒有單一的「魔法按鈕」 。
  • 它關乎成千上萬個參數的微調、無數個Tips&Tricks的組合 。
  • Chris引用了Ilya Sutskever的觀點 , 認為現在是「擁有更大算力的基礎研究回歸之年」 。 誰更擅長做基礎科學實驗 , 誰就能領先 。

超越語言:視頻模型即「世界模型」


這是本次采訪中最核心的觀點 。
Chris認為 , 理解視頻模型的最佳方式 , 是將其視為「通用模擬引擎」(Universal Simulation Engines) 。
  • 語言的局限:
  • 語言模型(LLM)受限于語言本身——語言只是人類對現實的一種抽象 , 而非現實本身 。
  • 觀察數據的力量:
  • 視頻模型通過學習大量的觀察數據 , 能夠捕捉到物理世界的規律 , 如因果關系、空間與時間的連續性、物體恒存性等 。
實測案例:Chris舉了一個內部測試的Prompt例子:「一只袋鼠推著另一只坐在嬰兒車里的小袋鼠」 。
這不僅需要模型理解復雜的生物運動 , 還要處理攝像機的跟隨運鏡 。
Gen 4.5能夠完美處理這種復雜的物理交互 , 證明了它不僅僅是在生成像素 , 而是在理解物理世界 。


未來的應用:從電影到機器人


如果視頻模型是「模擬引擎」 , 那它的應用場景將遠超現在的影視制作:
  1. 非線性娛樂體驗:
  2. 未來的游戲或互動內容可能不再是預先制作好的 , 而是實時生成的、可交互的「夢境」 。
  3. 具身智能(EmbodiedAI):
  4. 有開發者已經開始利用Runway生成合成視頻數據 , 用來訓練機器人的手臂操作 。
  5. 個性化學習:
  6. 想象一下 , 你想學習任何知識 , AI都能實時為你生成一段專屬的教學視頻 。
在采訪的最后 , Chris并沒有回避關于安全性的問題 。
面對「AI生成內容對兒童限制過多」的抱怨 , 他表示這確實是一個艱難的平衡 , 但未來或許會出現類似流媒體平臺的「兒童模式」 , 把控制權交給家長 。
Runway的野心從未止步于「視頻剪輯工具」 。
正如Chris所言 , 他們正在構建的是一種新的媒介 , 一種能夠模擬萬物的智能系統 。
我們首先模擬的是娛樂和媒體 , 但你會看到 , 這些模型將開始模擬遠超于此的一切 。
參考資料:
https://runwayml.com/

    推薦閱讀