AI大神卡帕西投錢!全球首個直播生成模型發布,實時生成無時長限制

AI大神卡帕西投錢!全球首個直播生成模型發布,實時生成無時長限制

文章圖片

AI大神卡帕西投錢!全球首個直播生成模型發布,實時生成無時長限制

文章圖片

AI大神卡帕西投錢!全球首個直播生成模型發布,實時生成無時長限制

文章圖片


智東西
編譯 | 李水青
編輯 | 漠影
智東西7月19日報道 , 昨日 , 以色列AI創企Decart推出首個直播擴散AI視頻模型——MirageLSD 。 不同于Veo等市面上時長有限、存在延時的視頻生成模型 , Mirage可以實時轉換無限長的視頻流 , 響應時間小于40毫秒 。
前特斯拉AI總監、OpenAI創始團隊成員Andrej Karpathy在社交平臺X上稱:“Veo等視頻擴散模型很神奇 , 但它們需要花費數秒/數分鐘才能生成 , MirageLSD是實時的魔法 。 ”他認為這將是一項通用和強大的技術 , 有望改變游戲、直播、視頻通話、影視、會議、AR/VR等多種領域 。
Decart創立于2023年 , 由Andrej Karpathy參與投資 , Mirage是Decart繼“AI版我的世界” Oasis之后推出的第二個模型 。 目前 , 由MirageLSD模型驅動的Mirage平臺已上線 , iOS、Android版本預計下周上線 。
體驗地址:https://mirage.decart.ai/

一、Andrej Karpathy強推:實時的魔法 , 改變游戲直播行業在社交平臺X中 , AI大神Andrej Karpathy激動地稱:”擴散視頻模型現在支持實時生成了!“
Andrej Karpathy談道 , 此前 , 簡單的視頻濾鏡支持實時生成 , 但大多只能進行基本的重新著色和樣式設置 。 市面上已有的Veo等視頻擴散模型很神奇 , 但它們需要花費數秒甚至數分鐘才能生成 。 MirageLSD就是實時魔法 。 與簡單的視頻濾鏡不同 , 擴散模型實際上理解它們正在查看的內容 , 因此它們可以智能地設置視頻源所有部分的樣式 , 例如將帽子戴在頭上 , 或將光劍戴在手上等 。
Andrej Karpathy還稱 , 該模型可以任意操控 , 例如通過文本提示來進行操控 。 可定制的智能視頻濾鏡會隨著時間的推移解鎖許多酷炫的想法:
-將攝像頭畫面轉化為虛擬實景;
攝像機拍攝畫面實時生成視頻(源自:Decart官網)
-執導并拍攝自己的電影 , 使用道具演繹場景 , 實時拍攝且即時回看;
實景道具演繹視頻實時變3D卡通動畫(源自:Decart官網)
-圍繞簡單的球體或方塊生成有氛圍的代碼游戲 , 然后借助實時擴散模型為游戲添加紋理 , 使其變得精美;
生成游戲畫面(源自:Decart官網)
-對任意視頻流進行風格化處理和自定義:游戲、視頻…… 比如 , 《上古卷軸 5:天際》想更 “史詩感爆棚”?《毀滅戰士 2》僅用一個提示詞就能達到現代虛幻引擎的畫質?恐怖片想變成 “只有可愛元素、粉色調與小兔子” 的風格?這誰知道呢!
生成游戲畫面(源自:Decart官網)
-Zoom通話背景實時虛擬更換 。
-眼鏡:例如 , 實時卡通化你的視覺?
-現在我們可以打造哈利·波特的厄里斯魔鏡 , 在鏡子里展現你的“原始畫面” , 但會增強你內心最深處的渴望(由AI推斷) 。
Andrej Karpathy稱 , 可以設想的應用場景太多了 , 他可能錯過了最重要的一點 。 并且聲明:“我是Decart的小額天使投資人 , 我很興奮 , 因為在我看來 , 這項技術會很快變得非常好 , 感覺它很通用、很強大 , 但技術難度也很高 。 祝賀團隊發布成功!”

二、破解視頻生成“30秒瓶頸” , 生成速度提升16倍MirageLSD是首個實現無限實時零延遲視頻生成的系統 。 它基于名為“實時流擴散 (LSD)”的定制模型構建 , 該模型能夠逐幀生成視頻 , 同時保持時間連貫性 。
與以往的方法不同 , LSD支持完全交互式的視頻合成——允許在視頻生成過程中持續進行提示、轉換和編輯 。
當前的視頻模型無法生成超過30秒的視頻生成 , 否則會因錯誤累積而導致質量嚴重下降 。 它們通常需要幾分鐘的處理時間才能輸出幾分鐘的視頻 。 即使是當今最快的實時系統 , 通常也會分塊生成視頻 , 從而帶來不可避免的延遲 , 影響交互使用 。
為了實時生成視頻 , LSD必須以因果關系的方式運行——僅基于前一幀生成每一幀 。 這種自回歸結構確保了連續性 , 但也帶來了一個嚴重的缺陷:誤差累積 。 每一幀都會繼承上一幀的缺陷 。 微小的誤差累積起來 , 會導致質量迅速下降 , 直到幀變得不連貫 。
啟用LSD需要解決兩個以前從未在單個系統中同時解決的挑戰 。
1、基于擴散強制技術 , 實現無限生成
為了實現無限的自回歸生成 , Mirage研究人員以擴散強制技術為基礎 , 進行逐幀去噪;引入了歷史增強功能 , 使模型能夠針對損壞的輸入歷史幀進行微調 。 這教會模型預測并糾正輸入偽影 , 使其能夠抵御自回歸生成中常見的漂移 。
這些操作使得MirageLSD成為第一個能夠無限生成視頻而不會崩潰的模型——穩定、可提示 , 并且與場景和用戶輸入保持一致 。
2、速度提高16倍 , 實時生成視頻
響應度被定義為最壞情況的響應延遲 , 即使是以前的自回歸模型的響應速度也比MirageLSD慢16倍以上 , 從而無法實現實時交互 。
實時生成要求每幀生成時間不超過40毫秒 , 以免人眼察覺 。 Mirage研究人員通過以下方式實現這一目標:
設計定制的CUDA巨型內核 , 以最小化開銷并最大化吞吐量;基于快捷蒸餾和模型修剪 , 減少每幀所需的計算量;優化模型架構以與GPU硬件保持一致 , 從而實現峰值效率 。
總之 , 這些技術使響應速度比之前的模型提高了16倍 , 能夠以24 FPS的速度生成實時視頻 。

三、與Veo走差異化路線 , 首個實時無限視頻生成模型當下 , AI視頻生成方面模型已提高了生成視覺質量和時長 , 但大多數系統仍然缺少交互性、低延遲和時間穩定性 。
MovieGen、WAN和Veo等固定長度模型可以生成高質量的視頻片段 , 但它們的非因果設計和全片段推理會引入延遲 , 并阻止實時交互或超出預定義長度的擴展 。
CausVid、LTX和Seeweed-APT等自回歸模型通過對先前的輸出進行條件化來生成更長的序列 , 雖然這提高了可擴展性 , 但分塊推理仍然限制了響應速度 , 并容易出現錯誤累積 , 限制了生成長度 , 并最終導致無法進行真正的交互 。
可控生成方法 , 包括ControlNet和基于LoRA的適配器 , 可以實現有針對性的編輯和風格轉換 , 但需要離線微調 , 不適合實時逐幀提示 。
Mirage自身之前的系統Oasis首次在受限域內實現了實時因果生成 。 MirageLSD則將其擴展到開放域、可提示的視頻 , 具有零延遲、實時速度和無限穩定性——這是先前研究無法實現的組合 。

結語:實時無限生成視頻 , 精確控制仍然有限MirageLSD雖然實現了實時、可提示且穩定的視頻生成 , 但仍面臨一些挑戰 。 首先 , 該系統目前依賴于有限的過去幀窗口 。 引入長期記憶機制可以提高擴展序列的連貫性 , 從而實現更一致的角色身份、場景布局和長期動作 。
此外 , 雖然MirageLSD支持文本引導的轉換 , 但對特定對象、空間區域或運動的精確控制仍然有限 。 集成結構化控制信號(例如關鍵點或場景注釋)或許可以在實時場景中實現更精細的用戶控制編輯 。
【AI大神卡帕西投錢!全球首個直播生成模型發布,實時生成無時長限制】Mirage提出 , 團隊需要進一步研究來提升語義和幾何一致性 , 尤其是在極端風格轉換的情況下的表現 。 解決這個問題需要在提示驅動的指導下建立更強大的內容保存機制 。

    推薦閱讀