別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

【別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界】別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

文章圖片

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界


這兩年 , 視頻生成模型進步很快 。 清晰度更高了 , 鏡頭更穩了 , 人物和場景看上去也越來越自然 。 很多時候 , 我們判斷一個模型強不強 , 看的就是它 “像不像真的” 。 但這其實只回答了一半的問題:它看起來像真的 , 不代表它真的符合現實世界的物理規律 。 這件事放在短視頻生成里 , 也許只是 “偶爾有點怪”;但如果視頻模型真的要往 world model、仿真系統、具身智能這些方向走 , 問題就不一樣了 。 一個模型如果連物體怎么接觸、狀態怎么變化、事件怎么按因果順序發生都搞不清楚 , 那它再像 , 也只是像 。

現在的視頻評測 , 更像是在比 “好不好看”
目前 , 視頻生成領域常見的評測方式 , 要么看自動指標 , 要么讓人直接選 “哪個視頻更好” 。 這種方式當然有意義 , 它能比較清晰度、流暢度、觀感這些東西 , 但它很難告訴你:視頻里到底有沒有違反基本物理常識 。
比如 , 一個物體是不是無緣無故消失了;兩個東西是不是明明沒接觸卻發生了交互;一個動作的結果是不是和前面的過程根本對不上 。 這些問題 , 才真正關系到模型是在 “生成一個像真的畫面” , 還是在 “模擬一個可信的世界” 。
Physion-Eval:從 “視覺真實” 走向 “物理真實” 的新 benchmark
這篇工作提出了 Physion-Eval 。 它不是再做一個 “誰的視頻更好看” 的排行榜 , 而是想認真回答一個更關鍵的問題:AI 生成的視頻 , 在物理層面到底有多真實 。

論文標題: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning 作者: Qin Zhang Peiyu Jing Hong-Xing Yu Fangqiang Ding Fan Nie Weimin Wang Yilun Du James Zou Jiajun Wu and Bing Shuai 作者單位:Physion Labs , 斯坦福大學 , MIT , 哈佛大學 , Character AI 論文鏈接: https://arxiv.org/abs/2603.19607 數據集鏈接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval 視頻鏈接:https://www.youtube.com/watch?v=Vbn_W3WNUHw 視頻地址:https://mp.weixin.qq.com/s/bNsBvX4S0iYD2D5WlhRBeg?click_id=62
這個 benchmark 同時覆蓋第一人稱和第三人稱場景 , 包含 10990 條專家推理軌跡 , 覆蓋 22 類細粒度物理現象 。 和常見評測不太一樣的地方在于 , 這里的每條樣本不只是簡單打個分 , 而是會標出錯誤發生在什么時候、屬于哪一類問題 , 以及為什么不對 。
數據上 , 第三人稱部分來自 WISA-80K , 第一人稱部分基于 EPIC-KITCHENS 構建 。 為了保證標注質量 , 論文組織了 90 位具有 STEM 背景并接受過本科物理訓練的專家標注者 , 采用雙人標注和資深專家裁決的流程 , 最后得到的是帶時間戳、錯誤類別和文字解釋的高質量標注 。
在這一過程中 , 人類智能所展現出的優勢尤為明顯:人類不僅能夠識別視覺上的異常 , 更能夠基于物理直覺與因果理解 , 對復雜的動態過程進行推理和解釋 。 相比之下 , 即使是當前最先進的多模態模型 , 在時序一致性、交互合理性以及隱含物理規律的判斷上 , 仍存在明顯不足 。


最直接的結論:現在的模型 , 還遠談不上 “物理一致”
這篇工作的主結論其實很簡單 , 也很扎眼:在物理過程敏感的場景里 , 83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻 , 都至少包含一個人類可以明確識別的物理錯誤 。 這說明什么?說明今天的視頻模型確實越來越會制造 “真實感” 了 , 但離 “真正符合物理規律” 還有很遠 。

而且這些錯誤不是零零散散的小毛病 , 而是系統性的 。 論文里總結的典型問題包括:接觸或交互失敗、對象突然出現或消失、時間連貫性崩塌、因果順序錯亂、材料或狀態變化異常、幾何碰撞不合理等等 。 換句話說 , 問題不只是 “畫面有點假” , 而是模型對物體、接觸、運動和結果之間最基本的關系 , 還經常搞錯 。

很多錯誤不是粗糙 , 而是 “看著像 , 但其實完全不對”
Physion-Eval 里最有意思的地方 , 其實是那些具體例子 。 它們不是那種一眼就看出來的低級 bug , 而是第一眼好像還行 , 仔細一想卻明顯不符合常識 。
比如 , 桌面上突然多出一把本來不存在的刀;瓶口朝下 , 液體卻不往下流;水直接穿過鍋底;又或者一個鍋被兩根手指以幾乎不可能的方式拎起來 。 它們的問題不在于 “渲染不精細” , 而在于直接違背了物體守恒、重力、不可穿透性和穩定接觸這些最基本的物理規律 。
這也是為什么我們覺得 , 這項工作不只是 “又多了一個 benchmark” 。 它更像是在提醒大家:今天很多模型也許已經很會生成 “像真的視頻” , 但還遠沒有學會 “世界為什么會這樣動” 。


更麻煩的是 , 連最強的多模態模型也不太會看這些錯誤
論文還問了另一個很現實的問題:那能不能讓現在的大模型來當 “自動評委” , 替人判斷一個視頻有沒有物理問題?
答案是 , 暫時還不行 。
文章評估了 10 個開源和閉源的 MLLM critic , 結果顯示 , 它們和人類判斷之間還有明顯差距 。 以 Gemini 3.0 Pro 為例 , 它會漏掉超過 74.4% 的第三人稱錯誤視頻和 90.1% 的第一人稱錯誤視頻 。 而且它們不只是漏檢 , 還會把錯誤發生的時間說錯 , 甚至編出根本不存在的原因 。
這點其實很關鍵 。 因為如果以后大家真想靠自動 critic 去評估 world model 或視頻生成系統 , 那 critic 本身至少得先真的看懂視頻里的物理過程 。 就目前來看 , 人類判斷依然是最可靠的標準 。




越是高動態的物理過程 , 越容易暴露當前模型的短板
論文進一步從 physical intensity 和 dynamics 兩個維度分析了生成模型與市面上已有的 MLLM critic 的表現 。 結果表明 , 相比強度大小 , 過程本身的動態性和復雜性更容易暴露視頻生成模型的物理建模缺陷 。 對 MLLM critic 來說也是如此:只有當錯誤足夠明顯時 , 它們才會表現出有限的判斷能力 , 但整體仍明顯落后于人類 。



總結
Physion-Eval 想指出的 , 不只是 “現在的視頻生成模型還不夠強” , 而是一個更根本的問題:當行業越來越關注視頻 “看起來有多真” 的時候 , 我們可能忽略了它 “實際上對不對” 。
對于真正想做 world model、機器人、具身智能和仿真的人來說 , 這個問題繞不過去 。 畫面更清晰、動作更順滑 , 當然重要;但如果物體會無故出現 , 液體不會往下流 , 動作結果和前因對不上 , 那模型就還沒有真正學會世界的運行方式 。
視頻生成下一階段 , 也許不該只繼續卷觀感 , 而應該更認真地去解決物體持續性、接觸關系、狀態變化、時序一致性和因果結構這些更本質的問題 。 “看起來對” , 從來不等于 “實際上對” 。
作者介紹
本文由來自美國頂級科技公司與世界一流高校的豪華作者陣容共同完成 , 集結 Physion Labs、斯坦福大學、MIT、哈佛大學及 Character AI 的核心研究者 。 其中 , Physion Labs 團隊(Qin Zhang、Peiyu Jing、Bing Shuai)長期專注于生成式視頻與世界模型中的物理一致性問題 , 構建了面向行業的評估基礎設施與數據閉環 , 致力于成為下一代生成模型的 “物理可信層” 。 其余作者包括斯坦福大學的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu , 麻省理工學院的 Fangqiang Ding , 哈佛大學的 Yilun Du , 以及 Character AI 的 Weimin Wang 等業內頂尖學者 。

    推薦閱讀