阿里高德發布SpatialGenEval，揭秘誰才是真正的文生圖大師

2026-04-10 ai 支付寶人工智能 aigc questmobile

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

盡管目前文生圖模型（Text-to-Image Models）在生成高保真圖像上表現卓越，但在應對空間感知、空間邏輯推理及多目標空間交互等貼合現實場景的復雜空間智能任務時往往力不從心。現有評估基準主要依賴簡短或信息稀疏的提示詞，難以覆蓋復雜的空間邏輯，導致模型在這些關鍵空間智能維度上的能力缺陷被嚴重低估。
來自阿里高德的一篇最新 ICLR 2026 中稿論文《Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models》提出了面向文生圖空間智能的系統性評估基準 SpatialGenEval ，旨在通過長文本、高信息密度的 T2I prompt 設計，以及圍繞空間感知、空間推理和空間交互的 10 大空間智能能力維度設計，深入探測文生圖模型的空間智能能力邊界。

SpatialGenEval 將生圖空間智能能力細分為 4 大維度， 10 個子維度，覆蓋 25 個現實應用場景，基于 23 個 SOTA 模型的評估結果表明當前模型的空間智能能力仍有待大幅提升

論文標題：Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models
論文鏈接：https://arxiv.org/abs/2601.20354
論文代碼：https://github.com/AMAP-ML/SpatialGenEval

核心挑戰：目前 T2I 模型空間認知 “淺表化” 與邏輯缺失
現有文生圖模型雖然能夠很好地完成 “生成什么”（What）的語義對齊，但在處理 “空間位置在哪里”（Where）、“空間如何排列”（How）以及物理世界中的 “空間交互邏輯”（Why）時，面臨著從 “基礎感知” 到 “高階推理” 的全方位挑戰，包括：
1. 空間基礎的 “屬性漂移” 與缺失：模型雖然能畫出物體，但在信息密集提示詞下，常出現物體漏畫或屬性綁定錯誤，無法維持 “萬物各司其職” 的基礎對齊能力。
2. 空間感知的 “幾何偏見”：在處理物體精確位置、朝向及特定排列布局時，模型往往傾向于生成 “默認姿態”（如正面視圖），難以跨越 2D 畫布實現精準的空間定位。
3. 空間推理的 “邏輯盲區”：這是當前模型最大的短板。在涉及相對數值比較（如 “紅椅比藍椅大兩倍”）、3D 遮擋關系及物理距離鄰近性時，模型得分接近隨機猜測，表明其缺乏對真實物理世界層級和深度的認知。
4. 空間交互的 “動態失真”：模型難以捕捉物體間的動態瞬間（如跳躍中的足球）或物理因果邏輯（如撞擊導致的破碎），無法將潛藏的物理動力學轉化為邏輯自洽的視覺圖像。

上：當前生成模型在感知、推理和交互上的錯誤樣例；下：當前評估基準存在信息稀疏 / 粗粒度 yes-or-no 評估
SpatialGenEval：涉及空間基礎、感知、推理和交互的空間智能 “全科掃描”
為了系統化地定義和評估文生圖模型 “空間智能” 能力，研究團隊構建了一個層次化框架，將空間智能解構為 4 大領域及 10 個關鍵子維度：
1. 空間基礎 (S1/S2)：多目標物體類別（S1）、多目標屬性綁定（S2）。
2. 空間感知 (S3/S4/S5)：空間位置（S3）、空間朝向（S4）與空間布局（S5）。
3. 空間推理 (S6/S7/S8)：空間大小 / 長度 / 高矮等比較（S6）、空間鄰近性（S7）與空間位置遮擋（S8）。
4. 空間交互 (S9/S10)：空間運動交互（S9）與空間因果交互（S10）。
該基準測試覆蓋自然、室內、戶外、人類活動及藝術設計等 25 個現實世界場景，為其精心構建了 1230 條長文本、信息密集型提示詞。每個提示詞均深度融合了上述從基礎屬性、布局到高階遮擋、因果推理等 10 個空間子領域及對應全維度問答。值得注意的是，每個提示詞長度約 60 詞，允許同時兼顧依賴 CLIP 編碼模型（77 tokens 限制）和保持高度信息密集。

SpatialGenEval 評估數據構建流程

SpatialGenEval 所有 10 個空間維度的提示詞及其問題展示

核心發現：空間推理仍是主要瓶頸
研究團隊對 23 款前沿的開源與閉源 T2I 模型進行了詳盡評估，揭示了以下行業現狀：

空間推理是核心薄弱環節：在涉及比較和遮擋的空間推理子任務中，多數模型的得分僅在 30% 左右，接近隨機猜測水平（20%），這表明目前的模型普遍缺乏對 3D 場景結構和邏輯關系的理解。
開源模型正快速追趕：評測顯示，最強的開源模型 Qwen-Image (60.6%) 表現已與頂級閉源模型 Seed Dream 4.0 (62.7%) 基本持平，但均僅達到及格線水平，空間智能仍有巨大提升空間。
強大的文本編碼器至關重要：使用高性能 LLM（如 T5 或大型語言模型）作為文本編碼器的模型（如 FLUX.1），在解析復雜空間指令時顯著優于僅依賴 CLIP 的模型。

基于 Qwen2.5-VL-72B-Instruct 的自動化評估結果

左：所有評估模型的錯誤類型分布；右：高優模型的錯誤類型分布
數據中心范式：提升模型空間智能的有效路徑
除了評估，該研究還提出了一種基于已有生成圖像的改進方案。團隊通過多模態大模型（MLLM）重寫提示詞以確保圖文一致性，構建了包含 15400 對圖文數據的 SpatialT2I 數據集。對主流三大類模型（Diffusion-based AR-based ， Unified-based 模型）進行監督微調結果在空間評估指標有顯著增益，生成的圖像在物理邏輯和空間布局上更具真實感。

微調模型后的生成結果對比
總結與展望
SpatialGenEval 為 T2I 模型從 “美學生成” 邁向 “邏輯感知” 建立了一條新的評估路線，只有讓模型真正理解 “萬物各得其所 (Everything in its place)” ，生成式 AI 才能在機器人輔助、室內設計、自動駕駛仿真等對空間維度有嚴苛要求的領域中釋放真正的生產力。
作者團隊介紹
【阿里高德發布SpatialGenEval，揭秘誰才是真正的文生圖大師】阿里高德的機器學習研發部，承接公司重點業務，包括本地生活場景中的廣告創意、商品理解、內容智能創作和分發，出行場景的 AI 智能化等，部門研究領域廣泛，包括但不限于以下方向：(1) 多模態大模型；(2) 圖像生成 / 編輯美化；(3) 視頻生成 / 理解；(4) Agent; (5) 時空數據挖掘；(6) 智能推薦；(7) 高性能推理等。團隊技術氛圍好，成長空間大，擁有充足的研發資源和大量的業務應用數據，多篇論文入選 paper digest 最有影響力論文名單。

推薦閱讀

上一篇：7500mAh電池+2億像素！OPPO Find X9 Pro的“偏科”真相

下一篇：超能蒸汽加熱水雙效洗地！石頭A30 Pro Steam 2.0上市降維打擊