RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片

RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

文章圖片


本文作者來自北京大學和阿里通義萬相實驗室 。 其中論文第一作者是湯昊 , 北京大學 2022 級博士生 , 發表多篇 NeurIPS CVPR , ICCV 和 ECCV , 目前主要關注統一的多模態理解和生成 。 指導教授是王立威老師 , 北京大學智能學院教授 , 曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎 。
統一多模態模型要求視覺表征必須兼顧語義(理解)和細節(生成 / 編輯) 。 早期 VAE 因語義不足而理解受限 。 近期基于 CLIP 的統一編碼器 , 面臨理解與重建的權衡:直接量化 CLIP 特征會損害理解性能;而為凍結的 CLIP 訓練解碼器 , 又因特征細節缺失而無法精確重建 。 例如 , RAE 使用凍結的 DINOv2 重建 , PSNR 僅 19.23 。

為解決這一核心矛盾 , UniLIP 提出創新的 CLIP 微調框架 , 通過兩階段重建訓練與自蒸餾損失 , 在不損失模型原有理解性能的同時 , 實現了卓越的圖像重建能力 。 UniLIP 可直接替換 MLLM(如 InternVL)中的原有 CLIP 模塊(如 InternViT) , 并保持甚至略微提升其理解性能 。
不同于 RAE 僅在 ImageNet 上進行了實驗 , UniLIP 進行了大規模的生成和編輯訓練 。 UniLIP 僅用 1B 和 3B 參數的模型 , 便在 GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94) 等多個基準上取得了 SOTA 性能 , 媲美甚至超越了更大規模的模型 。

  • 論文鏈接:https://www.arxiv.org/pdf/2507.23278
  • 開源代碼:https://github.com/nnnth/UniLIP
  • 開源模型:https://huggingface.co/kanashi6/UniLIP-3B
方法細節

CLIP 無損適應圖像重建
為解決 CLIP 特征因細節缺失導致的重建模糊問題 , UniLIP 提出了一種創新的兩階段訓練方案 , 旨在增強其像素級重建能力 , 同時不損害其卓越的語義理解力 。 該方案基于一個包含 CLIP、像素解碼器及投影層的自編碼器架構 。
第一階段:解碼器對齊 。此階段凍結 CLIP , 僅訓練像素解碼器和投影層 , 使其學習從固定的 CLIP 特征中重建圖像 。 訓練目標為:

第二階段:自蒸餾微調 。由于原始 CLIP 特征缺乏像素細節 , 第一階段的重建質量受限 。 因此 , 此階段將共同訓練 CLIP , 并通過自蒸餾方法約束其特征 , 防止其偏離原始分布 , 從而在注入細節的同時保留語義 。 訓練目標為:


通過此方案 , UniLIP 克服了語義理解與像素重建的內在權衡 , 其理解能力甚至在部分基準上得到增強(見下表) 。 對于生成與編輯任務 , UnLIP 特征帶來了三大優勢:
(1)高保真壓縮:實現 32 倍圖像壓縮 , 并能通過輕量級解碼器高質量恢復 。
(2)強文本對齊:繼承 CLIP 的對齊能力 , 確保對文本指令的精準響應 。
(3)完備特征表示:同時編碼高級語義與像素細節 , 為高保真編輯提供完整信息 。

用于圖像生成和編輯的雙條件架構

UniLIP 借鑒了 MetaQuery 范式 , 但突破了其在圖像編輯任務中的信息瓶頸 。 傳統方法僅用固定數量的查詢嵌入(Query Embeddings)連接 MLLM 與擴散模型 , 這在傳遞參考圖像豐富的像素級細節時力不從心 , 常導致編輯結果細節退化或內容不一致 。
為此 , UniLIP 提出了一種雙條件架構 。 該架構在查詢嵌入之外 , 額外引入 MLLM 的多模態隱藏狀態作為第二個條件 , 共同引導 DiT 的交叉注意力模塊 。 這有效地補充了缺失的像素級信息 。 這種設計成功地將復雜任務解耦:MLLM 專注于高級推理和意圖理解 , DiT 則基于這套無損傳遞的、兼具高級語義與底層細節的豐富線索 , 進行高保真度的圖像合成 。 最終 , UniLIP 在圖像生成與編輯任務上均實現了卓越性能 。
實驗結果
模型架構
UniLIP 包括 1B 和 3B 兩個模型變體 , 它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來 。 在架構上 , UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器 , 并結合 DC-AE 的像素解碼器 。 連接器則設計為 6 層 , 結構與 LLM 保持一致 , 并使用了 256 個可學習查詢 。
訓練數據
UniLIP 的生成數據來自 BLIP3-o , 包括 38M 的預訓練數據和 60k 的指令微調數據 。 UniLIP 的編輯預訓練數據來自 GPT-Image-Edit-1.5M , 指令微調數據來自包含 46K 編輯數據的 ShareGPT-4o-Image 。
圖像重建

在 256x256 分辨率下 , UniLIP 不僅超越了此前的量化方法 , 其更高的下采樣率也帶來了生成效率優勢 。 在 448x448 分辨率下 , 與使用擴散解碼器的 Emu2 相比 , UniLIP 由于打開 CLIP 進行重建訓練取得顯著優勢 。
多模態理解

UniLIP 可以直接替換 InternVL 的視覺編碼器在理解基準上進行測試 。 得益于重建訓練對原始能力的有效保持 , UniLIP 實現了同規模最好的理解性能 , 并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型 。
圖像生成

在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準上 , UniLIP 憑借卓越的文圖對齊能力 , 不僅超越了同規模模型 , 還達到了與 BAGEL 等更大模型相當的水平 。
圖像編輯

在 ImgEdit-Bench 圖像編輯基準上 , UniLIP 以 3.94 的高分超越了 OmniGen2 等先進模型 。 其強大性能歸功于 UniLIP 特征的豐富細節與精準語義對齊能力 。 UniLIP 創新的雙條件架構充分利用了這些特征 , 確保了編輯的精確性和非編輯區的一致性 。
可視化結果

在生成任務中 , UniLIP 可以生成美觀且嚴格遵循用戶提示的圖像;而在編輯任務中 , UniLIP 可以在準確修改圖像的同時保持周圍區域的一致性 。
結論
【RAE終極形態?北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯】通過精心設計的兩階段訓練與自蒸餾約束 , UniLIP 有效解決了語義理解與像素細節保留的矛盾 。 此外 , 其創新的雙條件架構無縫連接了 MLLM 與擴散模型 , 確保了生成和編輯任務中的高保真度與一致性 。 UniLIP 在多個基準上展示的卓越性能 , 為下一代統一多模態模型提供了新的范式 。

    推薦閱讀