RAE終極形態？北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯

2025-12-24 ai 成都

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

本文作者來自北京大學和阿里通義萬相實驗室。其中論文第一作者是湯昊，北京大學 2022 級博士生，發表多篇 NeurIPS CVPR ， ICCV 和 ECCV ，目前主要關注統一的多模態理解和生成。指導教授是王立威老師，北京大學智能學院教授，曾獲 NeurIPS 2024 和 ICLR 2023 最佳論文獎。
統一多模態模型要求視覺表征必須兼顧語義（理解）和細節（生成 / 編輯）。早期 VAE 因語義不足而理解受限。近期基于 CLIP 的統一編碼器，面臨理解與重建的權衡：直接量化 CLIP 特征會損害理解性能；而為凍結的 CLIP 訓練解碼器，又因特征細節缺失而無法精確重建。例如， RAE 使用凍結的 DINOv2 重建， PSNR 僅 19.23 。

為解決這一核心矛盾， UniLIP 提出創新的 CLIP 微調框架，通過兩階段重建訓練與自蒸餾損失，在不損失模型原有理解性能的同時，實現了卓越的圖像重建能力。 UniLIP 可直接替換 MLLM（如 InternVL）中的原有 CLIP 模塊（如 InternViT），并保持甚至略微提升其理解性能。
不同于 RAE 僅在 ImageNet 上進行了實驗， UniLIP 進行了大規模的生成和編輯訓練。 UniLIP 僅用 1B 和 3B 參數的模型，便在 GenEval (0.90)、WISE (0.63) 和 ImgEdit (3.94) 等多個基準上取得了 SOTA 性能，媲美甚至超越了更大規模的模型。

論文鏈接：https://www.arxiv.org/pdf/2507.23278
開源代碼：https://github.com/nnnth/UniLIP
開源模型：https://huggingface.co/kanashi6/UniLIP-3B

方法細節

CLIP 無損適應圖像重建
為解決 CLIP 特征因細節缺失導致的重建模糊問題， UniLIP 提出了一種創新的兩階段訓練方案，旨在增強其像素級重建能力，同時不損害其卓越的語義理解力。該方案基于一個包含 CLIP、像素解碼器及投影層的自編碼器架構。
第一階段：解碼器對齊。此階段凍結 CLIP ，僅訓練像素解碼器和投影層，使其學習從固定的 CLIP 特征中重建圖像。訓練目標為：

第二階段：自蒸餾微調。由于原始 CLIP 特征缺乏像素細節，第一階段的重建質量受限。因此，此階段將共同訓練 CLIP ，并通過自蒸餾方法約束其特征，防止其偏離原始分布，從而在注入細節的同時保留語義。訓練目標為：

通過此方案， UniLIP 克服了語義理解與像素重建的內在權衡，其理解能力甚至在部分基準上得到增強（見下表）。對于生成與編輯任務， UnLIP 特征帶來了三大優勢：
（1）高保真壓縮：實現 32 倍圖像壓縮，并能通過輕量級解碼器高質量恢復。
（2）強文本對齊：繼承 CLIP 的對齊能力，確保對文本指令的精準響應。
（3）完備特征表示：同時編碼高級語義與像素細節，為高保真編輯提供完整信息。

用于圖像生成和編輯的雙條件架構

UniLIP 借鑒了 MetaQuery 范式，但突破了其在圖像編輯任務中的信息瓶頸。傳統方法僅用固定數量的查詢嵌入（Query Embeddings）連接 MLLM 與擴散模型，這在傳遞參考圖像豐富的像素級細節時力不從心，常導致編輯結果細節退化或內容不一致。
為此， UniLIP 提出了一種雙條件架構。該架構在查詢嵌入之外，額外引入 MLLM 的多模態隱藏狀態作為第二個條件，共同引導 DiT 的交叉注意力模塊。這有效地補充了缺失的像素級信息。這種設計成功地將復雜任務解耦：MLLM 專注于高級推理和意圖理解， DiT 則基于這套無損傳遞的、兼具高級語義與底層細節的豐富線索，進行高保真度的圖像合成。最終， UniLIP 在圖像生成與編輯任務上均實現了卓越性能。
實驗結果
模型架構
UniLIP 包括 1B 和 3B 兩個模型變體，它們分別由 InternVL3 (1B/2B) 與 SANA (0.6B/1.6B) 集成而來。在架構上， UniLIP 直接采用 InternVL3 的 InternViT 作為 CLIP 編碼器，并結合 DC-AE 的像素解碼器。連接器則設計為 6 層，結構與 LLM 保持一致，并使用了 256 個可學習查詢。
訓練數據
UniLIP 的生成數據來自 BLIP3-o ，包括 38M 的預訓練數據和 60k 的指令微調數據。 UniLIP 的編輯預訓練數據來自 GPT-Image-Edit-1.5M ，指令微調數據來自包含 46K 編輯數據的 ShareGPT-4o-Image 。
圖像重建

在 256x256 分辨率下， UniLIP 不僅超越了此前的量化方法，其更高的下采樣率也帶來了生成效率優勢。在 448x448 分辨率下，與使用擴散解碼器的 Emu2 相比， UniLIP 由于打開 CLIP 進行重建訓練取得顯著優勢。
多模態理解

UniLIP 可以直接替換 InternVL 的視覺編碼器在理解基準上進行測試。得益于重建訓練對原始能力的有效保持， UniLIP 實現了同規模最好的理解性能，并且超越了 Tar (7B) 和 VILA-U (7B) 等采用量化 CLIP 特征的更大模型。
圖像生成

在 GenEval (0.90) 和 WISE (0.63) 圖像生成基準上， UniLIP 憑借卓越的文圖對齊能力，不僅超越了同規模模型，還達到了與 BAGEL 等更大模型相當的水平。
圖像編輯

在 ImgEdit-Bench 圖像編輯基準上， UniLIP 以 3.94 的高分超越了 OmniGen2 等先進模型。其強大性能歸功于 UniLIP 特征的豐富細節與精準語義對齊能力。 UniLIP 創新的雙條件架構充分利用了這些特征，確保了編輯的精確性和非編輯區的一致性。
可視化結果

在生成任務中， UniLIP 可以生成美觀且嚴格遵循用戶提示的圖像；而在編輯任務中， UniLIP 可以在準確修改圖像的同時保持周圍區域的一致性。
結論
【RAE終極形態？北大&阿里提出UniLIP: CLIP拓展到重建、生成和編輯】通過精心設計的兩階段訓練與自蒸餾約束， UniLIP 有效解決了語義理解與像素細節保留的矛盾。此外，其創新的雙條件架構無縫連接了 MLLM 與擴散模型，確保了生成和編輯任務中的高保真度與一致性。 UniLIP 在多個基準上展示的卓越性能，為下一代統一多模態模型提供了新的范式。

推薦閱讀

上一篇：小紅書盯上了生活服務，目地其實很明確

下一篇：慧榮表示存儲供需缺口已達一倍：2027年才能緩解