何愷明團隊新作:擴散模型可能被用錯了

何愷明團隊新作:擴散模型可能被用錯了

文章圖片

何愷明團隊新作:擴散模型可能被用錯了

文章圖片

何愷明團隊新作:擴散模型可能被用錯了

文章圖片

何愷明團隊新作:擴散模型可能被用錯了

文章圖片

何愷明團隊新作:擴散模型可能被用錯了

文章圖片


聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
何愷明又一次返璞歸真 。
最新論文直接推翻擴散模型的主流玩法——不讓模型預測噪聲 , 而是直接畫干凈圖 。

如果你熟悉何愷明的作品 , 會發現這正是他創新的典型路徑 , 不提出更復雜的架構 , 而是把問題拆回最初的樣子 , 讓模型做它最擅長的那件事 。
實際上 , 擴散模型火了這么多年 , 架構越做越復雜 , 比如預測噪聲、預測速度、對齊latent、堆tokenizer、加VAE、加perceptual loss……
但大家似乎忘了 , 擴散模型原本就是去噪模型 。
現在這篇新論文把這件事重新擺上桌 , 既然叫denoising模型 , 那為什么不直接denoise?
于是 , 在ResNet、MAE等之后 , 何愷明團隊又給出了一個“大道至簡”的結論:擴散模型應該回到最初——直接預測圖像 。
擴散模型可能被用錯了當下的主流擴散模型 , 雖然設計思想以及名為“去噪” , 但在訓練時 , 神經網絡預測的目標往往并不是干凈的圖像 , 而是噪聲 ,或者是一個混合了圖像與噪聲的速度場 。
實際上 , 預測噪聲和預測干凈圖差得很遠 。
根據流形假設 , 自然圖像是分布在高維像素空間中的低維流形上的 , 是有規律可循的干凈數據;而噪聲則是均勻彌散在整個高維空間中的 , 不具備這種低維結構 。

簡單理解就是 , 把高維像素空間想象成一個巨大的3D房間 , 而干凈的自然圖像其實都擠在房間里的一塊2D屏幕上 。 這就是流形假設——自然數據看著維度高 , 實則集中在一個低維的「曲面(流形)」上 。
但噪聲不一樣 。 它是彌漫在整個3D房間里的雪花點 , 不在屏幕上;而速度場也一樣 , 一半在屏上、一半在屏外 , 同樣也脫離了「流形」的規律 。
這就導致了一個核心矛盾 , 在處理高維數據時 , 例如將圖像切分為16x16甚至32x32的大Patch , 要求神經網絡去擬合無規律的高維噪聲 , 需要極大的模型容量來保留所有信息 , 這很容易導致模型訓練崩潰 。
而相反呢 , 如果讓網絡直接預測干凈的圖像 , 本質上就是讓網絡學習如何將噪點投影回低維流形 , 這對于網絡容量的要求要低得多 , 也更符合神經網絡“過濾噪聲、保留信號”的原本設計 。

于是 , 這篇文章提出了一個極簡的架構JiT——Just image Transformers 。
正如其名 , 這就是一個純粹處理圖像的Transformer , 它的設計非常簡單 。 沒有像普遍的擴散模型一樣使用VAE壓縮潛空間 , 也沒有設計任何Tokenizer , 不需要CLIP或DINO等預訓練特征的對齊 , 也不依賴任何額外的損失函數 。
完全從像素開始 , 用一個純粹Transformer去做denoise 。
JiT就像一個標準的ViT , 它將原始像素切成大Patch(維度可高達3072維甚至更高)直接輸入 , 唯一的改動就是將輸出目標設定為直接預測干凈的圖像塊 。

實驗結果顯示 , 在低維空間下 , 預測噪聲和預測原圖的表現難分伯仲;但一旦進入高維空間 , 傳統的預測噪聲模型徹底崩潰 , FID(越低越優)指數級飆升 , 而直接預測原圖JiT卻依然穩健 。

模型的擴展能力也很出色 。 即使將patch尺寸擴大到64x64 , 讓輸入維度高達一萬多維 , 只要堅持預測原圖 , 無需增加網絡寬度也能實現高質量生成 。

團隊甚至發現 , 在輸入端人為引入瓶頸層進行降維 , 不僅不會導致模型失效 , 反而因為契合了流形學習過濾噪聲的本質 , 進一步提升了生成質量 。
這種極簡架構在不依賴任何復雜組件或預訓練的情況下 , 在ImageNet 256x256和512x512上達到了1.82和1.78的SOTA級FID分數 。

作者介紹這篇論文的一作是何愷明的開門弟子之一黎天鴻 , 本科畢業于清華姚班 , 在MIT獲得了碩博學位之后 , 目前在何愷明組內從事博士后研究 。

他的主要研究方向是表征學習、生成模型以及兩者之間的協同作用 。 目標是構建能夠理解人類感知之外的世界的智能視覺系統 。
此前曾作為一作和何愷明開發了自條件圖像生成框架RCG , 團隊最新的多項研究中他也都有參與 。

也可以說這是一位酷愛湖南菜的學者 , 把菜譜都展示在了自己的主頁上 。

【何愷明團隊新作:擴散模型可能被用錯了】論文地址:https://arxiv.org/abs/2511.13720
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀