何愷明團隊新作：擴散模型可能被用錯了

2026-04-19 柳州新能源

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

聞樂發自凹非寺
量子位 | 公眾號 QbitAI
何愷明又一次返璞歸真。
最新論文直接推翻擴散模型的主流玩法——不讓模型預測噪聲，而是直接畫干凈圖。

如果你熟悉何愷明的作品，會發現這正是他創新的典型路徑，不提出更復雜的架構，而是把問題拆回最初的樣子，讓模型做它最擅長的那件事。
實際上，擴散模型火了這么多年，架構越做越復雜，比如預測噪聲、預測速度、對齊latent、堆tokenizer、加VAE、加perceptual loss……
但大家似乎忘了，擴散模型原本就是去噪模型。
現在這篇新論文把這件事重新擺上桌，既然叫denoising模型，那為什么不直接denoise？
于是，在ResNet、MAE等之后，何愷明團隊又給出了一個“大道至簡”的結論：擴散模型應該回到最初——直接預測圖像。
擴散模型可能被用錯了當下的主流擴散模型，雖然設計思想以及名為“去噪” ，但在訓練時，神經網絡預測的目標往往并不是干凈的圖像，而是噪聲，或者是一個混合了圖像與噪聲的速度場。
實際上，預測噪聲和預測干凈圖差得很遠。
根據流形假設，自然圖像是分布在高維像素空間中的低維流形上的，是有規律可循的干凈數據；而噪聲則是均勻彌散在整個高維空間中的，不具備這種低維結構。

簡單理解就是，把高維像素空間想象成一個巨大的3D房間，而干凈的自然圖像其實都擠在房間里的一塊2D屏幕上。這就是流形假設——自然數據看著維度高，實則集中在一個低維的「曲面（流形）」上。
但噪聲不一樣。它是彌漫在整個3D房間里的雪花點，不在屏幕上；而速度場也一樣，一半在屏上、一半在屏外，同樣也脫離了「流形」的規律。
這就導致了一個核心矛盾，在處理高維數據時，例如將圖像切分為16x16甚至32x32的大Patch ，要求神經網絡去擬合無規律的高維噪聲，需要極大的模型容量來保留所有信息，這很容易導致模型訓練崩潰。
而相反呢，如果讓網絡直接預測干凈的圖像，本質上就是讓網絡學習如何將噪點投影回低維流形，這對于網絡容量的要求要低得多，也更符合神經網絡“過濾噪聲、保留信號”的原本設計。

于是，這篇文章提出了一個極簡的架構JiT——Just image Transformers 。
正如其名，這就是一個純粹處理圖像的Transformer ，它的設計非常簡單。沒有像普遍的擴散模型一樣使用VAE壓縮潛空間，也沒有設計任何Tokenizer ，不需要CLIP或DINO等預訓練特征的對齊，也不依賴任何額外的損失函數。
完全從像素開始，用一個純粹Transformer去做denoise 。
JiT就像一個標準的ViT ，它將原始像素切成大Patch（維度可高達3072維甚至更高）直接輸入，唯一的改動就是將輸出目標設定為直接預測干凈的圖像塊。

實驗結果顯示，在低維空間下，預測噪聲和預測原圖的表現難分伯仲；但一旦進入高維空間，傳統的預測噪聲模型徹底崩潰， FID（越低越優）指數級飆升，而直接預測原圖JiT卻依然穩健。

模型的擴展能力也很出色。即使將patch尺寸擴大到64x64 ，讓輸入維度高達一萬多維，只要堅持預測原圖，無需增加網絡寬度也能實現高質量生成。

團隊甚至發現，在輸入端人為引入瓶頸層進行降維，不僅不會導致模型失效，反而因為契合了流形學習過濾噪聲的本質，進一步提升了生成質量。
這種極簡架構在不依賴任何復雜組件或預訓練的情況下，在ImageNet 256x256和512x512上達到了1.82和1.78的SOTA級FID分數。

作者介紹這篇論文的一作是何愷明的開門弟子之一黎天鴻，本科畢業于清華姚班，在MIT獲得了碩博學位之后，目前在何愷明組內從事博士后研究。

他的主要研究方向是表征學習、生成模型以及兩者之間的協同作用。目標是構建能夠理解人類感知之外的世界的智能視覺系統。
此前曾作為一作和何愷明開發了自條件圖像生成框架RCG ，團隊最新的多項研究中他也都有參與。

也可以說這是一位酷愛湖南菜的學者，把菜譜都展示在了自己的主頁上。

【何愷明團隊新作：擴散模型可能被用錯了】論文地址：https://arxiv.org/abs/2511.13720
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：為何B站在AI上比快手字節慢半拍？

下一篇：有望比X6更便宜！華為MateX7開啟預定，配置全方位升級