反直覺!擴散模型「跨界」復原: 只用臥室模型,竟能復原人臉

反直覺!擴散模型「跨界」復原: 只用臥室模型,竟能復原人臉

文章圖片

反直覺!擴散模型「跨界」復原: 只用臥室模型,竟能復原人臉

文章圖片

反直覺!擴散模型「跨界」復原: 只用臥室模型,竟能復原人臉

文章圖片

反直覺!擴散模型「跨界」復原: 只用臥室模型,竟能復原人臉



自擴散模型提出以來 , 它不僅在圖像、視頻和音頻生成方面取得了優異效果 , 也正逐漸成為解決圖像復原、超分辨率、去模糊等逆問題的重要工具 。

這個領域長期以來普遍認為 , 作為先驗的擴散模型必須足夠強 , 且其訓練圖像分布需要與目標圖像分布高度匹配 。 因此 , 經典算法通常會采用在目標領域上充分訓練的擴散模型來進行圖像恢復 , 否則恢復質量往往會明顯下降 。

然而 , 近期來自羅格斯大學、杜克大學和密歇根大學的一項最新研究表明 , 即使是「弱」擴散先驗和完全不匹配的數據分布 , 也可以實現高質量圖像重建 。

這篇題為《Weak Diffusion Priors Can Still Achieve Strong Inverse-Problem Performance》的工作不僅展示了這種反直覺的實驗現象 , 還首次從理論和實驗層面解釋了這種「弱先驗依然有效」的機制 。



論文地址:https://arxiv.org/abs/2601.22443
一個反直覺的實驗:臥室擴散模型重構人臉


僅使用 3 步 DDIM 擴散模型作為先驗進行圖像重建:匹配先驗(上)與不匹配先驗(下)的對比 。 在底部左圖(或底部右圖)中 , 可以看到在臥室圖像(或人臉圖像)上訓練的擴散模型依然能夠重建人臉圖像(或臥室圖像) 。 從左到右展示的是優化迭代過程中不同階段的中間重建結果 。 「Reference」列表示干凈的真實圖像 , 「Measurement」列表示帶噪聲的觀測圖像 。

首先展示一組很有沖擊力的實驗 。 如上圖左下所示 , 在優化初始噪聲(initial noise optimization)的框架下 , 使用只在 LSUN-bedroom 數據集上訓練的 3 步 DDIM 擴散模型可以重構 CelebA-HQ 數據集中的人臉圖像 。

擴散模型在初始階段只能生成模糊的臥室圖像 , 但隨著優化不斷推進 , 原本只能生成臥室圖像的模型逐漸擺脫了低質量結果和「臥室結構」偏好 , 最終恢復出清晰且高質量的人臉圖像 。

同樣的 , 用只能生成人臉的擴散模型 , 也可以有效重建臥室圖像 。 可以從下面的動圖看到這個「臥室變臉」的過程 。



這個現象在 X 上也引發了討論 。 有網友感嘆道:「一個只用臥室圖片訓練的擴散模型竟然能生成人臉 , 真的太嚇人了!」



這些現象進一步引導團隊思考這樣一個問題:在擴散先驗較弱且訓練分布與目標分布不匹配的情況下 , 圖像復原成功的機制究竟是什么?

現實問題:強先驗并不總是存在

這樣的問題并不只是來自一些看起來「反直覺」的實驗結果 , 更有明確的實際背景 。 在實際應用中 , 并不總是有一個高質量和數據匹配的先驗模型:

內存和計算限制使得擴散模型步數被截斷; 醫學成像、遙感成像、科學成像等場景中 , 目標數據往往稀缺且分布特殊 , 很難專門訓練一個完全匹配的生成模型 。
這項研究旨在回答三個問題:

When(何時有效):弱 / 不匹配先驗在什么條件下仍能實現高質量重建? Why(內在機制): 這種超越分布的魯棒性源自何處? Limitations(失效邊界): 這種能力在何時會達到極限?
核心結論:重建常是觀測主導的

當觀測數據本身提供足夠充足的信息時 , 重建過程將由觀測驅動(observation-dominant)而非先驗驅動 。 因此 , 模型對先驗的強弱和匹配度表現出顯著的不敏感性 。

簡單來說 , 當觀測數據維度高、強可辨識性、有效像素數量多時 , 后驗分布會集中到真實解附近 , 即便先驗較弱 , 也不會顯著影響最終結果 。

這一觀點與傳統「先驗決定一切」的觀點形成鮮明對比 。

多任務實驗全面驗證

團隊在圖像復原(inpainting)、高斯去模糊(Gaussian debluring)、超分辨率(super-resolution)、非線性去模糊(nonlinear debluring)等經典圖像逆問題上進行了大量的實驗 , 采用的擴散模型和數據集包括 LSUN-bedroom、LSUN-church 和 CelebA-HQ 。

實驗結果顯示:

在優化初始噪聲的框架下 , 僅使用 3 步 DDIM 的弱先驗擴散模型在 PSNR、SSIM、LPIPS 等各項指標上超過使用 1000 步模型的 baseline 方法; 即使模型訓練數據領域與圖像重建目標領域完全不一樣 , 性能的下降也非常有限 , 甚至能夠超越領域一致和使用 1000 步模型的 baseline 方法 。

跨數據領域的圖像修復與超分辨率結果對比 。 「Model」表示擴散模型的訓練數據來源(即先驗的源領域) , 「CelebA」「Bedroom」「Church」表示被重建圖像的目標領域 。 需要說明的是 , baseline 方法 DPS 始終采用與目標數據一致的領域內模型 。

理論突破:從貝葉斯后驗集中 (Posterior Concentration) 解釋現象

為了理解這種現象 , 團隊從貝葉斯視角出發 , 基于高斯混合模型建立了一個高維逆問題的分析框架 , 在滿足一定的假設條件時:

后驗分布會以維度的指數級速度集中在最匹配的重建圖像附近; 當觀測數據維度足夠高、包含信息足夠充分時(例如觀測到的像素、邊緣、紋理多) , 即使非常不同的先驗分布 , 都會得到相似的重建圖像 。
另外 , 團隊在 LSUN-bedroom、LSUN-church 和 CelabA-HQ 等數據集上進行了數據模擬 , 證明了上述理論分析的假設在實際數據和問題中的有效性 。

弱先驗模型的失效邊界

值得注意的是 , 弱先驗并非萬能 , 團隊系統分析了其失敗場景 。 在觀測圖像信息不充分時 , 例如大面積連續遮擋(box inpainting)和極端超分辨率(16x super-resolution)這些低信息量任務中 , 重建圖像將重新變得由先驗主導(prior-dominant) , 在這種情況下強先驗依然重要 。

例如下圖最后一列 , 使用人臉模型重建的教堂圖像會出現明顯的人臉特征 。

【反直覺!擴散模型「跨界」復原: 只用臥室模型,竟能復原人臉】
上半部分:60% x 60% 連續遮擋;下半部分:16 倍超分辨率 。

結論

團隊系統地研究了弱先驗擴散模型在逆問題中的應用 , 從實驗和理論上證明了其有效性 , 并展示了其典型的失敗模式 , 指出了清晰的應用邊界 , 避免誤用 。

這項工作為社區帶來的啟示可能遠超算法本身:

在觀測數據信息充分的情況下 , 弱先驗比傳統認知中更有效 。 當使用者沒有一個非常匹配的強先驗時 , 可以使用弱先驗進行圖像重建; 在未來的研究中 , 研究者或將更多地關注弱先驗 , 特別是少步數擴散模型先驗的相關算法 , 同時考慮將初始噪聲優化和傳統算法結合 。
作者介紹

本文共同第一作者為羅格斯大學計算機系博士生賈婧、統計系博士生袁偉 。

其他作者包括杜克大學劉思繁、密歇根大學申荔月、羅格斯大學王冠揚 。

    推薦閱讀