欧美日韩国产一区二区|qovd片|小明个人发布看看|小浪货你夹真紧水又多|老头把我添高潮了A片故|99热久久精品国产一区二区|久久久春色AV

DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門


DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門

文章插圖

DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門

文章插圖
新晉圖像生成王者擴散模型,剛剛誕生沒多久 。
有關它的理論和實踐都還在“野蠻生長” 。
來自英偉達StyleGAN的原班作者們站了出來,嘗試給出了一些設計擴散模型的竅門和準則 , 結果模型的質量和效率都有所改進,比如將現有ImageNet-64模型的FID分數從2.07提高到接近SOTA的1.55分 。
DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門

文章插圖


他們這一工作成果迅速得到了業界大佬的認同 。
DeepMind研究員就稱贊道:這篇論文簡直就是訓練擴散模型的人必看,妥妥的一座金礦 。
我們從以下幾個方面來看StyleGAN作者們對擴散模型所做的三大貢獻:
用通用框架表示擴散模型
在這部分 , 作者的貢獻主要為從實踐的角度觀察模型背后的理論,重點關注出現在訓練和采樣階段的“有形”對象和算法,更好地了解了組件是如何連接在一起的 , 以及它們在整個系統的設計中可以使用的自由度(degrees of freedom) 。
精華就是下面這張表:
DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門

文章插圖


該表給出了在他們的框架中復現三種模型的確定變體的公式 。
(這三種方法(VP、VE、iDDPM+ DDIM)不僅被廣泛使用且實現了SOTA性能,還來自不同的理論基礎 。)
這些公式讓組件之間原則上沒有隱含的依賴關系,在合理范圍內選擇任意單個公示都可以得出一個功能模型 。
隨機采樣和確定性采樣的改進
作者的第二組貢獻涉及擴散模型合成圖像的采樣過程 。
他們確定了最佳的時間離散化(time discretization),對采樣過程應用了更高階的Runge–Kutta方法,并在三個預訓練模型上評估不同的方法 , 分析了隨機性在采樣過程中的有用性 。
結果在合成過程中所需的采樣步驟數量顯著減少,改進的采樣器可以用作幾個廣泛使用的擴散模型的直接替代品 。
先看確定性采樣 。用到的三個測試模型還是上面的那三個,來自不同的理論框架和模型族 。
作者首先使用原始的采樣器(sampler)實現測量這些模型的基線結果,然后使用表1中的公式將這些采樣方法引入他們的統一框架,再進行改進 。
接著根據在50000張生成圖像和所有可用真實圖像之間計算的FID分數來評估質量 。
DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門

文章插圖


可以看到 , 原始的的確定性采樣器以藍色顯示,在他們的統一框架(橙色)中重新實現這些方法會產生類似或更好的結果 。
作者解釋,這些差異是由于原始實現中的某些疏忽,加上作者對離散噪聲級的處理更仔細造成的 。
確定性采樣好處雖然多,但與每一步都向圖像中注入新噪聲的隨機采樣相比,它輸出的圖像質量確實更差 。
不過作者很好奇,假設ODE(常微分方程)和SDE(隨機微分方程)在理論上恢復相同的分布,隨機性的作用到底是什么?
在此他們提出了一種新的隨機采樣器,它將現有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結合 。
最終模型性能提升顯著,而且僅通過對采樣器的改進,就能夠讓ImageNet-64模型原來的FID分數從2.07提高到1.55,接近SOTA水平 。
DeepMind谷歌研究員力薦:擴散模型效率&生成質量提升竅門

文章插圖


預處理和訓練

相關經驗推薦