預測下一個像素還需要幾年?谷歌:五年夠了

預測下一個像素還需要幾年?谷歌:五年夠了

文章圖片

預測下一個像素還需要幾年?谷歌:五年夠了

文章圖片

預測下一個像素還需要幾年?谷歌:五年夠了

機器之心報道
機器之心編輯部
既然語言可以當序列來學 , 那圖像能不能也當序列來學?
通過將圖像表示為像素序列 , 先前的研究表明通過下一像素預測 , 可以以一種簡單、端到端的方式同時學習視覺識別與生成 。
從概念上講 , 下一像素預測非常容易擴展 , 因為它是無監督學習:無需任何人工標注 。 同時 , 將圖像表示為像素序列 , 也對圖像結構施加了最少的歸納偏置 。
然而 , 盡管像素級端到端建模在早期被證明是可行的 , 但這一范式近年來卻不再流行 。
其主要原因在于出現了計算效率更高的方法 , 例如:使用視覺 tokenizer 進行 patch 級別學習 。
盡管研究重心已經發生轉移 , 但一個簡單卻極其關鍵的問題仍未被回答:我們距離真正大規模擴展下一像素預測 , 還有多遠?
不可否認 , 相比自然語言中的下一詞預測 , 下一像素預測要困難得多 , 主要有以下幾點原因:
首先 , 像素的語義信息極低 。 一個句子里的詞通常包含豐富含義 , 而一個像素只是一點顏色信息 , 兩者差距巨大 。 其次 , 像素之間的空間關系非常復雜 , 不容易用序列方式來表示 。 一個像素的顏色不僅受到周圍鄰域像素的影響 , 還受到圖像中那些與它不相鄰的物體和結構的影響 。 第三 , 隨著圖像分辨率升高 , 下一像素預測的計算量會急劇增加 。 例如 , 要生成一張 128 × 128 的圖片 , 一個自回歸模型必須逐個預測 16384 個像素 , 一步都不能少 。在這篇論文中 , 來自 Google DeepMind 的研究者分析了下一像素預測在圖像識別與圖像生成兩類任務中的擴展特性(scaling properties) 。
本文首先在固定的 32×32 像素分辨率下開展研究 , 在這一分辨率下 , 圖像已開始呈現清晰的結構與可辨識的物體交互 , 因此可被視為對原生高分辨率圖像的一種有意義的近似 。
實驗基于下一像素預測損失進行了初始 scaling 實驗 。 如圖 1 (a) 所示 , 結果表明:相較于文本 token , 原始像素的學習需要顯著更高(10–20 倍)的最優 token-parameter 比例 。 更具體地 , 要實現計算最優平衡 , 像素模型所需的 token-per-parameter 至少比語言模型高一個數量級(約 400 vs. 20) 。
這一初步發現促使研究者進一步深入三個核心問題 。 第一 , 我們如何可靠地評估這些模型的性能 , 尤其是在較低分辨率下(低分辨率便于開展大量實驗)?第二 , 基于下一像素預測損失得出的 scaling 規律 , 是否與更有意義的下游任務(如分類與圖像補全)的 scaling 行為一致?第三 , 不同圖像分辨率下的 scaling 趨勢會如何變化?
為回答這些問題 , 本文圍繞三類指標進行了系列可控實驗 。
在固定的 32×32 分辨率下 , 實驗結果(見圖 1 (b))顯示:最優的 scaling 策略高度依賴目標任務 , 其中圖像生成質量需要比分類任務或下一像素預測任務更大的 token-parameter 比例 。 此外 , 這些 scaling 動態并非靜態不變;對 16×16 與 64×64 等不同分辨率的研究顯示:隨著分辨率提升 , 模型規模的增長必須顯著快于數據規模的增長 。
最后 , 鑒于訓練算力正以每年四到五倍的速度增長 , 本文預測逐像素建模方式在未來五年內將變得可行 。

論文標題:Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction? 論文地址:https://arxiv.org/pdf/2511.08704方法介紹
本文從 32×32 分辨率的圖像出發 , 在多種 IsoFlops(等算力)配置下訓練了一系列 Transformer 模型 , 最大計算量達到 7e19 FLOPs , 并從三個不同指標對其性能進行評估:下一像素預測目標、ImageNet 分類準確率以及以 Fréchet Distance 衡量的生成質量 。 結果發現:
首先 , 最佳擴展策略強烈依賴任務類型:即使在固定的 32×32 分辨率下 , 分類任務與生成任務的最優 scaling 需求也完全不同 , 其中生成任務要達到最優效果所需的數據規模增長速度是分類任務的三到五倍 。 其次 , 隨著圖像分辨率的提升 , 最優 scaling 策略顯示模型規模必須比數據規模增長得更快 。 更令人意外的是 , 根據趨勢外推 , 像素級模型的主要瓶頸并不是訓練數據 , 而是計算量 。本文采用 Transformer 架構進行研究 , 共四種規模 , 參數從 2800 萬到 4.49 億不等 。 Transformer 架構的詳細信息列在表 1 中 。

本文在 JFT-300M 數據集上進行預訓練 , 該數據集包含 3 億張多樣化圖像 , 規模是 ImageNet ILSVRC 2012 訓練集的 10 倍以上 。 在分辨率為 32×32 的條件下 , 對數據集完整遍歷一遍相當于處理超過 3000 億個像素 。 訓練過程采用標準的 Inception 風格隨機裁剪 , 并以 50% 概率進行水平翻轉 。
在評估上 , 本文進行了兩種評估方式 , 即圖像分類和圖像補全 。
實驗及結果
像素是否遵循與文本相同的規律?
答案是肯定的:對原始像素預測的擴展趨勢與文本類似、可預測 , 但效率要低得多 。 由于單個像素所攜帶的語義信息遠少于語言 token , 本文估計模型在學習原始像素時 , 需要比語言模型多 10–20 倍的 token-per-parameter 才能達到有效學習 。

【預測下一個像素還需要幾年?谷歌:五年夠了】本文進一步計算了在不同訓練 FLOPs 下的最優 token-per-parameter 比例 , 并與典型語言模型進行比較 。 如圖 1 (a) 所示 , 即便在超過 10^21 FLOPs 的訓練預算下 , 學習原始像素仍然需要比語言 token 多 10–20 倍的數據量 。
這表明 , 即便在低分辨率 32×32 圖像中 , 單個像素的語義信息密度仍遠低于語言 token , 后者本身就是一種壓縮且意義集中的信息單位 。 例如 , cat 這個詞是高度壓縮的符號 , 攜帶著大量抽象信息:它是一種動物 , 有毛 , 會喵叫 , 有胡須 。 而單個像素本身幾乎不包含語義 , 因為它的顏色值可能同時對應貓、汽車或天空的一部分 。

總的來說 , 實驗結果顯示 , 下一像素預測的最優擴展趨勢的確可以通過語言模型中已成熟的 scaling 框架進行預測 。
最優 scaling 是否能直接遷移到下游任務?
答案是不行 , 至少不是以一種簡單方式 。 在固定的 32×32 分辨率下 , 由下一像素預測損失得到的最優擴展策略對圖像生成來說并非最優 。 具體而言 , 要獲得良好的生成質量 , 需要一種更加數據驅動的 scaling 方式 , 即數據規模的增長速度必須明顯快于模型規模的增長速度 。
不同任務的最優 scaling 存在顯著差異 。 如圖 1 (b) 所示 , 基于獨立 IsoFlops 配置得到的最優 token-to-parameter 比例在下一像素預測損失、ImageNet 分類 top-1 準確率以及基于圖像補全的 Fréchet Distance 之間存在明顯差別 。
隨著圖像分辨率提升 , 最優 scaling 會改變嗎?
答案是會的 。 隨著圖像分辨率的提高 , 最優擴展策略從在 32×32 分辨率下對模型規模與數據規模的平衡 , 轉變為在更高分辨率下明顯偏向更大的模型 , 而非更多的數據 。
圖像分類 vs. 圖像生成 。 正如圖 4 (a) 和圖 4 (c) 所一致展示的 , 在更高分辨率下訓練模型能夠提升下游任務表現 。
對于圖像分類 , 從 16×16 切換到 32×32 時能夠帶來明顯提升 , 但在 FLOPs 超過 1e20 的情況下 , 從 32×32 增加到 64×64 僅帶來輕微改進 。 這表明:對于 ImageNet 分類任務 , 在 32×32 之后 , 進一步提升分辨率的收益趨于減弱 。
相比之下 , 對于圖像生成 , 32×32 附近的 scaling 趨勢并未飽和 , 將分辨率從 32×32 提升至 64×64 能帶來顯著改進 。 直觀來看 , 分辨率提高后 , 單像素的信息密度下降 , 但像素之間的視覺結構變得更復雜、更真實 。 抽象語義在低分辨率即可有效捕獲 , 而細粒度紋理則需要更高分辨率 。

我們距離原始下一像素預測還有多遠?
目前由于巨大的計算成本而難以實際執行 , 但逐像素建模在未來五年內仍是一條可行路徑 , 并能達到具有競爭力的性能 。 其主要瓶頸是計算量 , 而不是訓練數據的可獲得性 。 本文預計在未來五年內 , 基于原始像素的學習將成為一條可行的發展方向 。

    推薦閱讀