大模型推理是更大的“電老虎”，不過研究人員找到了馴服它的方法

2026-04-26 iqoo neo9s p

文章圖片

文章圖片

AI大模型的訓練階段通常被認為是能源消耗最高的階段。在此階段，訓練諸如GPT系列的大模型需要大量的數據集進行訓練，并通過調整其參數來使預測輸出與目標輸出盡可能一致。
雖然大模型訓練階段的能耗很高，但有證據表明，大模型推理調用頻率遠高于訓練，導致推理階段的能耗可能更高，成為更大的“電老虎” 。
大模型推理能耗更高
隨著大模型的快速發展，與之相關的能源消耗也在快速增長。在訓練階段，大模型就是“電老虎” 。
Hugging Face曾透露其BLOOM 大模型在訓練期間消耗了433兆瓦時（MWh）的電力。而其他大模型，如GPT-3、Gopher和OPT ，在訓練期間分別消耗了1287、1066和324 MWh的電力。這些模型都在TB級別的數據上進行訓練，并具有1750億個或更多參數。
這些能源消耗的數據看起來確實很驚人，但是大模型訓練通常只需要幾個月的時間，只有集中訓練期間對能源的消耗比較大。一旦模型訓練完畢，則會進入部署應用階段，也就所謂的推理階段。
然而研究表明，推理階段，即模型在實際應用中生成輸出（例如， ChatGPT的回復用戶查詢），也可能消耗大量的能源，甚至可能高于訓練階段。
2023年2月，半導體分析機構SemiAnalysis曾估計， OpenAI需要3617臺NVIDIA的HGX A100服務器（共28936個GPU）來支持ChatGPT ，這意味著每天的能耗為564 MWh ，用于處理約2億個用戶請求。相比GPT-3訓練階段估計使用的1287 MWh ，推理階段的能源需求明顯要高得多。

SemiAnalysis同樣預估，如果將類似ChatGPT的AI整合到每一次谷歌搜索中，可能需要512821臺NVIDIA的HGX A100服務器，如果按照每臺服務6.5 kW 功率計算，每天能耗要達到80 GWh ，年能源消耗量達到 29.2 TWh 。
這些預估數據表明，這種谷歌搜索全面轉向AI搜索，可能會使谷歌年用電量增加到與整個愛爾蘭的用電量相當。
大模型推理過程中能源消耗影響因素
現在，這些大模型開始在各個領域廣泛應用，一個日益緊迫的問題也浮出水面：這些大模型在實際推理過程中需要消耗多少能源？其能源成本是否可持續？
最近，麻省理工學院（MIT）等機構的研究人員進行了一項深入的研究，旨在量化分析大語言模型推理的能源成本。
研究以Meta AI的LLaMA模型為對象，在不同的硬件（NVIDIA V100和A100 GPU）和數據集（Alpaca和GSM8K）上進行了實驗。
研究評估了不同大小的LLaMA模型（7B ， 13B和65B）在最低硬件配置下的推理性能和能耗。此外，還深入分析了LLaMA 65B模型在多GPU和多節點環境下的分布式推理性能，以及不同的批處理大小和分片數量對能源消耗的影響。研究的評估指標包括：每秒字數、每秒token數、每秒響應數、GPU利用率、能源消耗（焦耳），以及每秒能源消耗（瓦特）、每個token能源消耗和每個響應能源消耗。

研究發現， A100 GPU 在推理性能上明顯優于 V100 GPU ，尤其是在較小的 LLaMA 模型（7B 和 13B）上，推理速度提升了 1.25 到 2 倍。但在相同的模型大小下，使用 A100 GPU 的能耗也顯著增加，尤其是在 LLaMA 7B 模型上。因此，推理階段，選擇GPU類型需要權衡性能和能耗。

同時，就像汽車排量越大越耗油一樣，模型越大推理也越“耗電” 。研究發現，對于 LLaMA 65B 這樣的大模型，通常需要進行分布式推理，但是隨著分片數量的增加，推理的能耗也隨之增加。
【大模型推理是更大的“電老虎”，不過研究人員找到了馴服它的方法】

那么如何才能降低大模型的能耗呢？
研究人員測試了GPU功耗限制（power capping）對LLaMA 65B模型推理時間、能耗和token生成速率的影響。研究發現，通過降低GPU的功耗上限，可以大幅度減少推理過程中的能源消耗，但這可能會導致推理時間的略微增加。
例如，研究團隊將功耗限制從250W降至175W ，可以實現平均23.21%的能耗降低，同時推理時間僅平均增加約6.7% 。而如果大幅度降低功耗限制，例如從250W降至150W ，推理時間則顯著增加，平均增幅約 19.49% 。
最新研究具有較強的實際意義。在實際部署大模型時，數據中心可以根據不同的工作負載和性能需求，動態調整GPU類型以及控制功耗上限，從而降低運營成本和環境影響。

推薦閱讀

上一篇：大疆取消美國電子圍欄，為何把控制權交回給操作員，引發美國爭議

下一篇：三星 Galaxy S26 超前瞻：告別慢充，又多一個再等一年的理由