大模型推理是更大的“電老虎”,不過研究人員找到了馴服它的方法

大模型推理是更大的“電老虎”,不過研究人員找到了馴服它的方法

文章圖片

大模型推理是更大的“電老虎”,不過研究人員找到了馴服它的方法

文章圖片

大模型推理是更大的“電老虎”,不過研究人員找到了馴服它的方法

AI大模型的訓練階段通常被認為是能源消耗最高的階段 。 在此階段 , 訓練諸如GPT系列的大模型需要大量的數據集進行訓練 , 并通過調整其參數來使預測輸出與目標輸出盡可能一致 。
雖然大模型訓練階段的能耗很高 , 但有證據表明 , 大模型推理調用頻率遠高于訓練 , 導致推理階段的能耗可能更高 , 成為更大的“電老虎” 。
大模型推理能耗更高
隨著大模型的快速發展 , 與之相關的能源消耗也在快速增長 。 在訓練階段 , 大模型就是“電老虎” 。
Hugging Face曾透露其BLOOM 大模型在訓練期間消耗了433兆瓦時(MWh)的電力 。 而其他大模型 , 如GPT-3、Gopher和OPT , 在訓練期間分別消耗了1287、1066和324 MWh的電力 。 這些模型都在TB級別的數據上進行訓練 , 并具有1750億個或更多參數 。
這些能源消耗的數據看起來確實很驚人 , 但是大模型訓練通常只需要幾個月的時間 , 只有集中訓練期間對能源的消耗比較大 。 一旦模型訓練完畢 , 則會進入部署應用階段 , 也就所謂的推理階段 。
然而研究表明 , 推理階段 , 即模型在實際應用中生成輸出(例如 , ChatGPT的回復用戶查詢) , 也可能消耗大量的能源 , 甚至可能高于訓練階段 。
2023年2月 , 半導體分析機構SemiAnalysis曾估計 , OpenAI需要3617臺NVIDIA的HGX A100服務器(共28936個GPU)來支持ChatGPT , 這意味著每天的能耗為564 MWh , 用于處理約2億個用戶請求 。 相比GPT-3訓練階段估計使用的1287 MWh , 推理階段的能源需求明顯要高得多 。

SemiAnalysis同樣預估 , 如果將類似ChatGPT的AI整合到每一次谷歌搜索中 , 可能需要512821臺NVIDIA的HGX A100服務器 , 如果按照每臺服務6.5 kW 功率計算 , 每天能耗要達到80 GWh , 年能源消耗量達到 29.2 TWh 。
這些預估數據表明 , 這種谷歌搜索全面轉向AI搜索 , 可能會使谷歌年用電量增加到與整個愛爾蘭的用電量相當 。
大模型推理過程中能源消耗影響因素
現在 , 這些大模型開始在各個領域廣泛應用 , 一個日益緊迫的問題也浮出水面:這些大模型在實際推理過程中需要消耗多少能源?其能源成本是否可持續?
最近 , 麻省理工學院(MIT)等機構的研究人員進行了一項深入的研究 , 旨在量化分析大語言模型推理的能源成本 。
研究以Meta AI的LLaMA模型為對象 , 在不同的硬件(NVIDIA V100和A100 GPU)和數據集(Alpaca和GSM8K)上進行了實驗 。
研究評估了不同大小的LLaMA模型(7B , 13B和65B)在最低硬件配置下的推理性能和能耗 。 此外 , 還深入分析了LLaMA 65B模型在多GPU和多節點環境下的分布式推理性能 , 以及不同的批處理大小和分片數量對能源消耗的影響 。 研究的評估指標包括:每秒字數、每秒token數、每秒響應數、GPU利用率、能源消耗(焦耳) , 以及每秒能源消耗(瓦特)、每個token能源消耗和每個響應能源消耗 。

研究發現 , A100 GPU 在推理性能上明顯優于 V100 GPU , 尤其是在較小的 LLaMA 模型(7B 和 13B)上 , 推理速度提升了 1.25 到 2 倍 。 但在相同的模型大小下 , 使用 A100 GPU 的能耗也顯著增加 , 尤其是在 LLaMA 7B 模型上 。 因此 , 推理階段 , 選擇GPU類型需要權衡性能和能耗 。



同時 , 就像汽車排量越大越耗油一樣 , 模型越大推理也越“耗電” 。 研究發現 , 對于 LLaMA 65B 這樣的大模型 , 通常需要進行分布式推理 , 但是隨著分片數量的增加 , 推理的能耗也隨之增加 。
【大模型推理是更大的“電老虎”,不過研究人員找到了馴服它的方法】


那么如何才能降低大模型的能耗呢?
研究人員測試了GPU功耗限制(power capping)對LLaMA 65B模型推理時間、能耗和token生成速率的影響 。 研究發現 , 通過降低GPU的功耗上限 , 可以大幅度減少推理過程中的能源消耗 , 但這可能會導致推理時間的略微增加 。
例如 , 研究團隊將功耗限制從250W降至175W , 可以實現平均23.21%的能耗降低 , 同時推理時間僅平均增加約6.7% 。 而如果大幅度降低功耗限制 , 例如從250W降至150W , 推理時間則顯著增加 , 平均增幅約 19.49% 。
最新研究具有較強的實際意義 。 在實際部署大模型時 , 數據中心可以根據不同的工作負載和性能需求 , 動態調整GPU類型以及控制功耗上限 , 從而降低運營成本和環境影響 。

    推薦閱讀