AI狂燒電,數據中心告急

AI狂燒電,數據中心告急

文章圖片

AI狂燒電,數據中心告急

文章圖片

AI狂燒電,數據中心告急

一邊是激增的算力需求 , 一邊是緊繃的電力供應 。
數據中心面臨一段時間的電力供應限制 , 這將影響其增長及其所提供的IT服務的增長 。 低功耗IT設備將有所幫助 , 但人工智能所需的GPU耗電量遠高于X86服務器 。 超大規模數據中心可以構建自己的數據中心發電機 , 但其余數據中心則依賴于國家電網 , 而這些電網是發展緩慢的系統 , 這意味著企業和消費者IT服務的增長將面臨限制 , 因為IT服務需求將超過電力供應的增長 。
數據中心市場持續增長 。 Dell'Oro Group 的研究顯示 , 數據中心物理基礎設施 (DCPI) 市場在 2025 年第一季度同比增長 17% 。 這標志著其連續第四個季度實現兩位數增長 , 這得益于超大規模數據中心運營商和主機托管服務提供商的持續投資 , 他們正在擴建數據中心容量 , 以滿足人工智能 (AI) 工作負載的需求 。 研究指出 , 液冷技術的采用率激增(DLC 收入翻了一番) , 高密度電源機架接近 600 千瓦 , 以及母線槽等配電系統的增長率超過 40% 。
雖然所有地區都實現了增長 , 但北美地區以23%的同比增長率領跑其他地區 。 美國能源部的一份報告發現 , 2023年數據中心消耗的電力約占美國總電力的4.4% , 預計到2028年將占美國總電力的6.7%至12% 。 報告指出 , 數據中心的總用電量從2014年的58太瓦時攀升至2023年的176太瓦時 , 預計到2028年將增長至325太瓦時至580太瓦時 。

Dell'Oro 集團研究總監 Alex Cordovil Araujo 表示:“向加速計算的轉變正在重塑數據中心格局 。 人工智能不僅僅是順風 , 更是推動新基礎設施范式需求的結構性力量 。 液體冷卻技術正在快速發展 , 高密度電源架構也在快速演變 , 預計機架功率將很快達到 600 kW , 而 1 MW 配置已在考慮之中 。 ”
其《2025 年 1 月數據中心 IT 資本支出 5 年預測報告》稱 , 預計到 2029 年全球數據中心資本支出的復合年增長率將達到 21% 。 到 2029 年 , 用于 AI 訓練和特定領域工作負載的加速服務器可能占數據中心基礎設施支出的近一半 。
Dell'Oro Group 預測 , 到 2029 年 , 全球數據中心資本支出預計將超過 1 萬億美元 。 盡管持續推進可持續發展 , 但 AI 基礎設施支出仍將保持強勁增長勢頭 。 該公司認為:“為支持 AI 和 ML 工作負載而興起的加速計算已成為 DCPI 市場的主要驅動力 , 這顯著提高了數據中心的電源和熱管理需求 。 例如 , 目前平均機架功率密度約為 15 kW/機架 , 但 AI 工作負載需要 60 至 120 kW/機架才能支持近距離的加速服務器 。 雖然機架功率密度的躍升將觸發配電方面的創新和產品開發 , 但熱管理方面正在發生更大的變革——從風冷到液冷的轉變 。 ”

這些新建的數據中心需要電力供應 , 而國家電網系統正成為電力供應的瓶頸 。 目前 , 數據中心的用電量約占全球電力消耗的3% , 到2030年 , 這一比例可能會翻一番 , 這將帶來嚴重的發電和供電問題 , 以及環境影響問題 。
從某種意義上說 , 我們不受能源生產的制約 , 因為我們擁有石油、天然氣和燃煤發電站 , 還有核能、水力發電、風能和太陽能發電 。 然而 , 煤炭、石油和天然氣發電(這三種化石燃料)會危害環境 , 而煤炭在這方面最為嚴重 。 發電趨勢是逐步淘汰燃煤發電站 , 石油和天然氣發電站的淘汰程度較輕 , 而可再生能源、風能和太陽能則將占據主導地位 。 它們都可以擴建 , 而水力發電則受到場地可用性的限制 。 由于輻射和核燃料污染及處置問題 , 核能發電受到限制 , 但隨著小型模塊化反應堆發揮作用 , 核能發電正顯示出復蘇的跡象 。 Pure International 首席技術官 Alex McMullan 表示 , 三大超大規模企業的能耗超過 60TWh , 現在都擁有(或正在擁有)自己的核電站 。
然而 , 即使能夠產生足夠的電力 , 其輸送也會帶來新的問題 。 國家電網將發電站點與耗電站點(例如數據中心)連接起來 。 這些電網為企業和家庭用戶、大型和小型消費者供電 , 必須保持供需平衡 。 由于數百萬消費者遵循晝夜活動規律 , 總體需求在白天上升 , 在夜間下降 。 由于風速可能增強或減弱 , 可再生能源可能會出現供不應求的情況 , 而太陽能發電只能在白天供應 。

在此背景下 , 電網運營商必須平衡供需 , 開啟或關閉發電 , 并控制發電機與電網的連接 。 這并非一項簡單的操作 , 2025年西班牙電網故障就證明了這一點 。
他們還必須升級電網布線和交換/變電基礎設施 , 以應對一年來的需求變化 , 包括新建電纜、建造和部署新的核心和邊緣(變電站)單元 。 McMullan 表示 , 隨著越來越多的計算由高耗能 GPU 而非相對節能的 x86 CPU 執行 , 數據中心的電力需求正在增長 。 人工智能正在推動用電量的上升 。

他估計 , 一塊 GPU 相當于一個“標準”四人家庭每日約 30 千瓦時的能耗 。 NVIDIA 每季度出貨數十萬塊 GPU 。 一塊 GPU 相當于一個“標準”四人家庭每日約 30 千瓦時的能耗 。 NVIDIA 每季度出貨數十萬塊 GPU 。 現在 , 一機架 GPU 的耗電量超過 100 千瓦 , 相當于約 200 塊太陽能電池板的輸出功率 , 或約 0.01% 的核反應堆輸出功率 。
數據中心一直以來都以電源使用效率 (PUE) 來衡量 。 PUE 值的計算方法是將數據中心的總能耗除以其 IT 設備所消耗的能耗 。 PUE 值越低 , 能源效率越高 。 該指標由綠色網格組織 (TGG) 于 2007 年推出 , 并得到了業界和各國政府的廣泛認可 。 然而 , PUE 值并不能反映當地的氣候差異;寒冷氣候下的數據中心所需的制冷量較少 。
綠色考慮數據中心電力供應問題通常被視為更廣泛的關注點 , 即碳排放 。 與我們大多數人一樣 , 數據中心運營商也希望減少碳排放 , 以緩解全球變暖 。 他們或許還希望實現更可持續的運營 , 這意味著降低設備冷卻的耗水量 。
轉向可再生能源供應可以減少碳排放 。 改用風冷而非水冷可以降低用水量 , 從而降低用電量 , 因為風扇和散熱器的功耗低于泵、散熱器風扇和水箱 。 但水冷可以承受更高的熱負荷 , 因此 GPU 服務器可能需要采用水冷 。 此外 , 赤道地區的數據中心會發現風冷效率不如溫帶和寒冷地區的數據中心 。
我們不能僅僅為了提高冷卻效率而選擇數據中心的位置 , 因為它們可能距離用戶數千英里 , 由于網絡傳輸時間較長 , 數據訪問時間過長 。 此外 , 它們還需要距離發電源不太遠 , 因為電網傳輸和升降壓變壓器的運行會導致一定比例的電力損失 。
優化數據中心成本、IT 設備性能、用戶數據訪問時間、數據中心電力供應和需求以及水消耗是一項復雜的工作 。
數據中心用電量數據中心的電力預算是固定的;其電網電源和邊緣連接設備都是硬件 , 因此存在無法逾越的上限 。 如果其內部基礎設施的某一部分耗電較多 , 例如從 CPU 切換到 GPU , 那么其他部分可用的電力就會減少 。 電力效率正成為一個關鍵考慮因素 。
據估計 , 數據中心26%的電力供應用于服務器(20%)和存儲(6%) , 其余電力則用于冷卻和UPS(50%)、電源轉換(11%)、網絡硬件(10%)和照明(3%) 。 這些只是大概的數字 , 因為數據中心的規模和冷卻需求顯然存在差異;寒冷氣候下的數據中心需要的冷卻量較少 。
運營商可以考慮針對特定設備類別來降低功耗 , 其中冷卻和UPS的能效是關鍵考慮因素 , 因為它們占數據中心平均用電量的一半 。 服務器、存儲和網絡設備也可以進行優化 , 以降低功耗 。 例如 , 與現成的SSD相比 , Pure Storage的DirectFlash技術可以降低NAND存儲的用電量 。
問題不僅僅在于數據中心 。 為了實現經濟脫碳 , 各國需要將制造業、食品生產和工業活動從化石燃料發電中轉移出來 。 它們需要采用電動汽車 , 而僅此一項就可能需要將發電量提高100倍 。
整個電力供應鏈 , 從開采電纜所需的銅礦、用于發電和輸電設備的鋁和鋼材 , 到發電本身 , 再到建設端到端的電網基礎設施、改進運營管理、增強電網韌性以及更有效地為大用戶供電 , 都需要更新 。 這將是一個耗資數十億美元甚至數萬億美元的項目 。
各國政府需要意識到這個問題 , 并使其發電和供電機構能夠應對 。 IT供應商可以通過游說國家和州的政策制定者來發揮自己的作用 , 但從根本上來說 , 一個國家的整個商業部門都需要參與到這項工作中來 。
*聲明:本文系原作者創作 。 文章內容系其個人觀點 , 我方轉載僅為分享與討論 , 不代表我方贊成或認同 , 如有異議 , 請聯系后臺 。
【AI狂燒電,數據中心告急】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀