電費只占5%,誰在真正吃掉算力成本?

電費只占5%,誰在真正吃掉算力成本?

文章圖片


近期 , 沐曦在行業分享中披露的一組數據中心成本分析圖表 , 引發了業內人士的廣泛關注 。

這張圖拆了一座1GW數據中心的賬——總擁有成本550億美元 , 按四年折舊攤下來 , GPU芯片占了250億 , 供電散熱110億 , 網絡50億 , 存儲40億 。 電費呢?27.5億 。 占比5% 。
就這么一張圖 , 把一個在圈里流傳了小兩年的“美好敘事”推翻了 。 之前總有人說 , 中國電價比歐美便宜 , AI時代這就是我們的本錢 。 大模型那么耗電 , 電價低就是持續優勢 。 可沐曦這張圖告訴你的卻是另一回事:在超大規模算力中心的成本結構里 , 電費在整體TCO 中占比很低 , 對總成本影響有限 。 真正的大頭 , 是你根本繞不開的那塊GPU 。
01一座550億美元的數據中心 , 錢都花哪兒了
我們先把這個賬算細一點 。
圖里的550億美元 , 是基于一座1GW的數據中心做的全周期測算 , 周期是四年 。 為什么是四年?因為GPU的折舊周期就這么長 , 甚至很多互聯網大廠實際折舊周期更短——三年甚至兩年半 。 這不是會計上的保守處理 , 而是技術迭代的現實:新一代GPU出來 , 老一代的單位算力成本和能效比就立刻失去競爭力 。
在這550億里 , GPU采購250億 , 占比45% 。 這還只是買芯片的錢 。 供電和散熱系統110億 , 占比20% 。 這部分聽著像是“基礎設施” , 但實際上一大半成本是被GPU的功耗逼出來的——一顆H100功耗700瓦 , B系列下一代直奔1000瓦以上 , 幾萬張卡堆在一起 , 供電和散熱系統的復雜程度遠超傳統數據中心 。
網絡50億 , 存儲40億 。 這兩塊加起來90億 , 占比16% 。 超大規模集群里的網絡 , 不是咱們家里用的路由器 , 而是幾百公里光纖、幾十層交換機構成的“毛細血管網” , 成本和復雜度隨著GPU數量呈指數級增長 。
四大硬件板塊加起來450億 , 占了總成本的82% 。 電費呢?27.5億 , 占比5% 。 其他運維成本7.5億 , 占比不到1.5% 。
所以你看 , 電費便宜這件事 , 在這個賬本里幾乎可以忽略不計 。 你電價打五折 , 省下來的錢也就十幾億美元 , 在550億的總盤子里連個水花都翻不起來 。 真正決定你成本高低的 , 是你用什么GPU、用多少GPU、怎么把這些GPU連成集群、怎么給它們供電散熱——而這些 , 沒有一樣是靠“便宜”能解決的 。
在AI算力的成本方程里 , 資源稟賦的權重遠沒有想象中那么高 , 真正起決定作用的 , 是技術和供應鏈 。
02GPU價格為什么“降不動”
那問題來了:GPU能不能降下來?如果能 , 是不是成本問題就解決了一大半?
答案是:能降 , 但短期內很難降太多 , 而且降價的空間不在中國手里 。
一顆AI芯片的成本構成 , 遠比一般人想象的要復雜 。 先說最直觀的制程 。 目前旗艦級AI芯片清一色用4nm或5nm , 臺積電的N4P和N5工藝 。 流一次片的費用是多少?三到五億美元起步 。 這不是設計費 , 是實實在在給代工廠的錢 。 而且這個成本是沉沒成本——你流片失敗了 , 錢就沒了;流片成功了 , 良率爬坡還需要幾個季度 。
然后是HBM(高帶寬內存) 。 一顆H100配80GB HBM3 , 光內存的成本就占到芯片總成本的40%以上 。 HBM這個市場有多集中?海力士一家占了大半 , 三星緊隨其后 , 美光在后面追 。 HBM的產能擴張速度遠遠跟不上AI芯片的需求 , 所以這兩年HBM一直在漲價 。 你GPU設計得再好 , HBM拿不到貨或者拿貨貴 , 整顆芯片的成本就降不下來 。
還有先進封裝 。 現在AI芯片幾乎都用CoWoS , 這個技術被臺積電牢牢握在手里 。 CoWoS產能的緊張程度 , 過去兩年是整個AI芯片供應鏈的最大瓶頸 。 臺積電擴產能的速度 , 直接決定了英偉達、AMD、以及所有自研AI芯片廠商的出貨節奏 。
這三個環節——先進制程、HBM、先進封裝——加起來 , 占據了AI芯片BOM成本的大頭 , 而且每一個環節都被極少數供應商壟斷 。 本土的GPU設計公司 , 即使設計能力追上了 , 也要面對同樣的供應鏈現實 。 流片要找臺積電或三星(或者國內尚在追趕的先進制程產線) , HBM目前基本依賴韓國廠商 , 先進封裝也是臺積電的天下 。 這意味著 , 國產GPU的物料成本 , 在一段時間內很難比英偉達低 , 甚至可能因為采購量小、議價能力弱而更高 。
更關鍵的是 , 英偉達的GPU不僅僅是一顆芯片 , 而是一個完整的系統 。 從NVLink互聯到InfiniBand網絡 , 從CUDA軟件棧到整個開發者生態 , 英偉達用了十幾年時間構建了一套“軟硬一體”的壁壘 。 你買英偉達的GPU , 花的錢里很大一部分買的是“確定性”——確定能用、確定性能達標、確定能快速部署 。 這個“確定性”的溢價 , 在初期是很難避免的 。
03窗口期來了 , 但挑戰更大
那國產GPU怎么辦?是不是就沒機會了?
恰恰相反 。 2025年到2026年這個時間窗口 , 可能是國產GPU這幾年來最重要的機遇期 。 原因很簡單:美國對華出口管制在不斷加碼 。
這種壓力 , 客觀上給國產GPU打開了一個“被迫導入”的窗口 。 過去 , 國內的AI公司選擇英偉達是出于性能和生態的最優解;現在 , 這個最優解正在被人為切斷 , 國產GPU從“備選”變成了“必選” 。
我們看到的是 , 2025年下半年以來 , 國內幾家頭部互聯網公司和運營商都在加速部署國產算力集群 。 華為昇騰的910B和后續型號在一些場景下已經開始規?;涞兀汇尻?、壁仞、天數智芯等公司也在積極推動產品進入實際生產環境;百度昆侖、阿里平頭哥的自研芯片也在內部大規模應用 。
但挑戰同樣清晰 。
第一是性能差距 。 國產GPU在單卡算力上正在快速追趕 , 但在集群效率、互聯帶寬、軟件棧成熟度方面 , 與英偉達仍有差距 。 一個3000卡的國產集群 , 實際有效算力可能只有同樣規模英偉達集群的60%-70% 。 這意味著 , 完成同樣的訓練任務 , 需要更多的卡、更長的周期、更復雜的并行優化——這些最終都會轉化為成本 。
第二是軟件生態的“隱形門檻” 。 CUDA經過十幾年積累 , 已經形成了一個龐大的開發者生態 。 算法工程師從學校里學的就是CUDA , 開源社區的模型代碼默認跑在CUDA上 , 各種算子庫、調優工具、分布式框架都以CUDA為基準 。 國產GPU廠商現在都要做自己的軟件?!A為有CANN , 沐曦有MXMACA , 壁仞有BIRENSUPA——但生態建設需要時間和投入 , 而且需要用戶愿意“多走一步” 。
第三是供應鏈的“天花板” 。 國產GPU的制造目前主要依賴國內先進制程產線 , 而國內產線在產能、良率、成熟度方面與臺積電還有差距 。 HBM方面 , 國內目前還沒有能夠量產HBM2E以上產品的廠商 , 這一塊短期內仍然依賴韓國供應商 。 這意味著 , 即使國產GPU設計上去了 , 供應鏈的自主可控程度仍然是有限的 。
回到沐曦那張成本拆解圖 , 其實還有一個隱藏的信息:成本優化的空間 , 不僅僅在GPU本身 。 供電散熱占110億 , 占比20% 。 如果能把這部分壓縮30% , 那就是33億美元的節省——比電費總額還多 。 怎么做?液冷是目前最確定的路徑 。
傳統風冷數據中心PUE在1.4-1.5之間 , 液冷可以做到1.1以下 。 這意味著不僅電費降低 , 更重要的是供配電系統和散熱系統的初始投資可以大幅縮減 。 隨著GPU功耗突破1000瓦 , 風冷已經接近物理極限 , 液冷正在從“可選”變成“必選” 。 2025年下半年以來 , 國內幾大運營商和云廠商新建的智算中心 , 液冷方案的滲透率明顯提升 。 這個趨勢的直接結果就是 , 供電散熱在TCO中的占比有望從20%降至15%甚至更低 。
網絡占50億 , 占比9% 。 超大規模集群中 , 網絡成本隨著GPU數量增加而超線性增長 。 為什么?因為GPU之間需要高速互聯 , 而傳統的以太網在解決“大象流”和“多打一”問題上的效率不高 。 英偉達的NVLink和InfiniBand之所以能形成壁壘 , 很大程度上就是因為它們在集群互聯上的優勢 。 但2025年 , 一個值得關注的趨勢是 , 基于以太網的超大規?;ヂ摲桨刚诔墒?, Ultra Ethernet Consortium(UEC)的推進讓業界看到了降低網絡成本的希望 。 如果這一路徑走通 , 網絡成本在TCO中的占比有望進一步壓縮 。
還有存儲占40億 , 占比7% 。 AI訓練對存儲的要求是海量小文件讀寫和高帶寬吞吐 , 傳統的分布式文件系統在這種場景下效率不高 。 2025年以來 , 國內幾家存儲廠商在AI原生存儲上的探索值得關注——通過軟硬協同優化 , 可以在同等性能下降低存儲節點的配置需求 , 從而壓縮成本 。
但這些系統級的優化 , 有一個共同的底層邏輯:它們都需要對GPU集群有深入的理解和掌控能力 。 不是簡單地買一堆GPU堆在一起 , 而是從芯片到系統、從硬件到軟件的垂直整合 。
這正是為什么我們看到 , 無論是英偉達還是谷歌、亞馬遜 , 都在往“云-芯-端”一體化的方向走 。 谷歌的TPU從一開始就是為自家的深度學習框架TensorFlow設計的;亞馬遜的Trainium和Inferentia深度綁定AWS的服務;微軟雖然大量采購英偉達的GPU , 但同時也在自研芯片 , 并與英偉達在系統層面深度合作 。
中國的情況也類似 。 華為昇騰的優勢之一 , 就是它同時擁有芯片設計能力和通信技術積累 , 能夠在芯片互聯和集群組網層面做深度優化 。 阿里平頭哥、百度昆侖與各自的云業務深度協同 , 也是同樣的邏輯 。
04沒有捷徑可走
回看那張圖 , 它的價值其實不只是拆解了成本結構 , 更是拆解了一種思維慣性 。
“靠電價優勢就能在 AI 算力賽道實現突破”——這個說法之所以有市場 , 是因為它符合一種“資源換優勢”的舊邏輯 。 在過去的一些產業里 , 確實靠資源稟賦實現了追趕 。 但AI算力這個賽道 , 本質上是一個技術密集型、資本密集型、系統密集型的產業 , 資源稟賦的權重被大幅稀釋了 。
真正的競爭優勢來自哪里?來自對GPU核心技術的突破能力 , 來自對先進封裝和HBM等關鍵環節的供應鏈掌控力 , 來自軟件生態的長期積累 , 來自系統級架構的創新能力 , 也來自商業模式和運營效率的持續進化 。
這些 , 沒有一樣是容易的 , 也沒有一樣是靠“便宜”能換來的 。
過去兩三年 , 國內智算中心建設發展迅速 , 不少項目在投資思路上延續了傳統IDC的模式——以園區建設、硬件部署、算力租賃為核心 。 但AI算力與傳統IDC的商業邏輯存在明顯差異:GPU硬件迭代快、折舊周期短 , 項目收益高度依賴算力利用率 。 如果僅將GPU作為標準化租賃資源 , 缺乏底層算法優化、集群調度與運營能力 , 高昂的硬件投入可能難以有效轉化為持續穩定的收益 , 也會帶來較大的資產壓力 。
好在 , 產業界正在回歸理性 。 2025年下半年以來 , 我們看到的是 , 無論是互聯網大廠還是運營商 , 在算力投資上都更加務實——不再是單純的“堆卡” , 而是更關注實際可用的有效算力 , 更關注單位算力的成本 , 更關注軟硬協同的優化空間 。
沒有捷徑可走 。 這句話聽起來老套 , 但在AI算力這個賽道上 , 它依然是殘酷而真實的底層邏輯 。
【電費只占5%,誰在真正吃掉算力成本?】想要獲取半導體產業的前沿洞見、技術速遞、趨勢解析 , 關注我們!

    推薦閱讀