推理新范式:動態效能算法讓算力資源實現最大化

推理新范式:動態效能算法讓算力資源實現最大化

智東西
作者 | 陳駿達
編輯 | 漠影
過去兩年 , 全行業都在為大模型訓練瘋狂堆GPU、建算力中心 。 但當視角進入2025年 , 真正決定企業競爭力的主戰場 , 已經迅速從訓練轉向推理 。
推理時代的算力不再是單一物理資源 , 而是一個跨地域、跨架構、跨屬權的綜合體系:一個企業的AI服務或許部署在自建IDC , 同時又依賴外部云GPU;模型推理與模型訓練并行存在;開發測試與生產流量共處一套資源;多業務、多租戶同時爭搶不同規格的GPU 。 這意味著算力要實時、動態、按業務優先級調度 。 而傳統調度做不到 。
傳統算力調度平臺誕生于傳統云的集群運維背景 , 其核心目標是讓硬件更易管理、更少出故障、更好利用 。 它們的能力止步于服務器視角:節點是否在線、顯存是否足夠、任務是否分配成功、權限是否隔離 , 在面向大模型的AI推理時代 , 卻難以回答更重要的問題——推理延遲是否達標?模型吞吐是否最優?算力成本與業務收入是否動態平衡?在新范式轉換下 , 系統需要重構 。
這些問題在推理時代被迅速放大 。 過去算力用于訓練 , 以“跑成”模型為目標;如今算力直接承載真實業務 , 算力調度被迫承擔更多職責——必須從IT運維邏輯升級為AI業務邏輯 。 但挑戰也隨之而來:模型結構差異巨大、推理鏈路時延瓶頸、業務波峰波谷并發變化…每一次算力分配 , 都可能影響一筆業務成交、一位用戶體驗 , 甚至一個產品的增長曲線 。
GPU不再是靜態資源 , 而成為可運營、可定價、可持續經營的資產 。
為了支撐這場范式轉移 , 國內AI基座平臺技術公司矩量無限重新定義了算力的基本單元 , 不再是“服務器/GPU卡” , 而是圍繞業務目標進行抽象的、可度量和可調度的算力單元 , 并基于此構建了完整的技術基座 , 形成了覆蓋算力、模型、服務到商業回報的全鏈路平臺矩陣 。
在技術創新層面 , 矩量無限的開物算力調度系統深度融合了Kubernetes動態資源分配(DRA)技術, 通過“異構GPU自適應調度與分配方法及系統”實現了突破性的算力管理能力:
技術特點:通過具備自學習能力的算力適配器 , 將異構國產GPU間的靜態硬件資源單元抽象并轉化為動態標準化的“算力能力單元”(CU)以實現精準調度和分配。
產生效果:實現了基于任務實際需求的“目標導向”按需調度 , 極大地簡化了用戶對異構硬件結構和組成的關注 , 顯著提高了集群資源利用率和運行穩定性 。
達成形式:在各廠商設備信息上報的基礎上 , 通過自學習算力適配器基于歷史推理記錄持續優化動態折算因子 , 并將統一的算力容量重發布為Kubernetes動態資源分配(DRA)ResourceSlice實現資源的精準綁定與分配。
【推理新范式:動態效能算法讓算力資源實現最大化】以上能力目前已在國產GPU卡上得到規模驗證 。 矩量無限已在壁仞、天數、希姆等國產GPU的千卡級混合集群上完整跑通算力單元化與跨架構推理調度 , 同時相關平臺已落地全國多個千卡智算中心 , 并服務于工信部工業互聯網研究院、多家頭部行業客戶、高??蒲袡C構等 。

    推薦閱讀