AI原生時代來臨,商湯大裝置如何重塑算力集群架構

AI原生時代來臨,商湯大裝置如何重塑算力集群架構

文章圖片


近日 , 作為2026中關村論壇核心組成部分 , 由趨境科技與九源智能計算系統生態聯合體共同主辦的“全棧智能 全域推理:Token爆發元年的全場景大規模推理服務”專題研討會成功舉辦 。
商湯大裝置首席架構師項鐵堯受邀出席研討會 , 并發表《商湯大裝置AI原生云基礎設施探索與實踐》主題演講 , 系統闡述了商湯大裝置對AI原生時代算力集群建設的前沿判斷與實踐路徑——如何將軟硬件能力真正轉化為客戶可用、易用、高效的算力服務 。
在他看來 , 當算力集群的發展進入AI原生時代 , 新的架構范式應具備統一的規范、極致彈性的擴縮容機制以及為大模型訓練和推理深度優化的AI集群runtime 。

01. AI算力池:面向角色、水平分層、資源自由流轉項鐵堯從底層技術視角切入 , 指出Kubernetes(全球最流行的容器編排平臺)正朝著AI方向發展 。
隨著動態資源分配(DRA)、Workload API與Gateway API三項核心新特性的引入 , K8s逐漸從簡單的容器編排工具 , 進化為AI時代的操作系統 。 這背后 , 其實是整個行業在加速從云原生集群時代向AI原生時代躍遷 。
圍繞上述轉變過程 , 項鐵堯重點介紹了商湯大裝置前瞻打造的核心產品——AI算力池 。
據了解 , AI算力池面向AI原生時代全新算力服務需求 , 采用\"三明治\"水平分層架構 , 從底層高度優化的計算網絡存儲基礎設施 , 到中間層全新的虛擬集群技術 , 再到上層涵蓋開發機、訓練平臺、部署平臺及Agentic Engine的完整PaaS產品體系 , 全面杜絕不同產品之間的資源孤島問題 。

其中 , 大裝置AI算力池具備三大優勢:
1)面向角色 。 面對客戶內部角色多元、需求復雜的現實 , 分別設計服務形態、提供差異化的解決方案 。 比如針對集群管理員與平臺工程師提供高彈性虛擬集群資源;針對AI研究員 , 可提供豐富的腳本工具與高效研發環境等等 。
2)水平分層 。 AI算力池采用“三明治”結構 , 杜絕產品間信息、資源孤島的可能 。
3)資源自由流轉 。 用戶只需購買一種通用算力形態 , 即可在虛擬機、虛擬集群、AI Code Space開發機等不同產品形態之間秒級自由切換 , 充分應對國內普遍存在的算力潮汐效應 , 大幅提升集群整體資源利用率 。
02虛擬集群:全量托管 , 秒級彈性擴縮容值得一提的是 , 在底層Infra層 , 商湯大裝置創新應用虛擬集群技術 , 解決了傳統云托管服務中“數據面管理重、擴容慢”的痛點 。
有別于主流云廠商僅托管控制面 , 數據面仍需用戶自行管理的傳統模式 , 全新的虛擬集群技術 , 實現了控制面與數據面的全量托管 , 擴縮容效率從傳統方案的數分鐘乃至數十分鐘壓縮至秒級 , 同時提供完全標準的K8s API , 用戶無需對現有代碼做任何修改即可無縫接入 。
03三大自研套件:護航超大規模AI訓練與推理在虛擬集群基礎上 , 項鐵堯進一步提出AI集群Runtime產品概念 。
“要快速搭建一個離線混部、訓練推理混合使用的集群非常復雜 , 因為現在AI新的技術層出不窮 , 各種組件之間協同優化同樣復雜 。 ”項鐵堯指出 , “為了解決這種難題 , 我們通過智能推薦、深度調優與版本鎖定機制 , 幫助用戶快速搭建復雜的在離線混部、訓練推理混合使用集群 , 降低AI基礎設施的使用門檻與運維復雜度 。 ”
為了進一步滿足超大規模AI生產場景的極致性能需求 , 商湯大裝置還自研了三大套件:
1)SenseCore Scheduler:高性能調度器 , 支持復雜異構硬件的在離線混合調度 。
2)容錯引擎:解決超大規模訓練中的不穩定性 , 實現故障自動檢測與隔離 。
3)Agentic Engine:針對不斷涌現的Agent使用需求 , 進行深入優化 , 包括沙箱預熱、快速啟動、規劃保持、狀態快照等 。
04虛擬節點:打通彈性算力最后一環為了以更靈活的規格為客戶提供算力資源 , 商湯大裝置同步自研虛擬節點技術 , 它具備三大優勢:
1)虛擬集群體系無縫集成;
2)提供相比于虛擬機更輕量級的使用體驗以及更高效的性能;
3)提供相比于runc更好的安全性和隔離度 。
05生態合作 , 共同助推國產推理基礎設施迭代演講中 , 項鐵堯還特別感謝九源智能計算系統生態聯合體與生態伙伴趨境科技 。
目前 , 商湯大裝置已與趨境科技展開深度合作 , 為趨境科技自研的ATaaS高效能AI Token生產服務平臺提供高性能、高可靠的算力支撐 。
據了解 , 趨境ATaaS高效能AI Token生產服務平臺可支撐萬級別AI推理需求 , 并達到日均萬億級別Token整體產能 。
在生態聯盟層面 , 商湯大裝置作為九源智能計算系統生態聯合體理事單位 , 積極參與這一以\"產學研用服\"協同合作為核心模式的開放生態 。
該聯合體聚焦國產智能計算系統建設、軟件生態統一與技術成果轉化 , 致力于構建自主可控的智能計算產業生態 。 商湯大裝置加入其中 , 希望以自身在AI基礎設施領域的積累 , 為整個生態貢獻實質性力量 , 推動AI能力真正走向普惠 。
未來 , 商湯大裝置將進一步聯合生態伙伴 , 共同推動國產推理基礎設施迭代升級 , 為我國人工智能產業高質量發展、新質生產力落地提供堅實支撐 。
轉載來源:商湯科技
【AI原生時代來臨,商湯大裝置如何重塑算力集群架構】本文為量子位獲授權轉載 , 觀點僅為原作者所有 。

    推薦閱讀