華人團隊實現AI自動尋優,矩陣乘法核心首超CUDA閉源庫

華人團隊實現AI自動尋優,矩陣乘法核心首超CUDA閉源庫

文章圖片

華人團隊實現AI自動尋優,矩陣乘法核心首超CUDA閉源庫

“矩陣乘法是英偉達 CUDA 生態最核心的護城河之一 。 而我們打造的 CUDA-L2 在大規模、系統性的評測中 , 超越英偉達針對該核心算子的閉源優化方案 。 我們不僅實現了超越 , 而且將方法開源 , 這對于打破技術壁壘具有標志性意義 。 ”DeepReinforce 公司工程師蘇松喬告訴 DeepTech 。

近日 , 蘇松喬和合作者打造出一款名為 CUDA-L2 的智能系統 , 通過結合 AI 模型和強化學習 , 成功造出能以極高速度在 GPU 上運行的矩陣乘法核心程序 。 CUDA-L2 能夠自動搜索成千上萬種可能的程序編寫方式 , 以實際運行速度作為獎勵 , 引導 AI 找到最優解 。

在 A100 這款高性能 GPU 上 , 它生成的程序比當今業界最優秀的官方庫比如英偉達的 cuBLAS 還要快上 19% , 在模擬真實服務器環境的測試中 , 速度優勢更是擴大到 26% 。 這意味著未來的 AI 應用 , 從實時對話到復雜科學計算 , 都可能因此變得更快和更高效 。

蘇松喬表示:“這項成果的應用前景非常直接 。 大模型超過一半的 GPU 計算時間都花在矩陣乘法上 。 因此 , 矩陣乘法算子的性能提升 , 將直接、成比例地提升大模型的整體運行效率 。 理論上 , 若矩陣乘法速度提升 10% , 大模型的效率可提升約 5% 。 ”

他和合作者曾用 ChatGPT 粗略估算 , 矩陣乘法 10% 的性能提升 , 可能為全球 GDP 帶來約 4400 億美元的增長 , 相當于全球 GDP 的 0.4% 。 雖然這只是估算 , 但足以說明其底層基礎性技術帶來的巨大經濟影響力 。 實際應用上 , 只需將現有大模型框架中的矩陣乘法計算替換為我們更快的實現即可 。


(來源:https://arxiv.org/abs/2512.02551)
【華人團隊實現AI自動尋優,矩陣乘法核心首超CUDA閉源庫】
在 GPU 上高效執行矩陣乘法到底有多難?

矩陣乘法是 AI 模型中最基礎、最耗時的計算操作之一 。 過去 , 優化這類計算程序是頂級工程師的專屬領域 , 需要針對不同的問題規模和不同硬件進行極其復雜且耗時的調整 。

我們可以把矩陣乘法想象為一個排列整齊的 Excel 表格 。 矩陣乘法就是一種特殊的規則 , 用于將兩個這樣的表格合并從而生成一個全新的表格 。 這個操作在 AI 領域幾乎無處不在 , 幾乎是所有智能計算的基石 。 無論是讓 AI 生成一幅畫還是理解一句話 , 亦或是推薦一個視頻 , 背后都有海量的矩陣乘法在默默工作 。

然而 , 在 GPU 上高效執行這個矩陣乘法非常困難 。 GPU 就像一臺擁有成千上萬個小型計算核心的超級引擎 , 如何把計算任務合理分給這些核心 , 如何讓數據在高速但是容量有限的記憶單元之間流暢移動 , 都需要精秒的設計 , 同時不同大小的表格需要完全不同的優化策略 。


(來源:https://arxiv.org/abs/2512.02551)

當 AI 遇見強化學習

傳統上 , 設計這些高速計算程序也就是內核 , 是人類工程師所要面臨的艱巨任務之一 。 但是本次 CUDA-L2 系統引入了一個全新的設計師:即一個經過海量代碼訓練的大模型 。 這個模型從一開始就懂得很多編程知識 , 可謂非常的博學 。

但是 , 光有博學還不夠 , 關鍵是要學會優化 。 CUDA-L2 采用了強化學習的方法來開展訓練 。 強化學習不會告訴模型每一步具體怎么走 , 而是設置一個目標讓模型去嘗試各種動作 。

當它做出一個動作導致分數增加時 , 它就得到了獎勵 , 從而知道這個動作是好的;反之 , 分數減少則是一種懲罰 。 通過多次的嘗試 , 模型就能自己摸索出來通關的最佳策略 。

CUDA-L2 的訓練過程也是如此 。 模型嘗試生成不同的計算程序 , 系統會實際地運行它們 , 并使用運行速度作為獎勵分數 。 同時 , 程序如果出錯或者寫得太冗長也會被扣分 。 就這樣 , 在數百萬次的嘗試和學習中國 , 模型逐漸掌握了編寫超高速矩陣乘法程序的秘籍 。 它甚至能夠參考詳細的硬件性能報告 , 從內存吞吐量、計算單元利用率等數據中學習如何調整程序 。


(來源:https://arxiv.org/abs/2512.02551)

談及這一成果的后續計劃 , 蘇松喬說道:“目前 , 這篇論文尚未正式投稿 , 我們更關注于在 GitHub 上持續開源和更新代碼 , 推動工業界的實際應用 。 我個人已工作多年 , 此前長期在 Meta(原 Facebook)從事與 AI 基礎設施、網絡、數據庫和推理優化相關的系統研發工作 , 目前處于創業階段 。 ”

參考資料:
相關論文 https://arxiv.org/abs/2512.02551
Github 鏈接:https://github.com/deepreinforce-ai/CUDA-L2

運營/排版:何晨龍

    推薦閱讀