上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結

文章圖片

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結

文章圖片

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結

文章圖片

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結

文章圖片

上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結

文章圖片

編輯:犀牛
【新智元導讀】當硅谷Taalas將大模型「物理焊死」進芯片引爆全球半導體圈 , 來自上海交大、輝羲智能與微軟亞洲研究院的研究團隊早已走得更遠——他們用ROM+SRAM異構架構 , 將端側LLM推理速度推至20000 tokens/s , 端側算力直接起飛 。


近期 , 硅谷初創公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引發了全球半導體業界對「硬核 AI」的深度反思 。
他們繞開了所有熱門概念 , 直接把AI大模型 , 物理焊死在硅片里!
芯片運行Llama 3.1 8B的速度達到了17000tokens/秒 。
足足比業界最頂端的英偉達GPU提升了將近10倍!

英偉達這邊也沒閑著 , GTC 2026前夕 , 英偉達釋放明確信號:即將發布的Feynman架構將與Groq LPU技術實現深度融合 。
LPU架構通過預編排的固定指令流驅動模型 , 摒棄傳統HBM主存 , 轉而采用片上SRAM存儲權重 , 大幅突破了原有的訪問速度與帶寬瓶頸 。
這些都預示著 , 在Scaling Law驅動的大模型時代 , 傳統的通用指令集正成為鎖死算力的枷鎖 。
如何從物理層面徹底擊碎困擾大語言模型(LLM)部署的「內存墻」 , 已成為定義生成式 AI 下半場的關鍵 。

現有端側存儲方案不能同時滿足LLM推理的存儲容量和訪存帶寬需求
事實上 , 針對 LLM 的訪存特性 , 來自上海交大、輝羲智能及微軟亞洲研究院的研究團隊早已展開了一場存儲層次結構的創新研究 。
通過ROMA與TOM系列研究 , 團隊展現了與 Taalas 不謀而合的架構洞察:通過對只讀存儲(ROM)的顛覆性應用與「算法-架構」深度協同 , 成功將 LLM 的端側推理速度推向 20000 tokens/s 的水平 , 這一突破性成果在具身智能等前沿領域展現了巨大的應用潛力 。


ROMA:打破傳統存儲層次
重塑端側能效
在大模型端側部署的實戰中 , 傳統的內存層次結構正面臨前所未有的挑戰 。
研究團隊提出的 ROMA(Read-Only-Memory-based Accelerator) 架構 , 針對端側場景的特殊需求 , 給出了一套系統的解法 。

ROMA的計算架構 , 采用ROM+SRAM的方案
1. 引入只讀存儲(ROM):從源頭解決訪存能效
研究團隊發現 , 大模型推理的能效瓶頸主要源于權重數據在外部內存(如 LPDDR)與計算單元之間的頻繁搬運 。
ROMA 另辟蹊徑 , 利用高集成密度、低功耗的只讀存儲(ROM)作為權重的存儲載體 , 將模型參數從源頭上固化在芯片內部 , 大幅度降低了訪存功耗 。
2. QLoRA 賦能靈活性:在「固化」中尋找演進空間
完全硬連線的芯片往往難以應對算法的快速迭代 。 ROMA 巧妙地引入了 QLoRA 機制 , 通過 ROM(基座模型)+ SRAM(LoRA 適配器) 的混合設計 , 確保了芯片在擁有「硬核」性能的同時 , 依然保留了強大的應用靈活性 。
開發者只需下發極小規模的 LoRA 插件 , 即可讓固化的基座模型在不同垂直任務間快速切換 。
3. 架構與物理設計協同:極致的物理實現
為了實現真正的片上全模型存儲 , 團隊進行了深度的 架構與物理設計協同優化 。
通過獨創的 B-ROM 設計 , 將計算單元與存儲陣列進行緊耦合的物理布局 , 極大地縮短了信號傳輸路徑 。
這種協同設計讓 ROMA 在有限的芯片面積內 , 實現了對數億參數模型的高效容納與實時調度 。
最終 , ROMA的規格和指標與Taalas非常接近:ROMA采用7nm工藝庫 , 芯片面積約 500 mm2 , 可以完整容納4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B , 推理性能達到20000 tokens/s , 而同樣采用ROM+SRAM的方案的Taalas是6nm工藝 , 面積約800mm2 , 可容下3-6bit llama3.1-8B , 性能接近20000 tokens/s 。

TOM:深度挖掘三值化大模型
帶來的存儲紅利
在 ROMA 的基礎上 , 最新的 TOM(Ternary-Oriented Memory) 架構進一步將優化的觸角延伸到了算法底層的存儲特征中 , 把ROMA擴展到BitNet/Ternary量化這個場景 , 利用低比特權重的0值稀疏性 , 繼續提升了ROM的存儲密度 。

低比特模型0值分布特征 , 帶來ROM存儲密度提升潛力
1. 捕捉 BitNet 的硬件友好性:開啟「以邏輯代存儲」范式
研究團隊發現 , 以 BitNet-b1.58 為代表的三值化({-1 0 1)模型展現出了極佳的硬件友好性。
基于這一發現 , TOM 摒棄了傳統的存儲陣列 , 通過邏輯合成技術直接利用標準邏輯門實現模型權重的固化存儲。
在這種新范式下 , 硬件能夠直接識別并物理消除權重中「0」元素的存儲電路。 這一極致收益的實現 , 得益于三值模型中零值參數本就占據絕大多數的天然稀疏特性 , 加上定制的編碼方法(使用「10」而非「11」來表示 -1) , 從而大幅拉高了 0-bit 的整體占比 , 從根本上降低了物理開銷。
2. 存儲邏輯的深度合并與復用:極限壓縮芯片面積
為了進一步推高面積效率 , TOM 引入了精細的邏輯優化策略:通過識別并提取不同權重存儲邏輯中的公共子序列 , 對重復的邏輯門進行深度合并與復用 。
這種從物理層對存儲邏輯進行的「極限去重」 , 使得 TOM 相比 ROMA 實現了片上存儲密度的數倍提升與芯片面積的大幅削減 。
這也再次印證了算法-硬件聯合設計在突破 AI 算力邊界時的核心重要性 。

具身智能與極端場景
ROM 架構的「降維打擊」
「模型即芯片」方案的興起 , 精準捕捉到了當前端側應用的兩大痛點:
1. 具身智能的「實時確定性」
在機器人、無人設備等具身智能場景中 , 毫秒級的響應延遲往往決定了系統的物理安全性 。
ROMA 提供的 20000+ tokens/s 吞吐量 , 是為了提供一種高確定性的實時反饋 。
這讓機器人能夠像擁有脊髓反射一樣 , 在感知到復雜的物理環境變化時 , 瞬時做出語義理解與避障決策 。
2. 極端環境下的生存優勢:深海與火星
在深海探測器、火星漫游車等極端場景下 , DRAM 等易失性存儲器不僅能耗高 , 且容易受到高能射線干擾產生軟錯誤 。
ROM 架構具有天然的穩定性和抗輻射性 。
在能源匱乏、通信隔絕的極端環境下 , 搭載 ROMA/TOM 架構的設備依然能獨立、穩定地完成復雜的智能任務 , 且待機功耗極低 。
這使得大模型能夠真正走出實驗室 , 進入人類探索的「無人區」 。
3. 智能終端的隱私「防火墻」
對于手機端本地文本處理等場景 , 用戶對模型基座的頻繁更新需求并不高 , 但對隱私極其敏感 。
將成熟、穩定的模型能力固化在本地隔離電路中 , 不僅免去了頻繁聯網的能耗 , 更在物理層面上杜絕了數據外泄的風險 。

結語
開啟端側內存層次結構的新紀元
從 Taalas 的破圈到研究團隊ROMA與TOM系列工作的深度探索 , 我們正見證 AI 硬件架構的一個重要轉向 。
這種引入ROM+SRAM異構存儲層次結構的創新 , 結合對三值邏輯存儲特性的極致挖掘 , 為端側大模型部署提供了一條全新的進路 。
ROMA與TOM系列研究的誕生 , 植根于“模型即芯片”的設計思維 。
團隊的這種強調算法與硬件深度耦合的思維來源 , 最早可追溯至微軟亞洲研究院(MSRA)時期 。
核心作者中 , 王文強與曹士杰曾先后作為MSRA實習生在徐寧儀老師指導下開展研究 , 積淀了深厚的工業界系統經驗;張毅佳在上海交大攻讀博士期間師從徐老師 , 并先后在 MSRA 系統組與輝羲智能實習 。
研究團隊長期從事算法-芯片聯合設計的研究 , 在AI芯片架構設計、大模型輕量化等方面有豐富經驗 。
這種由資深架構師、企業研究員與學術新生代構成的多重紐帶 , 讓團隊得以將前沿的實戰思維與學術界的理論創新高效結合 , 在大模型范式下實現了從通用計算向 LLM 原生架構的協同突破 。

團隊介紹
關于上交大團隊:團隊來自上海交通大學計算機學院定制計算中心(Customized Computing Center - CCC , ccc.sjtu.edu.cn) , CCC聚焦于解決數據中心、邊緣設備和傳感器的所面臨的各種計算挑戰 。
關于輝羲智能:輝羲智能致力于成為全球領先的具身智能AI計算平臺供應商 , 以卓越算力促進人工智能發展 。 成立三年 , 公司已實現大算力端側旗艦芯片R1的成功流片與量產交付 , 率先在具身智能領域走通“芯片-平臺-產品”的全棧自主國產化路徑 。
參考資料:
ROMA:https://arxiv.org/pdf/2503.12988
TOM:https://arxiv.org/abs/2602.20662
【上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結】


    推薦閱讀