安謀科技發了一枚 NPU,要把 AIGC 算力提升 10 倍

安謀科技發了一枚 NPU,要把 AIGC 算力提升 10 倍

文章圖片

安謀科技發了一枚 NPU,要把 AIGC 算力提升 10 倍

文章圖片

安謀科技發了一枚 NPU,要把 AIGC 算力提升 10 倍

去年一本講述周朝滅商的歷史學著作《翦商》 , 讓不少人對于商朝這個傳說中的朝代 , 有了完全不同于《封神榜》中神仙妖怪的認知 。
作者李碩認為 , 周文王作為邊緣民族的頭領 , 被商王囚禁在地牢里自己弄出的「周易」 , 本質是私下利用了當時流行的占卜技術 , 來預測未來推翻商朝可能性大小 。
文王的兒子武王 , 成功推翻商朝后 , 在周公旦的努力下 , 「周易」變成了之后知名的《易經》 , 變身成中國文化中神秘科技的代表 。
其實 , 如果擴大一些視角 , 《易經》代表的幾千年前的科技巔峰 , 和當下最流行的大模型技術引領的 AI 多少有些相似之處——都是利用算力來預測未來 。 關鍵在于 , 幾千年前人們用的是木棍和腦力 , 現在 , 用的則是芯片 , 此事在劉慈欣的《三體》中亦有記載 。
隨著 AI 大模型技術從云端向邊緣側、端側設備下沉 , 一場圍繞端側 AI 算力的「軍備競賽」已經打響 。 從智能手機、AI PC 到智能汽車 , 消費者對設備本地運行 AIGC 的需求正迎來爆發性增長 。 然而 , 要在功耗、散熱和成本都受到嚴格限制的端側設備上 , 高效運行動輒數十億參數的大模型 , 整個行業都面臨著算力受限、能效要求嚴苛、帶寬瓶明等一系列嚴峻挑戰 。
正是在這一行業背景下 , 11 月 13 日 , 安謀科技(Arm China)在上海正式發布了「周易」X3 NPU IP 。 這不僅是安謀科技 Arm China 明確「All in AI」產品戰略后推出的首款重磅產品 , 也被視為其「AI Arm CHINA」戰略發展的關鍵實踐 。 安謀科技 Arm China 毫不掩飾其目標 , 即直面端側 AI 大模型運行的難題 , 打造計算效率的新標桿 。

為 Transformer 和浮點計算而生半導體 IP 行業的一個共識是 , 產品研發必須「面向未來 5 年進行前瞻布局」 。 安謀科技 Arm China 產品研發副總裁劉浩在發布會上也強調了這一點 , 他表示公司將持續加大投入 , 以「前瞻性視野整合頂尖研發資源」 , 并秉持「開放合作理念」 , 為伙伴提供從硬件到軟件的端到端解決方案 。
「周易」X3 正是這一前瞻性布局的產物 。 安謀科技 Arm China NPU 產品線負責人兼首席架構師舒浩博士指出 , X3 的產品優勢源于其「通用、靈活、高效且軟硬協同的系統架構設計」 。
這種前瞻性首先體現在架構上 。 「周易」X3 采用了一種專為大模型而生的最新 DSP+DSA 架構 。 它在設計之初就深刻理解了 AI 模型的演進趨勢——即從傳統的 CNN(卷積神經網絡)全面轉向 Transformer(大模型的基礎架構) 。
因此 , X3 采用了「兼顧 CNN 與 Transformer 的通用架構設計」, 使其既能高效處理傳統的 AI 任務 , 也能從容應對未來幾年的 Gen AI(生成式 AI)、Agentic AI(代理 AI)與 Physical AI(具身智能)的端側落地需求 。
這種新架構帶來的另一個關鍵轉變 , 是對浮點運算的強力支持 。 傳統 AI 運算(如安防)大多使用定點計算 , 而大模型推理則高度依賴浮點(FP)運算 。 X3 全面增強了浮點運算(FLOPS)能力 , 支持從定點到浮點計算的關鍵轉變 , 為承載大模型奠定了技術基石 。

解碼 10 倍 AIGC 算力如果說架構是藍圖 , 那么性能數據就是最直觀的成果 。 相較于上一代產品 , 「周易」X3 在 AIGC 大模型能力上實現了高達 10 倍的增長 。 這一驚人的躍升并非單一因素造就 , 而是由 16 倍的 FP16 TFLOPS(每秒萬億次半精度浮點運算)、4 倍的計算核心帶寬 , 以及超過 10 倍的 Softmax 和 LayerNorm(均為大模型關鍵算子)性能提升共同驅動的 。
在具體規格上 , 「周易」X3 的單 Cluster(集群)最高支持 4 個 Core(核心) , 可提供 8 至 80 FP8 TFLOPS(每秒萬億次 8 位浮點運算)的算力 , 并且支持靈活配置 。 其單核帶寬高達 256GB/s 。 即使在傳統的 CNN 模型上 , 其性能也比 X2 提升了 30%~50% 。
但對于大模型而言 , 峰值算力(TFLOPS)只是「入場券」 , 如何真正在運行中把算力用起來 , 即「算力利用率」 , 才是核心難題 。
周易 X3 NPU IP 發布會現?。 計叢矗喊材笨萍?
安謀科技 Arm China 給出了一組基于 Llama2 7B(70 億參數)大模型的實測數據:「周易」X3 在 Prefill(處理提示詞)階段的算力利用率高達 72% 。 這是一個遠超行業平均水平的數字 , 意味著 NPU 在處理用戶輸入時沒有「出工不出力」 。
更令人矚目的是 Decode(生成 token)階段的數據 。 安謀科技 Arm China 宣稱 , 在自研解壓硬件 WDC 的加持下 , X3 實現了「Decode 階段有效帶寬利用率超 100%」 。
「有效帶寬超 100%」聽起來有悖常理 , 但這背后是安謀科技 Arm China 解決端側帶寬瓶頸的「獨門武器」 。 這個名為 WDC 的自研解壓硬件, 允許大模型的權重(Weights)以軟件無損壓縮的形式存儲 。 在 NPU 運算需要調用這些權重時 , WDC 硬件會實時進行解壓 。 這一過程對軟件透明 , 卻能帶來 15%~20% 的等效帶寬提升 。 換言之 , 它讓有限的物理帶寬「跑」出了遠超其物理限制的數據量 , 從而極大滿足了大模型解碼階段對高吞吐量的渴求 。
為了讓云端大模型能高效遷移到端側 , 「周易」X3 還在架構上集成了多項關鍵創新 。 它新增了 W4A8/W4A16(4 位權重、8/16 位激活)計算加速模式 , 這種低比特量化技術能大幅降低模型對帶寬的消耗 。 同時 , 它提供了極其廣泛的多精度融合計算支持 , 涵蓋 int4 int8 int16 int32 fp4 fp8 fp16 bf16 fp32 等幾乎所有主流數據類型 , 使其能靈活平衡性能與能效 , 適配從傳統 CNN 到前沿大模型的各種需求 。
此外 , X3 還集成了一個 AI 專屬硬件引擎 AIFF(AI Fixed-Function)和一個專用硬化調度器 。 在智能座艙或 ADAS 這類需要多任務并行和高優先級響應的場景中 , 這一設計至關重要 。 它能將 AI 任務調度對 CPU 的負載降低至 0.5%, 讓寶貴的 CPU 資源去處理其他系統任務 , 同時確保高優先級 AI 任務(如碰撞預警)獲得即時響應 。

讓 AI 開發從「好用」到「用好」「周易」X3 不僅僅是一塊高性能的硬件 IP , 它還配套了一個名為「Compass AI」的軟件平臺 。 安謀科技 Arm China 產品總監鮑敏祺指出 , X3 遵循「軟硬協同、全周期服務與成就客戶」的準則 , 旨在提供從硬件、軟件到售后服務的全鏈路支持 。
在 AI 落地過程中 , 軟件開發的「適配難、周期長、門檻高」是長期存在的痛點 。 「Compass AI」平臺的目標 , 就是通過「軟硬一體」的協同設計 , 讓開發者從「好用」進階到「用好」 。
「Compass AI」的軟件平臺|圖片來源:安謀科技
該平臺的核心是 NN Compiler(神經網絡編譯器) 。 它支持 TensorFlow、ONNX、PyTorch 等主流 AI 框架 , 兼容超過 160 種算子和 270 種模型 。
對于當前火熱的大模型生態 , 「Compass AI」平臺提供了一個極具吸引力的功能:通過其 AIPULLM 工具鏈 , 可直接支持 Hugging Face 格式模型 , 實現「一站式」轉化與部署 。 Hugging Face 是全球最大的 AI 模型集散地 , 這一功能意味著開發者可以極低門檻地將社區的前沿模型快速部署到「周易」X3 上 。
該平臺還具備先進的模型推理優化能力 , 包括業界領先的大模型動態 shape 支持(能高效處理任意長度的輸入序列) , 并支持 GPTQ 等主流量化方案 , 以及對 LLM(大語言模型)、VLM(視覺語言模型)和 MoE(混合專家模型)的高性能支持 。
更重要的是 , 安謀科技 Arm China 選擇了「開放生態」路線 。 Compass 平臺中的 Parser(模型解析)、Optimizer(優化器)、Linux Driver(驅動)等核心組件已相繼開源 。 這為開發者提供了「白盒」部署的可能 , 他們可以利用豐富的調試工具和 Bit 精度軟件仿真平臺進行深度性能調優 。 有能力的客戶甚至可以利用平臺提供的工具和接口 , 開發自定義算子 , 乃至打造出「屬于自己的模型編譯器」 , 從而實現產品差異化 。
這種「軟硬協同」貫穿了 X3 的設計始終 。 例如 AIFF 模塊 , 硬件團隊通過增大總線帶寬、增加 DMA(直接內存訪問)的 outstanding 等方式提升數據搬運效率;軟件團隊則針對性設計專屬使用模式 , 如對模型進行合理切分 , 以充分發揮多核并行優勢 。 在系統兼容性上 , Compass 平臺也做到了全面覆蓋 , 支持 Android、Linux、RTOS、QNX 等多種操作系統 , 并通過 TVM/ONNX 實現 SoC 異構計算 。

從無形 IP 到 AI 萬象「周易」X3 的發布 , 清晰地勾勒出了安謀科技 Arm China 面向的四大核心領域:基礎設施、智能汽車、移動終端和智能物聯網 。
在發布會現場的 demo 展示區 , 安謀科技 Arm China 展示了「周易」IP 家族的演進:從 Z1 賦能 AIoT 的人臉識別, 到 Z2/Z3 進入入門級座艙和輔助駕駛, 再到 X1/X2 運行自動泊車、Stable Diffusion 文生圖 。
安謀科技當天的 IP 應用展區|圖片來源:安謀科技
而新旗艦「周易」X3 則全面展示了其作為「端側大模型殺手」的實力 , 現場演示了運行 DeepSeek-R1-Distill-Qwen-1.5B 模型的流暢 AI 對話 , 以及運行 Stable Diffusion v1.5 的文生圖和 MiniCPM v2.6 的多模態圖文理解 。
這一演進路徑 , 清晰地表明端側 AI 已從單一的功能感知 , 邁向了融合多種模型的「復雜認知」新階段 。
具體到應用中:
智能汽車領域:這是 X3 的重點目標 。 它將同時賦能智能駕駛與智能座艙 , 在 ADAS 系統中為自動泊車等功能提供 AI 算力;在 IVI(車載信息娛樂系統)中 , 則支持基于語音和車內外視頻的智能互動 。
移動終端領域:在 AI PC 和 AI 手機上 , X3 可用于超分渲染(提升顯示效果) , 并為基于大模型的 AI Agent 應用提供澎湃算力 。
基礎設施與物聯網:在加速卡、智能 IPC(網絡攝像機)、智能網關等設備中 , X3 的本地 AI 推理能力將帶來更快的響應速度和更好的隱私保護 。
【安謀科技發了一枚 NPU,要把 AIGC 算力提升 10 倍】「周易」X3 的發布 , 標志著安謀科技 Arm China「All in AI」產品戰略的正式啟動 。 在「AI Arm CHINA」的戰略發展方向下 , 安謀科技 Arm China 正攜手生態伙伴 , 試圖加快構建國內「AI+」產業升級的智能計算基石 , 為千行百業的智能化轉型提供更強的 IP「核芯」動力 。

    推薦閱讀