無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law

文章圖片

編輯:定慧
【新智元導讀】如何把龐大的大模型塞進受限的車載芯片?面對端側算力瓶頸 , 最新的「軟硬協同設計定律」給出破局解法:只需輸入芯片參數 , 即可免訓練算出最優模型架構 。 同等算力下 , 模型智商躍升近20% , 研發周期從數月縮至一周 。


如何把「大象」塞進冰箱?
這正是現代智能輔助駕駛正在努力完成的一個命題 。
我們希望車子能擁有一個像愛因斯坦一樣聰明的超級大腦 , 但現實的尷尬是:
你不可能在后備箱里塞進一個需要液冷的服務器機柜!

當云端大模型正在加速沖刺AGI的同時 , 具身智能、智能駕駛等真實物理場景卻正面臨著一個隱性的巨大焦慮:「小」 。

如何把「大模型」塞進極其有限的「小空間」車載芯片或機器人控制核心里?

這就是目前智能駕駛、具身智能、VR等領域碰到的一個現實問題:
被一塊小小的芯片「卡住了脖子」 。
智能駕駛正在邁向全場景智能 , 但車載算力平臺撞上了一個核心悖論:
比如 , 一個在云端GPU上10毫秒就能完成的推理任務 , 到了車載芯片上可能要300毫秒 。 對自動駕駛來說 , 300毫秒意味著車輛在高速上「盲開」了好幾米 。
所有巨頭 , 英偉達、蘋果、微軟、谷歌都在想辦法 。
但是第一個給出理論級答案的 , 是一家中國車企 。
2026年2月 , 理想汽車基座模型MindVLA團隊與國創決策智能技術研究所聯合發布了一篇論文:《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》 。
提出了面向端側大語言模型的「硬件協同設計擴展定律」 。

論文地址:https://arxiv.org/abs/2602.10377
這篇論文直面了當前最核心的挑戰之一:
如何將越來越強大的大語言模型高效地部署在資源受限的「端側設備」(如汽車、手機、機器人)上 。
提到理想汽車 , 多數人的第一反應還是「增程式電動車的代表」 。 但審視其近兩年的技術布局:自研5nm車規芯片馬赫100、開源操作系統星環OS、自研基座大模型MindVLA、端到端智駕全棧自研 。
理想正在從一家以增程技術見長的汽車公司 , 蛻變為一家以智能駕駛和具身智能為核心的AI公司 。
而這篇剛剛發布的論文 , 是理解這場轉型最好的注腳 。

大模型「上車」 , 卡住了!
如何將目前「最先進的AI」裝入汽車?
這里會遇到了一個巨大的矛盾:
一方面 , 希望車載AI模型盡可能地聰明、反應迅速 , 以確保駕駛安全和流暢的交互體驗 。 這要求模型規模大、結構復雜 。
另一方面 , 汽車內部的計算單元(芯片)受到嚴格的物理限制 , 包括功耗、散熱、內存大小和成本 。 這要求模型必須小巧、高效 。
傳統的做法通常是「模型歸模型 , 硬件歸硬件」 。
AI研究者設計出性能強大的模型 , 然后由工程師想辦法在硬件上進行優化和「塞入」 。
這種方式效率低下 , 且往往無法達到真正的最優 。
這就好比為一個F1賽車引擎設計了一個巨型卡車的底盤 , 二者無法完美匹配 , 引擎性能大打折扣 。
而理想這篇論文正是為了解決這個「失配」問題 , 他們提出了一套系統性的方法:
在設計模型之初就將硬件的能力考慮進來 , 實現「軟硬協同設計」(Hardware Co-Design) 。

架構選擇(右側)與硬件平臺(左側)共同塑造損失-延遲帕累托前沿

軟硬協同:連接模型與硬件的橋梁

如何衡量模型的「智慧」?


先來簡單介紹下什么是損失-延遲帕累托前沿 。
在AI領域 , 「損失」是衡量模型預測與真實答案之間偏差的指標 。
損失越低 , 模型預測越準確 , 代表它越「聰明」、精度越高 。 你可以把它理解為「工作質量」 。
延遲指的是AI給出反應需要多長時間 。 延遲越低 , 速度越快 , 代表它能做到「秒回」 。 你可以把它理解為「工作速度」 。
帕累托前沿是一個經濟學概念 。
通俗地說 , 當你追求既要「質量高」(低損失) , 又要「速度快」(低延遲)時 , 你會遇到一個物理極限 。

到了這個極限狀態后 , 你不可能在不犧牲速度的前提下 , 讓AI變得更聰明;也不可能在不犧牲聰明度的前提下 , 讓AI跑得更快 。
所有這些「最優的折中點」連起來的一條線 , 就叫「帕累托前沿」 。

理想團隊發現 , 模型的最終損失與其架構超參數(如網絡深度、寬度、專家數量等)之間存在著可預測的數學關系 。
通過對這個關系進行精確建模 , 就可以在不實際訓練的情況下預測模型性能 。
團隊做了一件極其扎實的事——真的訓了170個不同架構的Transformer模型 , 每個用100億token訓練 , 覆蓋Dense(密集)和MoE(混合專家)兩大類 , 層數4到48 , 寬度256到4096 , MoE專家數1到64 。
目的就是擬合一條精度預測公式:
給定任意一組架構超參數 , 直接預測驗證損失——不用真的訓練 。

關鍵數據:擬合精度達到R2=0.975(訓練集)和R2=0.952(32個全新架構的驗證集)
在同時包含密集和稀疏模型的異質架構空間中 , 這個預測精度極其驚人 。
模型有多聰明 , 算一下就知道 。
通俗地說 , 理想團隊找到了一個「計算器」 , 輸入一個模型的設計方案 , 就能算出這個模型理論上能有多聰明 。

如何衡量硬件的「性能」?


對于一塊芯片而言 , 決定其運行速度的關鍵因素有兩個:
峰值計算能力 (FLOPS):芯片每秒能執行多少次浮點運算 , 如同工廠的生產線速度 。
內存帶寬 (Bandwidth):芯片每秒能從內存中讀取多少數據 , 如同工廠的物料供應速度 。
一個程序的運行速度 , 取決于它究竟是被「計算」卡住了瓶頸 , 還是被「內存讀取」卡住了瓶頸 。
Roofline模型正是這樣一個經典的性能分析工具 。
它可以根據一個任務的計算量和內存訪問量 , 以及硬件的上述兩個參數 , 精確地預測出該任務的理論運行時長 , 即「延遲(Latency)」 。

理想團隊利用Roofline模型也造了一個「計算器」 , 輸入一個模型和一個硬件平臺 , 就能算出模型在這塊芯片上跑一次需要多長時間 。
團隊基于經典的Roofline模型 , 從第一性原理推導了Transformer端到端推理延遲的完整數學表達 。
研究團隊特別針對車載場景做了關鍵擴展:
首次系統建模了KV緩存、MoE路由、注意力機制等大模型特有負載對車載SoC內存子系統的影響 , 在Jetson Orin/Thor平臺上驗證了普適性 。
這個延遲模型有多高效?
20分鐘內就可以評估5萬+種架構配置 。

模型跑多快 , 也算一下就知道 。

合二為一:帕累托最優搜索


接下來就是聯合優化 。
團隊開發了PLAS框架(Pareto-optimal LLM Architecture Search):
給定芯片的算力、帶寬和內存約束 , 自動找到使損失最小、同時延遲不超標的最優架構 。

解集構成一條帕累托最優前沿——前沿上每個點 , 都是該延遲預算下能達到的最低損失 。
你不可能在不增加延遲的情況下降低損失 , 也不可能在不增加損失的情況下減少延遲 。
這就是「軟硬協同設計定律」的本質:將模型精度和推理效率統一在同一數學框架下的聯合優化理論 。
這也是論文最硬核的部分:在不同硬件約束下 , 最優模型架構參數存在閉合解 。
無需訓練 , 給定芯片參數 , 直接算出模型架構最優解 。

以下是團隊推導出來的三個關鍵定理 。
定理一:延遲約束下的「免費午餐」 。
芯片速度是瓶頸 , 內存充裕(如車載高端平臺)的場景下 。
MoE專家越多、每次激活越少越好 。

為什么叫「免費」?MoE中不管總共多少專家 , 每個token只激活K個來計算 。
增加總專家數完全不影響推理延遲 , 但模型容量實打實增加了 。
對自動駕駛的啟示:在sub-50ms極限延遲下 , 應采用top-1路由 , 內存允許范圍內最大化專家池 。
定理二:內存約束下的「寬度-稀疏度定律」 。
存儲有限、速度夠用(如4-8GB邊緣設備)的場景下 。
結論是模型越寬 , MoE越應該稀疏 。寬度每翻一倍 , 最優激活率下降約2.3倍 。

比如 , 2B參數模型推薦每次激活2個、總共16個專家;500M參數模型推薦更密集的MoE配置 。
以上都是有數學證明的最優解 , 不是拍腦袋的數據 。
定理三:雙重約束下的精確處方 。
延遲和內存同時緊張(實際部署最常見的情況)的場景下 , 論文給出了預填充和解碼兩種階段各自的精確閉合解 。

不管芯片什么約束組合 , 定律都有對應公式 。

顛覆認知的關鍵發現


除三大定理外 , 論文還揭示了幾個違反直覺的設計原則:

  1. 稀疏架構全面碾壓密集架構 。
  2. 端側batch=1場景下 , 帕累托最優設計100%是MoE , 沒有Dense模型 。 大多數最優配置的專家激活比例為在8~16個中激活1~2個 。
  3. 內存子系統比算力峰值更重要 。
  4. 「寬而淺」的最優架構形態表明 , 內存帶寬和緩存效率往往比理論TOPS更決定實際性能 。
  5. Prefill和Decode對硬件需求截然不同 。
  6. 芯片需要支持動態資源分配 , 而非固定流水線 。
  7. FFN可以激進壓縮 。
  8. 最優FFN擴展比遠低于傳統4× , 甚至可以低于1× , 芯片的矩陣乘單元和激活函數單元需要更靈活的配比 。
  9. 量化加速需要硬件原生支持 。
  10. INT8量化僅實現1.3-1.6倍而非理論2倍加速 , 根源在于非線性算子和精度轉換開銷 。 下一代芯片需要在指令集層面提供混合精度計算的原生支持 。

也就是說 , 沒有通用芯片 , 只有場景最優芯片 。
最優架構強烈依賴于具體硬件參數 , 從根本上證明了「算法定義芯片」的必要性 。

用數據說話:19.42%的碾壓
理論再漂亮 , 沒有實驗驗證都是空中樓閣 。
團隊在NVIDIA Jetson Orin(一款代表性的端側AI計算平臺)上做了大規模驗證:
通過延遲模型評估了1942種候選架構配置 , 精選170個進行完整訓練(每個100億token) 。
這可能是端側LLM領域規模最大的系統性架構搜索實驗——沒有之一 。
團隊選取了Qwen2.5-0.5B(通義千問5億參數版本 , 端側廣泛使用的開源模型)作為基準 。
先在Orin上實測其推理延遲 , 再從PLAS框架中選取相同延遲下的協同設計架構 。
兩者使用完全相同的訓練數據和優化策略 , 公平對比 。

結果:
  • Qwen2.5-0.5B困惑度:63.14
  • 協同設計架構困惑度:50.88
困惑度降低19.42%!

而且這不是訓練終點的「碰巧」——從訓練曲線看 , 協同設計架構全程領先 , 優勢來自架構本身 , 而非隨機波動 。
同時給出了不同硬件平臺(Jetson Orin/Thor)上的帕累托最優前沿 , 驗證了「硬件協同設計擴展定律」的跨硬件平臺泛化性 。

同樣的芯片 , 跑同樣快 , 但智商高了近20%——這就是「軟硬協同設計」的力量 。
另一個同樣重要的數據:架構選型時間從數月壓縮到一周 。

傳統流程中 , 給一塊新芯片選擇最優LLM架構 , 需要反復訓練、測試、調優 , 耗時數月 。
有了協同設計定律后 , 流程變成:
輸入芯片參數 → 定律計算最優架構 → 小規模驗證校準 → 完成 。
研發效率提升一個數量級!
這意味著當理想下一代自研芯片出來的時候 , 最優模型架構不需要再等數月適配期 , 使用「軟硬協同設計定律」可以提前算出來 。

端側AI的Scaling Law
如果說 , OpenAI的Scaling Law回答了「模型為何越大越聰明」 。
理想這個定律回答:「在固定芯片上 , 模型怎么變到最聰明」 。

OpenAI的Scaling Law是云端大模型繁榮的基石 。
在它出現之前 , 訓練多大的模型、用多少數據往往依賴工程師的直覺(經驗主導) 。

論文地址:https://arxiv.org/pdf/2001.08361
它通過嚴謹的數學公式證明了模型的性能與計算量、參數量、數據量之間存在可預測的冪律關系 。
Scaling Law成功指導了大語言模型的迭代 , 使得巨頭們敢于投入數億美金去訓練更大級別的模型 。
而理想的Hardware Co-Design Scaling Law是向端側邁出的關鍵一步 。
它從約束優化理論出發推導出解析解 , 在給定的硬件物理極限和實際應用約束條件下 , 科學指導如何最優地分配端側推理資源 。
這是首個面向端側LLM的、可操作的硬件協同設計擴展定律 。
兩者雖然約束條件和發力點不同 , 但在本質上殊途同歸:
都是用數學和科學的確定性 , 消除了AI發展過程中的經驗盲區與隨機性 。

從「堆算力」到「榨算力」


過去智駕競爭的敘事是「我的芯片比你大」 。
但這篇論文證明:
芯片有多少TOPS和實際能發揮多少智能之間 , 存在巨大鴻溝 。
100 TOPS的芯片 , 模型架構不匹配 , 可能只發揮30%效能 。
軟硬協同設計定律要做的 , 就是把效能利用率拉到接近理論上限 。
不是比誰芯片更大 , 是比誰更懂怎么用芯片 。 這才是降維打擊 。

「芯片-模型」聯合開發新范式


這對理想即將量產的馬赫100自研芯片意義重大 。
馬赫100是5納米車規級芯片 , 2026年將在全新理想L9搭載 。
單顆馬赫100的有效算力是英偉達Thor-U的3倍 , 全新L9的雙馬赫100芯片 , 有效算力就是Thor U的5-6倍了 。

之前傳統的做法是 , 等芯片流片回來 , 花數月重新適配模型 。
有了協同設計定律:輸入芯片參數 , 定律直接算出最優VLA架構——芯片還沒量產 , 最優模型已經算出來了 。
配合理想的完整技術棧來看 , 從芯片到定律到系統到模型——這是一個完整的技術閉環 。
  • 馬赫100:提供硬件算力
  • 協同設計定律:確保每一分算力被精準利用
  • 星環OS:統一軟件架構和開發者生態
  • MindVLA:落地智能輔助駕駛大模型
基于這個定律 , 理想的自研芯片將不再是通用AI加速器 , 而是專為車載VLA系統優化的「算法原生芯片」——在架構層面原生支持稀疏計算、動態資源分配和混合精度推理 。
這不僅是理想汽車從算法到芯片全棧自研能力建設的關鍵里程碑 , 也為行業提供了端側大模型部署的科學方法論 。
同時也為理想汽車的下一代智能駕駛系統提供數量級的能效提升 。

寫在最后


摩爾定律在放緩——晶體管數量翻倍的時代正在終結 。
「協同設計定律」標志著一條新曲線的開始:不靠芯片變快提升智能 , 靠更聰明地使用芯片提升智能 。
理想團隊計劃開源相關代碼和評測協議 。
整個行業——汽車、機器人、IoT、移動端——都可以站在這個理論框架上 , 為自己的芯片找到最優的大模型架構 。
真正的領先 , 從來不是簡單的硬件堆砌 , 而是源于底層基礎科學的突破 。 當理想率先用嚴謹的數學規律重構端側 AI 的邊界時 , 這種在底層理論上的深耕與引領 , 正是理想智能駕駛系統能夠跨越算力瓶頸、持續領跑行業的最大底氣 。
【無需訓練,直接「算出」最強AI!理想汽車發現端側Scaling Law】在智能駕駛的下半場 , 能夠定義底層規則的企業 , 才能真正主導全場景智能的未來體驗 。

    推薦閱讀