無需訓練，直接「算出」最強AI！理想汽車發現端側Scaling Law

2026-04-07 人工智能 ai 芯片理想汽車

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

編輯：定慧
【新智元導讀】如何把龐大的大模型塞進受限的車載芯片？面對端側算力瓶頸，最新的「軟硬協同設計定律」給出破局解法：只需輸入芯片參數，即可免訓練算出最優模型架構。同等算力下，模型智商躍升近20% ，研發周期從數月縮至一周。

如何把「大象」塞進冰箱？
這正是現代智能輔助駕駛正在努力完成的一個命題。
我們希望車子能擁有一個像愛因斯坦一樣聰明的超級大腦，但現實的尷尬是：
你不可能在后備箱里塞進一個需要液冷的服務器機柜！

當云端大模型正在加速沖刺AGI的同時，具身智能、智能駕駛等真實物理場景卻正面臨著一個隱性的巨大焦慮：「小」。

如何把「大模型」塞進極其有限的「小空間」車載芯片或機器人控制核心里？

這就是目前智能駕駛、具身智能、VR等領域碰到的一個現實問題：
被一塊小小的芯片「卡住了脖子」。
智能駕駛正在邁向全場景智能，但車載算力平臺撞上了一個核心悖論：
比如，一個在云端GPU上10毫秒就能完成的推理任務，到了車載芯片上可能要300毫秒。對自動駕駛來說， 300毫秒意味著車輛在高速上「盲開」了好幾米。
所有巨頭，英偉達、蘋果、微軟、谷歌都在想辦法。
但是第一個給出理論級答案的，是一家中國車企。
2026年2月，理想汽車基座模型MindVLA團隊與國創決策智能技術研究所聯合發布了一篇論文：《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》。
提出了面向端側大語言模型的「硬件協同設計擴展定律」。

論文地址：https://arxiv.org/abs/2602.10377
這篇論文直面了當前最核心的挑戰之一：
如何將越來越強大的大語言模型高效地部署在資源受限的「端側設備」（如汽車、手機、機器人）上。
提到理想汽車，多數人的第一反應還是「增程式電動車的代表」。但審視其近兩年的技術布局：自研5nm車規芯片馬赫100、開源操作系統星環OS、自研基座大模型MindVLA、端到端智駕全棧自研。
理想正在從一家以增程技術見長的汽車公司，蛻變為一家以智能駕駛和具身智能為核心的AI公司。
而這篇剛剛發布的論文，是理解這場轉型最好的注腳。

大模型「上車」，卡住了！
如何將目前「最先進的AI」裝入汽車？
這里會遇到了一個巨大的矛盾：
一方面，希望車載AI模型盡可能地聰明、反應迅速，以確保駕駛安全和流暢的交互體驗。這要求模型規模大、結構復雜。
另一方面，汽車內部的計算單元（芯片）受到嚴格的物理限制，包括功耗、散熱、內存大小和成本。這要求模型必須小巧、高效。
傳統的做法通常是「模型歸模型，硬件歸硬件」。
AI研究者設計出性能強大的模型，然后由工程師想辦法在硬件上進行優化和「塞入」。
這種方式效率低下，且往往無法達到真正的最優。
這就好比為一個F1賽車引擎設計了一個巨型卡車的底盤，二者無法完美匹配，引擎性能大打折扣。
而理想這篇論文正是為了解決這個「失配」問題，他們提出了一套系統性的方法：
在設計模型之初就將硬件的能力考慮進來，實現「軟硬協同設計」（Hardware Co-Design）。

架構選擇（右側）與硬件平臺（左側）共同塑造損失-延遲帕累托前沿

軟硬協同：連接模型與硬件的橋梁

如何衡量模型的「智慧」？

先來簡單介紹下什么是損失-延遲帕累托前沿。
在AI領域，「損失」是衡量模型預測與真實答案之間偏差的指標。
損失越低，模型預測越準確，代表它越「聰明」、精度越高。你可以把它理解為「工作質量」。
延遲指的是AI給出反應需要多長時間。延遲越低，速度越快，代表它能做到「秒回」。你可以把它理解為「工作速度」。
帕累托前沿是一個經濟學概念。
通俗地說，當你追求既要「質量高」（低損失），又要「速度快」（低延遲）時，你會遇到一個物理極限。

到了這個極限狀態后，你不可能在不犧牲速度的前提下，讓AI變得更聰明；也不可能在不犧牲聰明度的前提下，讓AI跑得更快。
所有這些「最優的折中點」連起來的一條線，就叫「帕累托前沿」。

理想團隊發現，模型的最終損失與其架構超參數（如網絡深度、寬度、專家數量等）之間存在著可預測的數學關系。
通過對這個關系進行精確建模，就可以在不實際訓練的情況下預測模型性能。
團隊做了一件極其扎實的事——真的訓了170個不同架構的Transformer模型，每個用100億token訓練，覆蓋Dense（密集）和MoE（混合專家）兩大類，層數4到48 ，寬度256到4096 ， MoE專家數1到64 。
目的就是擬合一條精度預測公式：
給定任意一組架構超參數，直接預測驗證損失——不用真的訓練。

關鍵數據：擬合精度達到R2=0.975（訓練集）和R2=0.952（32個全新架構的驗證集）
在同時包含密集和稀疏模型的異質架構空間中，這個預測精度極其驚人。
模型有多聰明，算一下就知道。
通俗地說，理想團隊找到了一個「計算器」，輸入一個模型的設計方案，就能算出這個模型理論上能有多聰明。

如何衡量硬件的「性能」？

對于一塊芯片而言，決定其運行速度的關鍵因素有兩個：
峰值計算能力 (FLOPS)：芯片每秒能執行多少次浮點運算，如同工廠的生產線速度。
內存帶寬 (Bandwidth)：芯片每秒能從內存中讀取多少數據，如同工廠的物料供應速度。
一個程序的運行速度，取決于它究竟是被「計算」卡住了瓶頸，還是被「內存讀取」卡住了瓶頸。
Roofline模型正是這樣一個經典的性能分析工具。
它可以根據一個任務的計算量和內存訪問量，以及硬件的上述兩個參數，精確地預測出該任務的理論運行時長，即「延遲（Latency）」。

理想團隊利用Roofline模型也造了一個「計算器」，輸入一個模型和一個硬件平臺，就能算出模型在這塊芯片上跑一次需要多長時間。
團隊基于經典的Roofline模型，從第一性原理推導了Transformer端到端推理延遲的完整數學表達。
研究團隊特別針對車載場景做了關鍵擴展：
首次系統建模了KV緩存、MoE路由、注意力機制等大模型特有負載對車載SoC內存子系統的影響，在Jetson Orin/Thor平臺上驗證了普適性。
這個延遲模型有多高效？
20分鐘內就可以評估5萬+種架構配置。

模型跑多快，也算一下就知道。

合二為一：帕累托最優搜索

接下來就是聯合優化。
團隊開發了PLAS框架（Pareto-optimal LLM Architecture Search）：
給定芯片的算力、帶寬和內存約束，自動找到使損失最小、同時延遲不超標的最優架構。

解集構成一條帕累托最優前沿——前沿上每個點，都是該延遲預算下能達到的最低損失。
你不可能在不增加延遲的情況下降低損失，也不可能在不增加損失的情況下減少延遲。
這就是「軟硬協同設計定律」的本質：將模型精度和推理效率統一在同一數學框架下的聯合優化理論。
這也是論文最硬核的部分：在不同硬件約束下，最優模型架構參數存在閉合解。
無需訓練，給定芯片參數，直接算出模型架構最優解。

以下是團隊推導出來的三個關鍵定理。
定理一：延遲約束下的「免費午餐」。
芯片速度是瓶頸，內存充裕（如車載高端平臺）的場景下。
MoE專家越多、每次激活越少越好。

為什么叫「免費」？MoE中不管總共多少專家，每個token只激活K個來計算。
增加總專家數完全不影響推理延遲，但模型容量實打實增加了。
對自動駕駛的啟示：在sub-50ms極限延遲下，應采用top-1路由，內存允許范圍內最大化專家池。
定理二：內存約束下的「寬度-稀疏度定律」。
存儲有限、速度夠用（如4-8GB邊緣設備）的場景下。
結論是模型越寬， MoE越應該稀疏。寬度每翻一倍，最優激活率下降約2.3倍。

比如， 2B參數模型推薦每次激活2個、總共16個專家；500M參數模型推薦更密集的MoE配置。
以上都是有數學證明的最優解，不是拍腦袋的數據。
定理三：雙重約束下的精確處方。
延遲和內存同時緊張（實際部署最常見的情況）的場景下，論文給出了預填充和解碼兩種階段各自的精確閉合解。

不管芯片什么約束組合，定律都有對應公式。

顛覆認知的關鍵發現

除三大定理外，論文還揭示了幾個違反直覺的設計原則：

稀疏架構全面碾壓密集架構。
端側batch=1場景下，帕累托最優設計100%是MoE ，沒有Dense模型。大多數最優配置的專家激活比例為在8～16個中激活1～2個。
內存子系統比算力峰值更重要。
「寬而淺」的最優架構形態表明，內存帶寬和緩存效率往往比理論TOPS更決定實際性能。
Prefill和Decode對硬件需求截然不同。
芯片需要支持動態資源分配，而非固定流水線。
FFN可以激進壓縮。
最優FFN擴展比遠低于傳統4× ，甚至可以低于1× ，芯片的矩陣乘單元和激活函數單元需要更靈活的配比。
量化加速需要硬件原生支持。
INT8量化僅實現1.3-1.6倍而非理論2倍加速，根源在于非線性算子和精度轉換開銷。下一代芯片需要在指令集層面提供混合精度計算的原生支持。

也就是說，沒有通用芯片，只有場景最優芯片。
最優架構強烈依賴于具體硬件參數，從根本上證明了「算法定義芯片」的必要性。

用數據說話：19.42%的碾壓
理論再漂亮，沒有實驗驗證都是空中樓閣。
團隊在NVIDIA Jetson Orin（一款代表性的端側AI計算平臺）上做了大規模驗證：
通過延遲模型評估了1942種候選架構配置，精選170個進行完整訓練（每個100億token）。
這可能是端側LLM領域規模最大的系統性架構搜索實驗——沒有之一。
團隊選取了Qwen2.5-0.5B（通義千問5億參數版本，端側廣泛使用的開源模型）作為基準。
先在Orin上實測其推理延遲，再從PLAS框架中選取相同延遲下的協同設計架構。
兩者使用完全相同的訓練數據和優化策略，公平對比。

結果：

Qwen2.5-0.5B困惑度：63.14
協同設計架構困惑度：50.88

困惑度降低19.42%!

而且這不是訓練終點的「碰巧」——從訓練曲線看，協同設計架構全程領先，優勢來自架構本身，而非隨機波動。
同時給出了不同硬件平臺(Jetson Orin/Thor）上的帕累托最優前沿，驗證了「硬件協同設計擴展定律」的跨硬件平臺泛化性。

同樣的芯片，跑同樣快，但智商高了近20%——這就是「軟硬協同設計」的力量。
另一個同樣重要的數據：架構選型時間從數月壓縮到一周。

傳統流程中，給一塊新芯片選擇最優LLM架構，需要反復訓練、測試、調優，耗時數月。
有了協同設計定律后，流程變成：
輸入芯片參數 → 定律計算最優架構 → 小規模驗證校準 → 完成。
研發效率提升一個數量級！
這意味著當理想下一代自研芯片出來的時候，最優模型架構不需要再等數月適配期，使用「軟硬協同設計定律」可以提前算出來。

端側AI的Scaling Law
如果說， OpenAI的Scaling Law回答了「模型為何越大越聰明」。
理想這個定律回答：「在固定芯片上，模型怎么變到最聰明」。

OpenAI的Scaling Law是云端大模型繁榮的基石。
在它出現之前，訓練多大的模型、用多少數據往往依賴工程師的直覺（經驗主導）。

論文地址：https://arxiv.org/pdf/2001.08361
它通過嚴謹的數學公式證明了模型的性能與計算量、參數量、數據量之間存在可預測的冪律關系。
Scaling Law成功指導了大語言模型的迭代，使得巨頭們敢于投入數億美金去訓練更大級別的模型。
而理想的Hardware Co-Design Scaling Law是向端側邁出的關鍵一步。
它從約束優化理論出發推導出解析解，在給定的硬件物理極限和實際應用約束條件下，科學指導如何最優地分配端側推理資源。
這是首個面向端側LLM的、可操作的硬件協同設計擴展定律。
兩者雖然約束條件和發力點不同，但在本質上殊途同歸：
都是用數學和科學的確定性，消除了AI發展過程中的經驗盲區與隨機性。

從「堆算力」到「榨算力」

過去智駕競爭的敘事是「我的芯片比你大」。
但這篇論文證明：
芯片有多少TOPS和實際能發揮多少智能之間，存在巨大鴻溝。
100 TOPS的芯片，模型架構不匹配，可能只發揮30%效能。
軟硬協同設計定律要做的，就是把效能利用率拉到接近理論上限。
不是比誰芯片更大，是比誰更懂怎么用芯片。這才是降維打擊。

「芯片-模型」聯合開發新范式

這對理想即將量產的馬赫100自研芯片意義重大。
馬赫100是5納米車規級芯片， 2026年將在全新理想L9搭載。
單顆馬赫100的有效算力是英偉達Thor-U的3倍，全新L9的雙馬赫100芯片，有效算力就是Thor U的5-6倍了。

之前傳統的做法是，等芯片流片回來，花數月重新適配模型。
有了協同設計定律：輸入芯片參數，定律直接算出最優VLA架構——芯片還沒量產，最優模型已經算出來了。
配合理想的完整技術棧來看，從芯片到定律到系統到模型——這是一個完整的技術閉環。

馬赫100：提供硬件算力
協同設計定律：確保每一分算力被精準利用
星環OS：統一軟件架構和開發者生態
MindVLA：落地智能輔助駕駛大模型

基于這個定律，理想的自研芯片將不再是通用AI加速器，而是專為車載VLA系統優化的「算法原生芯片」——在架構層面原生支持稀疏計算、動態資源分配和混合精度推理。
這不僅是理想汽車從算法到芯片全棧自研能力建設的關鍵里程碑，也為行業提供了端側大模型部署的科學方法論。
同時也為理想汽車的下一代智能駕駛系統提供數量級的能效提升。

寫在最后

摩爾定律在放緩——晶體管數量翻倍的時代正在終結。
「協同設計定律」標志著一條新曲線的開始：不靠芯片變快提升智能，靠更聰明地使用芯片提升智能。
理想團隊計劃開源相關代碼和評測協議。
整個行業——汽車、機器人、IoT、移動端——都可以站在這個理論框架上，為自己的芯片找到最優的大模型架構。
真正的領先，從來不是簡單的硬件堆砌，而是源于底層基礎科學的突破。當理想率先用嚴謹的數學規律重構端側 AI 的邊界時，這種在底層理論上的深耕與引領，正是理想智能駕駛系統能夠跨越算力瓶頸、持續領跑行業的最大底氣。
【無需訓練，直接「算出」最強AI！理想汽車發現端側Scaling Law】在智能駕駛的下半場，能夠定義底層規則的企業，才能真正主導全場景智能的未來體驗。

推薦閱讀

上一篇：海南的第一張AI牌，打給了百度

下一篇：100億，貴在機器人的“腦子”上