AAAI 2026 Oral:明略科技開創稀疏數據「信息瓶頸動態壓縮」

AAAI 2026 Oral:明略科技開創稀疏數據「信息瓶頸動態壓縮」

文章圖片

AAAI 2026 Oral:明略科技開創稀疏數據「信息瓶頸動態壓縮」

文章圖片

AAAI 2026 Oral:明略科技開創稀疏數據「信息瓶頸動態壓縮」

機器之心發布
機器之心編輯部
在機器人和具身智能領域 , transformer 模型正變大越來越通用 , 同時也越來越 「重」 。 我們在渴望 SOTA 精度 , 但現實世界的邊緣設備 (如機器人端場景) 卻無法承受其高昂的計算和延遲 。

論文地址:https://arxiv.org/pdf/2511.15580v3
「Efficient AI」的核心挑戰之一是:模型是否真的需要處理所有輸入數據?
由東南大學、中南大學、明略科技(2718.HK)聯合提出的一篇被 AAAI 2026 接收為 Oral 的論文 CompTrack 給出了一個深刻的答案 。 這項工作展示了壓縮技術如何大幅降低計算開銷 , 同時保持或甚至提升模型性能 , 以 3D 點云跟蹤作為一個引人注目的應用案例 。
具體而言 , 該工作一針見血地指出 , 當前 AI 模型(尤其在處理稀疏數據如點云時)普遍面臨「雙重冗余」(Dual-Redundancy)挑戰:

空間冗余 (Spatial Redundancy):海量的、無關的背景點和空白區域(如天空、遠處的建筑物)被送入網絡 , 這不僅浪費算力 , 更污染了特征 , 導致精度下降 。信息冗余 (Informational Redundancy):這一點更為致命且常被忽視 。 即便是在我們真正關心的「前景目標」上 , 也充斥著大量重復和低價值的信息 。 例如 , 在識別一輛車時 , 車輛引擎蓋上的 100 個點和 500 個點提供的有效幾何信息幾乎是等價的;而車輪、邊角等關鍵點的價值則遠高于這些平坦表面 。
現有方法大多只處理了問題 1(過濾背景) , 卻對問題 2(壓縮前景)束手無策 。 CompTrack 創新性地提出了一個端到端框架 , 從根本上同時解決這兩種冗余 。
核心洞察(一):用「信息熵」過濾空間冗余
【AAAI 2026 Oral:明略科技開創稀疏數據「信息瓶頸動態壓縮」】針對空間冗余 , CompTrack 采用了一個空間前景預測器 (SFP)。 SFP 是一個輕量級模塊 , 它基于信息熵理論 , 通過一個高斯熱圖監督學習 , 精準地「篩除」那些信息含量極低、對任務無益的背景噪聲 。 這一步為后續的精準壓縮奠定了堅實基礎 。

核心洞察(二):用「信息瓶頸」動態壓縮信息冗余
這篇工作最核心的貢獻 , 是其信息瓶頸引導的動態令牌壓縮 (IB-DTC) 模塊 , 它專為解決「前景信息冗余」而設計 。

為什么這個模塊是 Efficient AI 的一次重要探索?
1. 理論完備 , 告別盲目壓縮:該模塊的構建基于堅實的「信息瓶頸 (IB)」原理 。 其目標非常明確:只保留那些對最終預測(如目標運動)有價值的信息 , 并丟棄所有不相關的冗余信息 。 它進一步證明 , 這種信息冗余在數學上等價于特征矩陣的 「低秩 (Low-Rank)」特性 。
2. SVD 指導 , 實現「動態」壓縮:IB-DTC 最精妙的設計在于其動態性 。 它沒有使用一個固定的、「一刀切」的壓縮率 , 而是利用在線奇異值分解 (SVD), 在推理時(on-the-fly)實時分析當前輸入前景數據的「內在秩 (intrinsic rank)」 。 這意味著:
如果前景簡單(如一輛側面的卡車) , 模型自動使用高壓縮率 。 如果前景復雜(如一個騎行者) , 模型自動使用低壓縮率 。 這種數據依賴的動態壓縮 , 在保留關鍵信息的同時 , 最大化了計算效率 。3. 繞過 SVD , 實現「端到端」訓練:SVD 本身是不可微分的 , 無法直接用于訓練 。 CompTrack 巧妙地將其用作一個「引導者」:SVD 只負責在前向傳播時提供最優的壓縮率 K 和特征基(prior) , 而真正的壓縮則由一個可學習的、基于 K 的 Cross-Attention 模塊完成。 這使得整個高效壓縮流程可以端到端訓練 。
應用成效:更少算力 , 更高精度!
CompTrack 將該框架應用于極具挑戰性的 3D 點云跟蹤任務 。 結果證明 , 這種對「信息冗余」的系統性壓縮是極其高效的:
速度:在 RTX 3090 上達到 80 FPS 的實時性能 , 相比 SOTA 方法 (P2P) 65 FPS 的速度 , 實現了 1.3 倍的加速 。 效率:計算量(FLOPs)顯著降低 , 僅為 0.94G 。 消融實驗證實 , IB-DTC 模塊是實現效率飛躍(從 48 FPS 提升至 75 FPS)的核心 。 精度:在實現極致效率的同時 , CompTrack 在 nuScenes 和 Waymo 兩個大規模數據集上均刷新了 SOTA(State-of-the-art)性能 。CompTrack 的意義遠不止于 3D 跟蹤 。 它提供了一個「理論指導、動態自適應、端到端」的通用信息壓縮范式 。
該工作證明了 , 與其盲目地讓 Transformer 處理所有數據 , 不如先問一個更基本的問題:「哪些信息是真正有價值的?」 。 CompTrack 的技術預示著高效 AI 的更廣泛范式轉變 。 其動態、SVD 引導的壓縮易于適應其他涉及稀疏或冗余數據的領域 , 如機器人中的傳感器融合 , 甚至視覺 - 語言模型中的多模態處理 。 通過優先考慮信息效率而非蠻力計算 , CompTrack 也為后續解決視頻理解、多模態融合乃至大模型推理中的信息冗余問題 , 提供了極具前景的新思路 。
這正是 Efficient AI 未來的發展方向:不做無效計算 , 只為價值付費 。

    推薦閱讀