LeCun團隊揭示LLM語義壓縮本質:極致統計壓縮犧牲細節

LeCun團隊揭示LLM語義壓縮本質:極致統計壓縮犧牲細節

文章圖片

LeCun團隊揭示LLM語義壓縮本質:極致統計壓縮犧牲細節

文章圖片

LeCun團隊揭示LLM語義壓縮本質:極致統計壓縮犧牲細節

文章圖片

LeCun團隊揭示LLM語義壓縮本質:極致統計壓縮犧牲細節

當我們讀到“蘋果”“香蕉”“西瓜”這些詞 , 雖然顏色不同、形狀不同、味道也不同 , 但仍會下意識地歸為“水果” 。
哪怕是第一次見到“火龍果”這個詞 , 也能憑借語義線索判斷它大概也是一種水果 。
這種能力被稱為語義壓縮 , 它讓我們能夠高效地組織知識、迅速地對世界進行分類 。
那問題來了:大型語言模型(LLM)雖然語言能力驚人 , 但它們在語義壓縮方面能做出和人類一樣的權衡嗎?
為探討這一問題 , 圖靈獎得主LeCun團隊 , 提出了一種全新的信息論框架 。
【LeCun團隊揭示LLM語義壓縮本質:極致統計壓縮犧牲細節】該框架通過對比人類與LLM在語義壓縮中的策略 , 揭示了兩者在壓縮效率與語義保真之間的根本差異:
LLM偏向極致的統計壓縮 , 而人類更重細節與語境 。

語義壓縮對比框架要實證性地研究LLM的表征方式與人類概念結構之間的關系 , 需要兩個關鍵要素:

穩健的人類概念分類基準研究團隊基于認知科學中的三項經典研究(Rosch 1973、1975和McCloskeyGlucksberg 1978) , 構建了一個涵蓋1049個項目、34個語義類別的統一基準 。
這些數據不僅提供了類別歸屬信息 , 還包含人類對各項目“典型性”的評分 , 反映了人類認知中概念形成的深層結構 。
相比現代眾包數據 , 這些經過專家嚴格設計的數據集更具可信度與解釋力 , 為LLM的類人性評估提供了高保真的比較基礎 。

多樣化的LLM模型選擇為全面評估不同大型語言模型在概念表征上的差異 , 研究團隊選取了30+LLMs(BERT、LlamA、Gemma、Qwen等) , 參數規模從3億到720億不等 。
所有模型均從輸入嵌入層提取靜態詞元表示 , 以貼近人類分類實驗中“去上下文”的刺激方式 , 確保模型和人類的認知基準保持一致 , 便于公平比較 。
為分析LLM與人類在表達和組織語義信息時的差異 , 研究引入了一個信息論框架 。
該框架借鑒了兩大經典信息論原理:
速率失真理論:描述壓縮效率與信息失真之間的最優權衡;
信息瓶頸原理:關注在壓縮表示的同時 , 最大程度保留與目標相關的信息 。

LLM與人類在表征策略上的關鍵差異研究發現 , LLM的概念分類結果與人類語義分類的對齊程度顯著高于隨機水平 。
這一結果驗證了LLM在語義組織方面的基本能力 , 并為后續更細粒度的語義結構對比奠定了基礎 。
但是大型語言模型真的理解細節嗎?
答案是:LLM難以處理細粒度的語義差異 。 它們的內部概念結構與人類對類別歸屬的直覺不相符 。
人類典型性判斷與LLM余弦相似度之間的斯皮爾曼相關系數較弱且大多數不顯著 , 表明兩者在概念表征結構上存在差異 。
那LLM和人類在信息壓縮與語義保真上存在哪些關鍵差異呢?
LLM側重于統計壓縮 , 力求最大程度地減少冗余信息;而人類則更注重適應性和豐富性 , 強調保持靈活性和上下文的完整性 。

研究團隊這項研究由斯坦福大學與紐約大學聯合開展 , 團隊成員均來自這兩所高校 。
其中 , 第一作者為斯坦福大學博士后研究員Chen Shani 。
更讓網友震驚的的是 , Yann LeCun也為此研究的作者之一 。
Yann LeCun是當今人工智能領域最具影響力的科學家之一 , 現任 Meta(原 Facebook)首席人工智能科學家 , 同時也是紐約大學教授 。
LeCun早在1980年代便開始研究神經網絡 , 最著名的貢獻是提出了卷積神經網絡(CNN)的核心架構——LeNet-5 , 用于手寫數字識別 。
該網絡是現代深度學習模型的雛形 , 為后續圖像識別和計算機視覺技術的發展奠定了堅實基礎 。
他與Geoffrey Hinton、Yoshua Bengio被譽為“深度學習三巨頭” , 共同推動了深度學習的理論與應用突破 。
2018年 , 三人因在深度學習領域的杰出貢獻 , 榮獲了計算機科學領域的最高獎項——圖靈獎 。
除了技術創新 , LeCun還積極推動深度學習技術在工業界的應用 , 尤其是在Meta , 領導團隊將人工智能技術應用于大規模系統 。
他同時是自監督學習的積極倡導者 , 認為這是實現通用人工智能(AGI)的關鍵路徑之一 。
可以說 , LeCun的研究對人工智能技術的演進產生了重要影響 。
論文地址:https://arxiv.org/abs/2505.17117
參考鏈接:https://x.com/ziv_ravid/status/1928118800139841760

    推薦閱讀