美團智能客服提出逆向學習技術精準糾偏,風險控制提升38%

美團智能客服提出逆向學習技術精準糾偏,風險控制提升38%

文章圖片

美團智能客服提出逆向學習技術精準糾偏,風險控制提升38%

文章圖片

美團智能客服提出逆向學習技術精準糾偏,風險控制提升38%

文章圖片

美團智能客服提出逆向學習技術精準糾偏,風險控制提升38%



美團智能客服最新研究 , 提出了一種逆向學習新技術(簡稱 “逆學習”) , 能像 “精準手術” 一樣 , 安全、高效地抑制模型中的特定錯誤和風險行為 , 在關鍵風險控制指標上提升 38 個百分點以上的同時 , 保障整體服務效果不下降 , 有效提升用戶體驗 。 ”

背景:智能客服場景下的數據回流方案

美團智能客服采用的端到端大模型智能體 , 結合數據回流機制 , 構建了一套從線上服務中自動收集、篩選并利用真實對話數據的閉環優化方案 。 該方案能夠持續從用戶交互中挖掘優質應答樣本(Good Case)與問題樣本(Bad Case) , 顯著提升了模型的指令遵循能力、表達自然度和復雜狀態推理性能 , 在多項業務場景中實現了綜合問題解決率的有效增長 。 其核心優勢在于彌補了傳統人工標注數據成本高、覆蓋有限、更新遲緩的短板 , 增強了模型對真實用戶需求多樣性和業務高頻變更的適應能力 。


圖 1:傳統智能客服常見的問題

然而 , 盡管數據回流機制整體提升了服務效果 , 但由于回流數據源自線上實際交互 , 未經人工全面審核 , 仍可能引入錯誤策略或不當行為 , 例如生成不合理解決方案、違背用戶意圖或帶來商業風險 。 這些問題導致個別關鍵服務質量指標出現顯著下降 , 反映出模型在特定行為控制方面存在嚴重不足 , 亟需一種更精準、低成本的控制手段以實現回復安全性與可靠性的平衡 。

逆學習精準控制模型行為

【美團智能客服提出逆向學習技術精準糾偏,風險控制提升38%】逆學習(Unlearning)是一種針對大模型的 “外科手術式” 行為編輯技術 , 其核心目標是從模型中精準 “切除” 某些不良行為或敏感知識 , 同時最大程度保留原有能力 , 無需重新訓練整個模型 。

針對數據回流中引入的模型行為偏差與風險應答 , 可采用逆學習方法對特定不良行為進行抑制 。 該方法通過構造遺忘樣本集并設計針對性損失函數和優化算法 , 使模型迅速降低對不良策略的傾向性 , 如拒絕生成不合理回復或避免采納高風險解決方案 。 相比之下 , SFT、DPO 等微調方法依賴大量高質量人工標注 , RL 方法則存在 Reward Hacking 和效果不穩定的問題 。 美團團隊提出的精準逆學習算法能夠在幾乎不影響其他場景性能的前提下 , 實現快速、低成本的行為控制 , 從而提升模型在真實服務環境中的可靠性與用戶體驗 。

基于自適應模型參數定位的逆學習方法



項目成員發表于 ICML 2025 的相關論文:https://openreview.net/pdf?id=tcK4PV3VN4

為實現對智能客服模型行為的精準與安全控制 , 美團北斗計劃成員吾爾開希?阿布都克力木和導師程旭欣提出了一種基于自適應模型參數定位的逆學習方法(ALKN) 。 該方法是在吾爾開希?阿布都克力木作為第一作者發表于 ICML 2025 的論文基礎上進一步改進和拓展的成果 , 旨在以 “精準手術” 的方式高效抑制特定錯誤行為 , 同時最大程度保留模型原有能力 。 其核心思路是先從線上交互中系統性收集需 “遺忘” 的對話數據(如錯誤解決方案或高風險回復) , 為逆學習提供明確優化目標 。 整體算法包含三個關鍵環節:低熵損失函數優化、對稱變換迭代訓練以及自適應參數定位機制 。 下面將分點闡述其原理與優勢 。


圖 2:逆學習方法示意圖

對稱變換迭代訓練 —— 提升訓練穩定性:為解決傳統逆學習中梯度上升算法不穩定、易導致模型正常性能大幅下降的問題 , 引入了對稱變換迭代訓練 , 基于梯度下降算法優化模型 。 這種方法通過在每次訓練迭代中對模型參數進行模長約束對稱變換 , 將當前參數關于前一迭代參數進行調整 , 確保更新方向與初始模型保持一致性 , 從而控制參數偏移幅度 。 好比溫和的康復訓練 , 通過迭代調整參數 , 增強訓練的收斂性和穩定性 , 同時精準抑制目標行為 , 最大程度保留模型正常性能 。

低熵損失函數優化 —— 抑制噪聲樣本影響:逆學習訓練時 , 有些無關樣本或簡單樣本反而會帶來較大的梯度更新影響模型效果 , 這是由于 cross-entropy loss 梯度中樣本概率的倒數項 。 為了緩解這一現象 , 設計了一種低熵損失函數 , 以初始模型對目標數據的預測置信度作為權重 , 動態區分核心問題和無關噪聲 。 這就像醫生在治療時只對關鍵病癥下藥 , 最大限度減少副作用 , 從而降低對模型參數的劇烈擾動 , 提升訓練穩定性 。

自適應參數定位 —— 平衡行為抑制與性能保持:為進一步平衡行為抑制與性能保持 , 設計了一種自適應參數定位算法 , 精準識別與風險行為相關的關鍵參數 。 這就像使用 MRI 掃描儀定位大腦中的病灶區域 , 僅對關鍵參數進行稀疏微調 , 而其他參數保持不變 。 具體實現上 , 通過計算風險數據和正常數據的梯度向量 , 基于其模長和夾角構建重要性度量 , 并采用滑動平均維護全局度量(如公式 1 所示) 。 微調時僅更新重要性度量選出的模型參數 , 從而實現精準的行為遺忘 , 同時最大程度保留模型的泛化能力 。


公式 1:重要性度量更新公式

綜上所述 , 基于自適應模型參數定位的逆學習方法 , 在行為控制的精準性、訓練穩定性和綜合性能保持方面均表現出顯著優勢 , 為智能客服在面對復雜用戶場景和高頻業務變更時 , 提供了一種高效、低成本的模型優化新路徑 。

在性能表現上 , 自適應逆學習方法相較于多種基線方法展現出顯著優勢 。 基線方法包括原回流方案模型、去除目標數據后通過 SFT 訓練的模型 , 以及使用強模型打標結合人工篩選數據進行 DPO 訓練的模型 。 實驗結果表明 , 自適應逆學習方法(ALKN)的線上指標優于多種基線方法 。 如圖 3 所示 , 性能指標的變化與風險行為的抑制呈現權衡關系 , 對模型行為的控制往往伴隨著整體性能下降作為代價 。 雖然 DPO 在行為抑制方面效果較好 , 但其會導致綜合問題解決率和用戶滿意度等關鍵指標大幅下降 。 而自適應逆學習方法得益于低熵損失函數、對稱變換迭代訓練和自適應參數定位的協同作用 , 不僅精準抑制目標行為 , 還能保持整體性能指標基本不變 。 這種優異表現源于方法對關鍵參數的精準定位與稀疏微調策略 , 有效避免了對正常數據性能的破壞 , 為智能客服場景提供了兼顧行為控制與性能穩定的高效解決方案 , 顯著推動了業務指標的優化和用戶體驗的提升 。


圖 3:三種方法在多種參數設置下的性能對比實驗

展望

針對精準抑制大模型行為這一挑戰問題 , 未來可進一步與強化學習算法融合 , 構建混合優化框架 , 例如利用逆學習思想高效抑制不期望行為 , 同時引導模型學習更優的替代策略 , 以填補行為抑制后的策略空缺并增強決策的魯棒性 , 從而在動態環境中實現持續的行為優化 。 此外 , 自適應參數定位算法的核心思想可推廣至不同場景與不同模型中 , 通過精準參數干預優化隱私保護、跨域適配和模型可控性 。 隨著大模型技術的持續演進 , 該方法將推動 AI 系統向更精細化、可控化的方向邁進 , 為多樣化的業務需求提供可持續的優化路徑 , 最終實現模型行為與復雜場景需求的深度契合 。

作者介紹



吾爾開希?阿布都克力木 , 本科和博士就讀于清華大學自動化系 , 導師為張長水教授 , 研究方向是大語言模型與持續學習 。 他已在頂級學術會議和期刊上發表了十篇論文 , 其中七篇為第一作者 , 且有論文入選 ICLR Spotlight 。 當前 , 他是美團北斗計劃成員 , 隸屬于 LongCat Interaction 團隊 , 主要從事美團本地生活服務大模型的研發以及大模型行為控制與決策方向的研究工作 。

    推薦閱讀