新研究讓大模型學會主動追問,人機協作效果大幅提升

新研究讓大模型學會主動追問,人機協作效果大幅提升

文章圖片

新研究讓大模型學會主動追問,人機協作效果大幅提升

文章圖片

新研究讓大模型學會主動追問,人機協作效果大幅提升

在寫作等開放性任務中 , AI 能跳出現有信息框架 , 提出類似人類的、甚至人類沒有想到的建議嗎?

在以往的研究中 , AI 聊天機器人與用戶的對話一般是被動的事實性問答 , 即對已有信息進行相關澄清和梳理 。 盡管可直接通過指令讓 AI 提出解決方案 , 但其并不承擔創造性任務 。

在近期的一項研究中 , 研究人員為 AI 輸出創造性內容提供了一種可能的方案 。 美國南加州大學與微軟公司、加州大學戴維斯分校團隊合作 , 引入了一種主動信息收集的任務范式 , 通過強化學習訓練大語言模型 , 即便面對不完整或模糊的提示 , 大語言模型也可以主動識別信息缺口 。

并且 , 基于特定問題主動挖掘用戶隱含的信息或知識 , 通過提升模型在復雜、開放性任務中的協作能力 , 來更好地完成任務 , 特別是在社會科學、商業等深層次的上下文推理任務中具有優勢 。

可以這樣來理解:面試者需要通過面試官提出有啟發性的問題以及互動 , 才能更好地展示自身價值 , 讓 AI 解讀相對復雜文檔的原理亦是如此 。


圖丨項目主要成員 , 從左至右依次是:楊瓏頎、黃騰昊、周沛和陳斯昊(來源:該團隊)

相關論文以《教會語言模型主動收集信息》(Teaching Language Models To Gather Information Proactively)為題 , 已經被 EMNLP-Findings 2025 接收 [1
。 南加州大學博士生黃騰昊(目前在微軟實習)是第一作者 , 微軟公司資深研究科學家周沛和陳斯昊擔任共同通訊作者 。


圖丨相關論文(來源:EMNLP)

為確保模擬的模糊性既真實又可學習 , 研究團隊基于涵蓋 25 個專業領域、1000 多條數據的 DOLOMITES 數據集進行測試 , 并設計了掩蓋關鍵信息并模擬真實的模糊性的機制 。

據介紹 , 在強化學習的獎勵設計中 , 研究人員希望獎勵機制更專注于“提出創造性問題”這一行為本身 , 而非具體問題的內容 。 重點在于鼓勵模型提出在已有數據中不存在的新問題 , 并以此作為強化獎勵的依據 。


圖丨主動澄清有助于實現最佳的大模型響應(來源:EMNLP)

陳斯昊指出 , 如果針對其中一個答案去做特定訓練 , 并不會得到很好的泛化性 。 “我們的做法是將最終輸出的評估作為獎勵信號 , 相當于在機器學習時專門去學習怎樣生成和人類標注出來的答案一樣 。 最后 , 生成符合獎勵模式的答案 。 ”

研究人員將已有的數據轉化成獎勵信號 , 通過設計對話模擬引擎 , 把用來做監督學習的任務轉變成對話形式 。 相當于兩個 AI 之間通過互動的方式 , 一個 AI 提出澄清問題 , 另一個 AI 基于問題質量/回答有效性打分 , 進而獲得獎勵信號 。


圖丨評估框架下的實驗結果(來源:EMNLP)

研究結果顯示 , 經過該方法微調的 Qwen-2.5-7B 模型 , 在自動評估指標上比基線模型 o3-mini 提高了 18%;而在人類評估中 , 基于該方法生成的澄清問題以及最終大綱分別獲得 42% 和 28% 的偏好率 。
【新研究讓大模型學會主動追問,人機協作效果大幅提升】

(來源:EMNLP)

該研究并不是簡單地訓練模型完成任務 , 而是通過獎勵機制 , 讓模型微調后提出建設性、啟發性觀點或前瞻性建議 , 進而展現出類人的系統性思考方式 。

周沛對 DeepTech 解釋道:“它具有很好的泛化性 , 相當于‘授人以魚不如授人以漁’ , 即不是直接教 AI 該提什么問題、該給什么答案 , 而是教它主動發現信息缺口、提出創造性澄清問題的思考方式 , 從而靠自身的互動能力獲得最優解 。 ”

此外 , 基于該方法微調的模型不只是給出一個答案 , 它可能需要提出需要澄清問題 , 也有可能需要多核協作 , 甚至還可能需要質疑之前提出的假設是否有問題 。

研究團隊認為 , 這項研究本質上是在進行用戶與 AI 之間的深度研究 , 通過對話同步上下文、縮小信息差 。 因為當 AI 和用戶都更清楚最終輸出的目標時 , 有利于后續的人機協作 , 從而創造性地完成更深度的任務 。

這種主動信息收集的方法適用于開放性任務 , 例如包括文獻綜述和報告的寫作任務 , 或布置畫廊展覽在內的場景 。 黃騰昊解釋說道:“AI 本身可能在這些方面沒有太多知識 , 需要和用戶進行多輪對話和互動來獲取新知識 , 再用這些新知識來解決新任務 。 ”

此外 , 該方法還有可能推動人類和智能體互動的形式 。 例如 , 在 AI+教育場景應用中發揮作用 , 讓 AI 在用戶沒有表達信息的情況下 , 主動引導學生向某個方向學習 。

在人與 AI 互動中 , 補充信息差的方式有多種:一是讓 AI 通過提出好問題來主動獲取缺失信息;另一種是 , 在同步或非同步的場景下 , 模型可以通過給出提示協助獲取其他信息 。 這也是研究團隊未來將繼續探索的方向之一 。

參考資料:
1.https://arxiv.org/abs/2507.21389v1

運營/排版:何晨龍

    推薦閱讀