上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

文章圖片

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

文章圖片

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

文章圖片

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

文章圖片

上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體

文章圖片


臨床診斷并非一次性的「快照」 , 而是一場動態交互、不斷「探案」的推理過程 。 然而 , 當下的大模型大多基于靜態數據訓練 , 難以掌握真實診療中充滿不確定性的多輪決策軌跡 。 如何讓AI學會「追問」、選擇檢查 , 并一步步抽絲剝繭 , 邁向正確診斷?
來自上海交通大學人工智能學院、上海人工智能實驗室、螞蟻集團與北京大學的聯合團隊提出了全新的「環境—智能體」訓練框架 。 他們構建了面向醫學診斷的世界模型 DiagGym , 并在其中訓練可自主演進的診斷智能體 DiagAgent 。 在該框架中 , 診斷智能體可以在安全可控的虛擬世界中反復探索 , 通過與虛擬病人的交互反饋持續優化自身的動態決策策略 。
研究團隊還設計了聚焦診斷推理過程的評測基準 DiagBench 。 該基準共包含 750 個病例 , 提供了經醫生驗證的中間檢查推薦和最終診斷結果;其中有 99 個病例 , 另外由醫生手工撰寫了 973 條關于診斷過程的詳細評估準則 。 在 DiagBench 上的實驗結果顯示 , 該框架下訓練得到的診斷智能體在 DiagAgent 多輪診斷流程管理能力方面 , 顯著優于 DeepSeek、Claude-4 等先進模型 。
代碼、模型、測試數據均已全部開源 。

  • 論文標題:Evolving Diagnostic Agents in a Virtual Clinical Environment
  • 論文鏈接:https://arxiv.org/abs/2510.24654
  • 代碼倉庫:https://github.com/MAGIC-AI4Med/DiagGym
問題背景:
從靜態問答到動態決策 ,
AI 診斷需要主動問詢
真實的臨床診斷是一個復雜的多輪決策過程:醫生需要根據不完整的初步信息 , 提出一系列可能的鑒別診斷 , 然后主動選取、推薦一系列的檢驗檢查「軌跡」來逐步排除或確認 , 最終在信息充足時做出診斷 。
然而 , 當前多數醫療 LLM 的訓練范式更像是在做「開卷考試」——它們基于靜態、完整的病歷數據進行指令微調 。 這種模式忽略了診斷過程中的交互性和長期策略性 , 導致模型難以處理真實診療中的三大核心挑戰:
  • 主動探索:如何主動選擇下一步檢查?
  • 動態調整:如何根據新的檢查結果更新診斷假設?
  • 適時收斂:何時應該停止檢查并給出最終診斷?
為了攻克這一難題 , 研究團隊提出了一種創新的端到端智能體訓練范式:讓診斷智能體(DiagAgent)在一個面向醫學診斷的世界模型(DiagGym)構成的虛擬臨床環境中 , 自主交互 , 通過接受環境反饋和最終的強化學習獎勵 , 「摸爬滾打」 , 學會一套高效、準確的多輪診斷交互策略 。

圖1. 端到端的診斷智能體訓練范式
核心貢獻:
虛擬臨床環境、診斷智能體
與基于 Rubric 的評測基準
這項工作的核心貢獻可以概括為三個環環相扣的部分:
虛擬臨床環境:構建醫學診斷的世界模型 DiagGym
研究團隊基于海量真實電子病歷(EHR)訓練了一個條件生成模型 。 這個模型可以根據患者的初始情況和已有的檢查記錄 , 實時生成「下一項檢查的結果」 。 它構建了一個低成本、安全、可復現的閉環虛擬臨床環境 , 為智能體的交互式訓練提供了完美沙盒 。 更重要的是 , 這個環境兼具高保真度與高多樣性 , 能模擬從典型到罕見的各種診療路徑 。
主動問詢能力:端到端診斷智能體自主演進 DiagAgent
在上述的虛擬環境中 , DiagAgent 通過端到端強化學習進行訓練 。 智能體需要學習在每個決策點做出最優選擇——是繼續建議檢查 , 還是給出最終診斷 , 不斷同診斷學世界模型進行交互 , 獲得當前病人信息 。 其目標是學會通過動態決策 , 主動進行檢查推薦 , 并在信息足夠時做出診斷 , 從而實現高效動態問診 。
診斷過程化評測基準:人工檢驗診斷軌跡規范性 DiagBench
為了全面評估診斷智能體的能力 , 團隊構建了 DiagBench 。 它不僅包含 750 個經人工檢查的帶有參考診斷路徑的案例 , 更創新性地引入了由醫生撰寫的 973 條診斷過程評估準則(rubrics) 。 這些準則帶有權重 , 可以細粒度地評估診斷交互過程的合規性與質量 , 強調「如何達成診斷」的過程 , 而不僅僅是「診斷結果是否正確」 。
實驗結果顯示 , 無論是在單步決策場景 , 還是在端到端多步診斷決策場景 , 經過強化學習訓練的 DiagAgent 均顯著優于包括 GPT4o、DeepSeekv3 在內的 10 個代表性大模型 , 以及兩種主流智能體框架 。 這一結果表明 , 在交互式環境中進行策略學習 , 能夠賦予模型更強的動態決策與長期診斷管理能力 。
技術框架:
訓練診斷學世界模型與端到端
交互式診斷智能體強化學習自主演進
第一步:DiagGym , 構建可交互的診斷世界模型 , 打造虛擬臨床環境
首先 , 團隊需要一個能模擬真實臨床反饋的「沙盒」 。 他們收集了超過 11 萬份患者的真實診療數據 , 覆蓋近 5000 種疾病 。 這些數據包含了患者基本信息以及按時間排序的檢查序列(如化驗、影像等) 。
【上交×螞蟻發布 DiagGym:以世界模型驅動交互式醫學診斷智能體】利用這些數據 , 團隊訓練了一個自回歸語言模型 。 這個模型的核心能力是條件性文本生成:給定患者基本信息和歷史檢查記錄 , 它能精準預測下一項檢查可能出現的結果 。 這個模型就是 DiagGym , 一個能夠實時模擬檢查反饋的診斷學世界模型 。

圖2:基于臨床序列數據的 DiagGym 自回歸語言模型訓練范式
第二步:DiagAgent , 端到端強化學習驅動 , 讓診斷智能體自主演進
有了「虛擬臨床環境」 , 就可以開始訓練「診斷智能體」了 。 DiagAgent 的訓練分為兩個階段:
  • 冷啟動(Supervised Fine-Tuning):首先 , 使用 1000 條從真實病歷中抽取的診斷互動軌跡進行監督微調 , 讓模型學會基本的交互格式和臨床語言 。
  • 強化學習(Reinforcement Learning):接著 , 將智能體放入 DiagGym 中進行多輪實戰演練 。 智能體在環境中自主決策 , 獲得環境反饋 , 并根據最終的獎勵進行策略優化 。
獎勵函數的設計是關鍵 , 它由三部分構成:
  • 診斷正確性:最終診斷是否準確?
  • 檢查推薦質量:推薦的檢查是否關鍵、有效?(通過 F1 分數衡量)
  • 交互輪數懲罰:是否用最少的步驟完成診斷?(鼓勵高效)
通過 GRPO 強化學習算法 , DiagAgent 逐漸學會了如何在不確定性下進行「主動搜證-評估-收斂」 , 將診斷從「單輪問答」升級為「軌跡級決策與策略學習」 。

圖3:采用強化學習驅動的DiagAgent策略演進的訓練架構
第三步:DiagBench , 手工打造規則驅動新評測基準 , 評估AI診斷交互能力
在評估診斷性能方面 , 不僅需要模型能給出正確答案 , 更要能展示出嚴謹的診斷思路 。 但如何衡量這個「思路」呢?傳統的自動化指標顯然不夠 。
為此 , 研究團隊打造了一套全新的手工打造規則驅動的評測基準——DiagBench , 旨在深入評估AI在多輪診斷交互中的過程質量 。 具體步驟如下:
  • 醫生驗證的高質量案例庫:基準包含了 750 個經過醫生團隊逐一驗證的真實診斷案例 , 每個案例都附有標準的參考診斷路徑和最終結果 。
  • 手工打造的核心評估準則(Rubrics):研究團隊還引入了一套由資深醫生手工打造的、基于規則的評估體系 。 研究團隊邀請多位醫生 , 對 99 個復雜病例進行深度復盤 , 將診斷過程中的關鍵決策點、推理邏輯、以及必須遵守的臨床準則 , 提煉成 973 條具體的評估細則(Rubrics) 。
  • 帶權重的精細化打分:在此基礎上 , 醫生還為每一條準則都附上權重 , 以區分其臨床重要性 。
通過這套體系 , DiagBench 對診斷全過程進行細粒度過程審查 , 全面評估其在信息收集、假設檢驗、風險控制等維度的綜合能力 。
實驗結果:
虛擬環境與智能體的雙重驗證
DiagGym:虛擬環境有多真實?
一個可靠的虛擬環境是成功訓練智能體的前提 。 實驗證明 , DiagGym在多個維度上都表現出色:
  • 高保真度:DiagGym 在逐步生成檢查結果時展現出卓越性能 。 如表 1 所示 , 在逐步生成檢查結果時 , 其步驟相似度(3.57/5分)和整鏈一致性(96.9%)均遠超 Qwen2.5-72B 等強基線模型 。 更關鍵的是 , 根據醫生評測結果(表2) , DiagGym 同樣大幅領先 , 其生成的報告獲得了 4.49 分的平均相似度和 95.00% 的多數投票一致性 , 這證明 DiagGym 的結果更連貫 , 更少出現與病情矛盾的「過度陽性」結果 , 臨床可信度高 。
  • 高多樣性:生成的檢查結果分布與真實數據高度對齊 。 如表1所示 , 數值型 1-Wasserstein 距離僅 0.128 , 同時保持了接近真實數據的多樣性 , 有效避免了模型模式崩潰 。
  • 高效率:DiagGym 的部署和推理成本極低 。 表 1 數據顯示 , 它僅需單卡 A100 即可部署 , 單次生成僅耗時約 0.52 GPU·s , 而同類任務若使用 DeepSeek-v3-671B 則需要至少 16 張GPU和超過 62 GPU·s 的算力 。 這為大規模、高頻次的智能體交互訓練提供了可能 。

表1:DiagGym 與基線模型的定量評測結果 。

表2:DiagGym 與基線模型生成結果的臨床專家主觀評測結果 。
DiagAgent:診斷智能體的「醫術」如何?
1、單輪能力評測:決策精準度大幅提升
在單輪能力評測中 , 如圖 4a 所示 , 我們評估了智能體在給定部分病歷、僅需做出下一步決策的能力 。 結果證明 , DiagAgent 在這種單輪決策場景下展現了壓倒性優勢(結果見圖 4c)
  • 檢查推薦命中率提升 44.03% , 最終診斷準確率提升 9.34%(相較于次優模型) 。
  • DiagAgent-7B 的檢查推薦命中率高達 72.56% , 而 MedGemma 和 DeepSeek-v3 等強模型僅為 20%-28% 。

圖4:DiagAgent在單輪決策場景下的評估框架與性能對比 。
2、端到端全程診斷評測:過程與結果雙優
在模擬真實診療、從頭到尾完成診斷的全流程測試中 , 如圖5a 所示 , 模型需要根據患者信息進行多輪問診 , 最終給出診斷 。 DiagAgent 在這一復雜任務中再次表現最佳:
  • 核心診斷指標全面領先 。 如圖 5b 所示 , DiagAgent-14B 平均交互 6.66 輪 , 檢查推薦F1分數達到 46.59% , 最終診斷準確率 61.27% , 均遠超其他模型 。 相比之下 , 許多大模型基線(如 DeepSeek-v3)傾向于在 2-4 輪內草草結束 , 導致檢查不充分(Recall 較低) , 診斷準確性也大打折扣 。
  • 過程質量獲臨床準則認可 。 我們進一步引入醫生制定的流程化準則(rubrics)進行評估(如圖5c 所示) 。 在圖5d的加權得分對比中 , DiagAgent-14B的得分比強基線(如Claude-sonnet-4)高出7-8個百分點 。 這說明它不僅「診斷對」 , 而且「過程好」 , 更好地遵循了關鍵檢查優先、基于證據收斂等臨床金標準 。

圖5:DiagAgent端到端全程診斷評測框架與結果 。
消融實驗:
訓練虛擬環境支撐強化學習
比簡單利用現有樣本進行SFT更加高效
框架的成功并非偶然 。 通過一系列消融實驗 , 我們深入探究了DiagAgent 成功的關鍵因素 。 我們的消融實驗結果如表3所示:
  • 強化學習(RL)顯著優于監督微調(SFT):在同等模型規模下 , 由DiagGym 虛擬環境支撐的強化學習策略 , 普遍為模型帶來 10 至 15 個百分點以上的診斷準確率增益 。
  • 獎勵設計是策略優化的核心:同時優化「診斷準確性」和「檢查推薦質量」的雙重獎勵 , 能讓模型在提升最終準確率的同時 , 大幅改善診斷路徑的合理性 。
  • 強基座模型潛力更大:雖然所有模型都能從RL中獲益 , 但更強的基座模型(如Qwen2.5-14B)能達到更高的性能上限 。

表3:消融實驗結果
研究價值與未來展望
研究價值
對齊真實臨床工作流:它將AI診斷從靜態問答升級為動態策略學習 , 讓智能體學會在不確定性下「主動搜證-評估-收斂」 , 更貼近真實世界 。
開創「環境-智能體」閉環訓練范式:DiagGym作為一個診斷學世界模型 , 提供了一個安全、可擴展的診斷智能體「訓練場」 , 讓智能體系統能自主探索海量診療路徑 , 包括各種非典型的診斷交互軌跡 , 擺脫了舊有監督學習范式對收集有限、保守的診斷過程數據的依賴 。
推動過程化評估:DiagBench首次在診斷交互軌跡上引入了帶權重的rubrics來衡量「診斷過程」的質量 , 推動診斷AI的開發從「唯結果論」轉向關注中間決策的合理性 。
局限與展望
模型規模:當前實驗主要基于7B-14B模型 , 未來擴展到千億級模型有望進一步提升策略的深度和推理的上限 。
任務范圍:目前聚焦于「診斷」 , 未來可將「治療方案、預后評估」等環節納入虛擬環境和獎勵函數 , 構建「診療一體化」的超級智能體 。
環境擴展:DiagGym未來可以加入更多維度的模擬 , 如治療反饋、費用/安全約束等 , 構建一個更全面的虛擬臨床系統 。
總結
這項工作通過「虛擬臨床環境+端到端強化學習」的范式 , 成功地將 LLM 從一個靜態的「問答引擎」轉變為一個能夠進行「長期、多輪」診斷管理的「AI醫生」 。 高保真、低成本的世界模型DiagGym為訓練提供了沃土 , 而智能體DiagAgent則在其中學會了動態決策的藝術 , 在各項評測中全面領先 。

    推薦閱讀