上交×螞蟻發布 DiagGym：以世界模型驅動交互式醫學診斷智能體

2026-04-19 ai deepseek

文章圖片

文章圖片

文章圖片

文章圖片

文章圖片

臨床診斷并非一次性的「快照」，而是一場動態交互、不斷「探案」的推理過程。然而，當下的大模型大多基于靜態數據訓練，難以掌握真實診療中充滿不確定性的多輪決策軌跡。如何讓AI學會「追問」、選擇檢查，并一步步抽絲剝繭，邁向正確診斷？
來自上海交通大學人工智能學院、上海人工智能實驗室、螞蟻集團與北京大學的聯合團隊提出了全新的「環境—智能體」訓練框架。他們構建了面向醫學診斷的世界模型 DiagGym ，并在其中訓練可自主演進的診斷智能體 DiagAgent 。在該框架中，診斷智能體可以在安全可控的虛擬世界中反復探索，通過與虛擬病人的交互反饋持續優化自身的動態決策策略。
研究團隊還設計了聚焦診斷推理過程的評測基準 DiagBench 。該基準共包含 750 個病例，提供了經醫生驗證的中間檢查推薦和最終診斷結果；其中有 99 個病例，另外由醫生手工撰寫了 973 條關于診斷過程的詳細評估準則。在 DiagBench 上的實驗結果顯示，該框架下訓練得到的診斷智能體在 DiagAgent 多輪診斷流程管理能力方面，顯著優于 DeepSeek、Claude-4 等先進模型。
代碼、模型、測試數據均已全部開源。

論文標題：Evolving Diagnostic Agents in a Virtual Clinical Environment
論文鏈接：https://arxiv.org/abs/2510.24654
代碼倉庫：https://github.com/MAGIC-AI4Med/DiagGym

問題背景：
從靜態問答到動態決策，
AI 診斷需要主動問詢
真實的臨床診斷是一個復雜的多輪決策過程：醫生需要根據不完整的初步信息，提出一系列可能的鑒別診斷，然后主動選取、推薦一系列的檢驗檢查「軌跡」來逐步排除或確認，最終在信息充足時做出診斷。
然而，當前多數醫療 LLM 的訓練范式更像是在做「開卷考試」——它們基于靜態、完整的病歷數據進行指令微調。這種模式忽略了診斷過程中的交互性和長期策略性，導致模型難以處理真實診療中的三大核心挑戰：

主動探索：如何主動選擇下一步檢查？
動態調整：如何根據新的檢查結果更新診斷假設？
適時收斂：何時應該停止檢查并給出最終診斷？

為了攻克這一難題，研究團隊提出了一種創新的端到端智能體訓練范式：讓診斷智能體（DiagAgent）在一個面向醫學診斷的世界模型（DiagGym）構成的虛擬臨床環境中，自主交互，通過接受環境反饋和最終的強化學習獎勵，「摸爬滾打」，學會一套高效、準確的多輪診斷交互策略。

圖1. 端到端的診斷智能體訓練范式
核心貢獻：
虛擬臨床環境、診斷智能體
與基于 Rubric 的評測基準
這項工作的核心貢獻可以概括為三個環環相扣的部分：
虛擬臨床環境：構建醫學診斷的世界模型 DiagGym
研究團隊基于海量真實電子病歷（EHR）訓練了一個條件生成模型。這個模型可以根據患者的初始情況和已有的檢查記錄，實時生成「下一項檢查的結果」。它構建了一個低成本、安全、可復現的閉環虛擬臨床環境，為智能體的交互式訓練提供了完美沙盒。更重要的是，這個環境兼具高保真度與高多樣性，能模擬從典型到罕見的各種診療路徑。
主動問詢能力：端到端診斷智能體自主演進 DiagAgent
在上述的虛擬環境中， DiagAgent 通過端到端強化學習進行訓練。智能體需要學習在每個決策點做出最優選擇——是繼續建議檢查，還是給出最終診斷，不斷同診斷學世界模型進行交互，獲得當前病人信息。其目標是學會通過動態決策，主動進行檢查推薦，并在信息足夠時做出診斷，從而實現高效動態問診。
診斷過程化評測基準：人工檢驗診斷軌跡規范性 DiagBench
為了全面評估診斷智能體的能力，團隊構建了 DiagBench 。它不僅包含 750 個經人工檢查的帶有參考診斷路徑的案例，更創新性地引入了由醫生撰寫的 973 條診斷過程評估準則（rubrics）。這些準則帶有權重，可以細粒度地評估診斷交互過程的合規性與質量，強調「如何達成診斷」的過程，而不僅僅是「診斷結果是否正確」。
實驗結果顯示，無論是在單步決策場景，還是在端到端多步診斷決策場景，經過強化學習訓練的 DiagAgent 均顯著優于包括 GPT4o、DeepSeekv3 在內的 10 個代表性大模型，以及兩種主流智能體框架。這一結果表明，在交互式環境中進行策略學習，能夠賦予模型更強的動態決策與長期診斷管理能力。
技術框架：
訓練診斷學世界模型與端到端
交互式診斷智能體強化學習自主演進
第一步：DiagGym ，構建可交互的診斷世界模型，打造虛擬臨床環境
首先，團隊需要一個能模擬真實臨床反饋的「沙盒」。他們收集了超過 11 萬份患者的真實診療數據，覆蓋近 5000 種疾病。這些數據包含了患者基本信息以及按時間排序的檢查序列（如化驗、影像等）。
【上交×螞蟻發布 DiagGym：以世界模型驅動交互式醫學診斷智能體】利用這些數據，團隊訓練了一個自回歸語言模型。這個模型的核心能力是條件性文本生成：給定患者基本信息和歷史檢查記錄，它能精準預測下一項檢查可能出現的結果。這個模型就是 DiagGym ，一個能夠實時模擬檢查反饋的診斷學世界模型。

圖2：基于臨床序列數據的 DiagGym 自回歸語言模型訓練范式
第二步：DiagAgent ，端到端強化學習驅動，讓診斷智能體自主演進
有了「虛擬臨床環境」，就可以開始訓練「診斷智能體」了。 DiagAgent 的訓練分為兩個階段：

冷啟動（Supervised Fine-Tuning）：首先，使用 1000 條從真實病歷中抽取的診斷互動軌跡進行監督微調，讓模型學會基本的交互格式和臨床語言。
強化學習（Reinforcement Learning）：接著，將智能體放入 DiagGym 中進行多輪實戰演練。智能體在環境中自主決策，獲得環境反饋，并根據最終的獎勵進行策略優化。

獎勵函數的設計是關鍵，它由三部分構成：

診斷正確性：最終診斷是否準確？
檢查推薦質量：推薦的檢查是否關鍵、有效？（通過 F1 分數衡量）
交互輪數懲罰：是否用最少的步驟完成診斷？（鼓勵高效）

通過 GRPO 強化學習算法， DiagAgent 逐漸學會了如何在不確定性下進行「主動搜證-評估-收斂」，將診斷從「單輪問答」升級為「軌跡級決策與策略學習」。

圖3：采用強化學習驅動的DiagAgent策略演進的訓練架構
第三步：DiagBench ，手工打造規則驅動新評測基準，評估AI診斷交互能力
在評估診斷性能方面，不僅需要模型能給出正確答案，更要能展示出嚴謹的診斷思路。但如何衡量這個「思路」呢？傳統的自動化指標顯然不夠。
為此，研究團隊打造了一套全新的手工打造規則驅動的評測基準——DiagBench ，旨在深入評估AI在多輪診斷交互中的過程質量。具體步驟如下：

醫生驗證的高質量案例庫：基準包含了 750 個經過醫生團隊逐一驗證的真實診斷案例，每個案例都附有標準的參考診斷路徑和最終結果。
手工打造的核心評估準則（Rubrics）：研究團隊還引入了一套由資深醫生手工打造的、基于規則的評估體系。研究團隊邀請多位醫生，對 99 個復雜病例進行深度復盤，將診斷過程中的關鍵決策點、推理邏輯、以及必須遵守的臨床準則，提煉成 973 條具體的評估細則（Rubrics）。
帶權重的精細化打分：在此基礎上，醫生還為每一條準則都附上權重，以區分其臨床重要性。

通過這套體系， DiagBench 對診斷全過程進行細粒度過程審查，全面評估其在信息收集、假設檢驗、風險控制等維度的綜合能力。
實驗結果：
虛擬環境與智能體的雙重驗證
DiagGym：虛擬環境有多真實？
一個可靠的虛擬環境是成功訓練智能體的前提。實驗證明， DiagGym在多個維度上都表現出色：

高保真度：DiagGym 在逐步生成檢查結果時展現出卓越性能。如表 1 所示，在逐步生成檢查結果時，其步驟相似度（3.57/5分）和整鏈一致性（96.9%）均遠超 Qwen2.5-72B 等強基線模型。更關鍵的是，根據醫生評測結果（表2）， DiagGym 同樣大幅領先，其生成的報告獲得了 4.49 分的平均相似度和 95.00% 的多數投票一致性，這證明 DiagGym 的結果更連貫，更少出現與病情矛盾的「過度陽性」結果，臨床可信度高。
高多樣性：生成的檢查結果分布與真實數據高度對齊。如表1所示，數值型 1-Wasserstein 距離僅 0.128 ，同時保持了接近真實數據的多樣性，有效避免了模型模式崩潰。
高效率：DiagGym 的部署和推理成本極低。表 1 數據顯示，它僅需單卡 A100 即可部署，單次生成僅耗時約 0.52 GPU·s ，而同類任務若使用 DeepSeek-v3-671B 則需要至少 16 張GPU和超過 62 GPU·s 的算力。這為大規模、高頻次的智能體交互訓練提供了可能。

表1：DiagGym 與基線模型的定量評測結果。

表2：DiagGym 與基線模型生成結果的臨床專家主觀評測結果。
DiagAgent：診斷智能體的「醫術」如何？
1、單輪能力評測：決策精準度大幅提升
在單輪能力評測中，如圖 4a 所示，我們評估了智能體在給定部分病歷、僅需做出下一步決策的能力。結果證明， DiagAgent 在這種單輪決策場景下展現了壓倒性優勢（結果見圖 4c）

檢查推薦命中率提升 44.03% ，最終診斷準確率提升 9.34%（相較于次優模型）。
DiagAgent-7B 的檢查推薦命中率高達 72.56% ，而 MedGemma 和 DeepSeek-v3 等強模型僅為 20%-28% 。

圖4：DiagAgent在單輪決策場景下的評估框架與性能對比。
2、端到端全程診斷評測：過程與結果雙優
在模擬真實診療、從頭到尾完成診斷的全流程測試中，如圖5a 所示，模型需要根據患者信息進行多輪問診，最終給出診斷。 DiagAgent 在這一復雜任務中再次表現最佳：

核心診斷指標全面領先。如圖 5b 所示， DiagAgent-14B 平均交互 6.66 輪，檢查推薦F1分數達到 46.59% ，最終診斷準確率 61.27% ，均遠超其他模型。相比之下，許多大模型基線（如 DeepSeek-v3）傾向于在 2-4 輪內草草結束，導致檢查不充分（Recall 較低），診斷準確性也大打折扣。
過程質量獲臨床準則認可。我們進一步引入醫生制定的流程化準則（rubrics）進行評估（如圖5c 所示）。在圖5d的加權得分對比中， DiagAgent-14B的得分比強基線（如Claude-sonnet-4）高出7-8個百分點。這說明它不僅「診斷對」，而且「過程好」，更好地遵循了關鍵檢查優先、基于證據收斂等臨床金標準。

圖5：DiagAgent端到端全程診斷評測框架與結果。
消融實驗：
訓練虛擬環境支撐強化學習
比簡單利用現有樣本進行SFT更加高效
框架的成功并非偶然。通過一系列消融實驗，我們深入探究了DiagAgent 成功的關鍵因素。我們的消融實驗結果如表3所示：

強化學習（RL）顯著優于監督微調（SFT）：在同等模型規模下，由DiagGym 虛擬環境支撐的強化學習策略，普遍為模型帶來 10 至 15 個百分點以上的診斷準確率增益。
獎勵設計是策略優化的核心：同時優化「診斷準確性」和「檢查推薦質量」的雙重獎勵，能讓模型在提升最終準確率的同時，大幅改善診斷路徑的合理性。
強基座模型潛力更大：雖然所有模型都能從RL中獲益，但更強的基座模型（如Qwen2.5-14B）能達到更高的性能上限。

表3：消融實驗結果
研究價值與未來展望
研究價值
對齊真實臨床工作流：它將AI診斷從靜態問答升級為動態策略學習，讓智能體學會在不確定性下「主動搜證-評估-收斂」，更貼近真實世界。
開創「環境-智能體」閉環訓練范式：DiagGym作為一個診斷學世界模型，提供了一個安全、可擴展的診斷智能體「訓練場」，讓智能體系統能自主探索海量診療路徑，包括各種非典型的診斷交互軌跡，擺脫了舊有監督學習范式對收集有限、保守的診斷過程數據的依賴。
推動過程化評估：DiagBench首次在診斷交互軌跡上引入了帶權重的rubrics來衡量「診斷過程」的質量，推動診斷AI的開發從「唯結果論」轉向關注中間決策的合理性。
局限與展望
模型規模：當前實驗主要基于7B-14B模型，未來擴展到千億級模型有望進一步提升策略的深度和推理的上限。
任務范圍：目前聚焦于「診斷」，未來可將「治療方案、預后評估」等環節納入虛擬環境和獎勵函數，構建「診療一體化」的超級智能體。
環境擴展：DiagGym未來可以加入更多維度的模擬，如治療反饋、費用/安全約束等，構建一個更全面的虛擬臨床系統。
總結
這項工作通過「虛擬臨床環境+端到端強化學習」的范式，成功地將 LLM 從一個靜態的「問答引擎」轉變為一個能夠進行「長期、多輪」診斷管理的「AI醫生」。高保真、低成本的世界模型DiagGym為訓練提供了沃土，而智能體DiagAgent則在其中學會了動態決策的藝術，在各項評測中全面領先。

推薦閱讀

上一篇：年增40%，預計2026年CSP合計資本支出增至6,000億美元以上

下一篇：慧天X5測評：超輕薄機身加標壓性能，企業辦公神器？