AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS

AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS

文章圖片

AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS

文章圖片

AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS

文章圖片

AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS

允中 發自 凹非寺
量子位 | 公眾號 QbitAI
螞蟻健康與北京大學人民醫院王俊院士團隊歷時6個多月 , 聯合十余位胸外科醫生共同打磨 , 發布了全球首個大模型專病循證能力的評測框架——
GAPS(Grounding Adequacy Perturbation Safety) , 及其配套評測集 GAPS-NSCLC-preview 。
旨在解決現有醫療AI評測局限于考試式問答、缺乏臨床深度、完整性、魯棒性與安全性綜合評估的問題 。
該評測集聚焦肺癌領域 , 包含92個問題、覆蓋1691個臨床要點 , 并配套全自動化的評測工具鏈 , 通過指南錨定、多智能體協同實現從問題生成、評分標準制定到多維度打分的端到端自動化 。
目前 , 相關成果已應用于“螞蟻阿?!?, 論文《GAPS: A Clinically Grounded Automated Benchmark for Evaluating AI Clinicians》、配套評測集GAPS-NSCLC-preview、自動化評測框架已全面公開 。

這項研究客觀評價了大模型的臨床能力:當前主流醫療大模型雖已具備“醫學百科全書”般的知識廣度 , 但在臨床實踐中仍處于成長階段——
它們在系統掌握醫學知識方面表現卓越 , 但在應對真實臨床場景中的不確定性挑戰時 , 尚需進一步提升判斷力與可靠性 。
權威引領:北大人民醫院院士團隊深度主導臨床標準構建本項目由中國工程院院士、北京大學人民醫院院長王俊教授領銜的團隊全程主導 , 并與螞蟻團隊深度協作完成 。
在GAPS構建過程中 , 院士團隊原創性地提出了GAPS評測的理論框架 , 并組織十余位胸外科醫生持續參與評測題庫構建、臨床金標準答案撰寫、模型輸出的專業審核與迭代優化 , 提供NSCLC(非小細胞肺癌)領域前沿臨床指南的權威解讀與循證醫學方法論指導 , 確保每一項指標都扎根真實臨床實踐 , 具備高度專業性與可信度 。
螞蟻團隊則發揮大模型與工程化能力優勢 , 經過多輪高強度醫工協同與反復迭代 , 將專家腦海中的復雜“臨床金標準”精準沉淀為大模型可理解、可執行的結構化邏輯 , 實現GAPS的規模化、自動化與可落地應用 。
此次合作實現了“臨床專家定標準、AI 技術做轉化”的深度融合 , 突破了傳統醫療AI評測中專家淺層參與的局限 , 標志著頂尖臨床專家與AI技術團隊的深度協作 , 為醫療AI從“技術驅動”走向“臨床價值驅動”樹立了新的范式 。
行業痛點:考得好 , 信不過在和大模型討論醫療問題時 , 有時候回答得很好 , 有時候回答得很差 , 由于大模型的變化日新月異 , 醫生和患者都沒有辦法在短時間對大模型產生客觀評價 , 因此對大模型的信任就無從談起 。
為了客觀評價大模型的能力 , 學界通常采用基準測試的方法 。
然而 , 當前醫療AI的基準測試普遍缺乏對模型循證能力、可解釋性與安全性的系統評估 。
長期以來 , 醫療AI的評估依賴MedQA、PubMedQA等“試卷型”基準 , 僅考察事實記憶能力;而HealthBench等基于人工評分細則(Rubric)的方法又受限于主觀性強、擴展性差 。
這些方法無法反映真實診療場景:患者描述模糊、檢查結果矛盾、治療方案需權衡利弊……正如論文所強調:
真正的醫療能力不在于背誦事實 , 而在于管理不確定性 。
尤其在肺癌這一全球致死率最高的癌癥領域 , 缺乏細粒度、專病化的評估工具 , 使得醫療機構和開發者難以客觀判斷醫療AI是否真正具備臨床可用性 。
GAPS的誕生 , 正是為了填補這一關鍵空白 。
破局之道:GAPS——從“考試機器”到“臨床醫生”的四維標尺GAPS是一個基于循證醫學、全自動構建的AI臨床能力評測框架 , 首次將臨床勝任力解構為四個正交維度 , 并聚焦NSCLC(非小細胞肺癌)這一高難度專病場景進行系統驗證:
1、G(Grounding)認知深度:不止于“是什么” , 更考驗“為什么”和“怎么辦” 。
G1和G2:事實回憶與解釋(AI的舒適區) G3:基于指南的循證決策(如NCCN推薦方案) G4:推理性思維(Inferential Reasoning)——在證據沖突或缺失的“灰色地帶”做出合理判斷 , 這是當前所有模型的“死亡區” 。2、A(Adequacy)回答完備性:醫生的一句話可能關乎生死 。 GAPS引入三級評價:
A1(必須有):核心診療建議 A2(應該有):關鍵限定條件(如劑量、禁忌癥、監測指標) A3(錦上添花):患者教育、多學科協作建議等缺少A2 , 再“正確”的建議也可能導致臨床誤用 。
3、P(Perturbation)魯棒性:真實患者不會照著教科書說話 。 GAPS通過三類擾動測試模型抗干擾能力:
P1:語言噪音(口誤、方言) P2:冗余信息(無關癥狀堆砌) P3:對抗性前提(如誘導性錯誤假設)實驗顯示 , 多數模型極易被誤導 , 甚至順從用戶的錯誤引導 。
4、S(Safety)安全底線:醫療容不得“差不多” 。 GAPS 建立四級風險體系:
S1(無關回答)→ S4(災難性錯誤/Never Events , 如推薦禁忌藥物)
一旦觸犯S4 , 無論其他維度得分多高 , 總分直接歸零——這是不可逾越的紅線 。
GAPS解決了現有醫療AI評測僅關注“準確率”的局限 , 首次實現對循證決策能力、回答完備性、現實魯棒性與安全底線的系統性、自動化評估 。
其優勢在于:以臨床指南為錨點 , 全自動構建高保真評測項與評分規則 , 兼具可擴展性、可復現性與臨床真實性 , 為AI向可信臨床伙伴演進提供精準導航 。
核心黑科技:全自動化的“循證評測集”流水線GAPS最大的技術亮點在于其端到端自動化與可擴展性 。
不同于以往依賴人工命題 , GAPS構建了一套基于臨床指南(Guidelines)的自動化生成工廠:
證據鄰域構建:以NCCN、ESMO等權威指南為核心 , 自動抓取3跳內引用文獻 , 構建高可信醫學知識圖譜與疾病話題樹; Deep Research Agent:基于GRADE方法學 , 模擬人類專家圍繞PICO(人群、干預、對照、結果)展開的證據檢索、證據評估、強弱推薦的流程 , 自動生成帶證據等級與推薦強度的高質量評分細則; 虛擬患者生成:利用大模型合成去隱私化臨床病例 , 并精準對齊知識圖譜 , 確保每道題“有據可依、有理可循” 。該流水線已成功應用于胸外科的專病——NSCLC(非小細胞肺癌) , 生成包含92道題、1691個臨床要點的評測集GAPS-NSCLC-preview 。
題目按認知深度分為G1~G4四級(從事實回憶到不確定性下的推理) , 每題均配備平均12項完整性(A1~A3)與7項安全性(S1~S4)評分要點 , 并支持P0~P3四級擾動測試 。
未來可快速擴展至心血管、兒科、內分泌等任意??频膶2☆I域——只要有指南 , 就能生成高質量評測集 。

可靠的裁判:自動化評測讓AI醫療能力可量化、可復現、可進化GAPS評測集同時搭配了一套高可靠性的自動化評測框架 , 實現了對AI臨床能力的客觀、細粒度、端到端的自動化評估 。
為確保評測本身可信 , 團隊將自動化評分結果與五位資深專家的獨立標注進行嚴格比對:
在92個真實臨床查詢、1691個臨床要點上 , 該框架與專家共識的整體一致率達90.00% , Cohen’s Kappa系數達0.77(“實質性一致”) , Macro-F1達0.88——不僅顯著優于現有基準(如HealthBench中GPT-4的0.79) , 已達到人類專家間一致性水平(88.5%~92.0%) 。
這證明GAPS評測集的自動評判能力具備專家級可靠性 。
在此基礎上 , 評測不再是終點 , 而是進化的起點 。
框架輸出的結構化評分(G/A/P/S四維、MET/NOT-MET標記)可精準定位模型在循證決策、回答完備性、擾動魯棒性或安全紅線上的缺陷;
由此 , GAPS具備成為“評測即反饋、反饋即迭代”的最重要基石——AI醫療能力不再依賴模糊經驗 , 而是通過可量化的指標、可復現的流程、可積累的進化路徑 , 穩步向臨床可用邁進 。

實戰揭秘:頂尖大模型的“滑鐵盧”研究團隊使用GAPS對GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus等主流模型進行“體檢” , 結果發人深?。 ?
1、“百科全書”易做 , “專家”難當:
所有模型在G1(事實)和G2(解釋)階段表現優異(GPT-5得分約0.72) 。 但一旦進入G3(確定性決策)和G4(非確定性推理) , 分數呈斷崖式下跌 , GPT-5在G4階段跌至0.45 , 其他模型甚至跌破0.35 。 這說明 AI目前還只是“背書機器” , 而非“推理伙伴” 。

2、不僅要“對” , 還要“全”:
在Adequacy(完備性)測試中 , 模型往往只給出核心建議(A1) , 卻忽略了關鍵的限定條件(A2) , 導致臨床建議缺乏可操作性 。

3、極其脆弱的耳根子:
在P3(對抗性測試)中 , 只要在提問中加入一點誤導性前提(例如暗示某種錯誤療法有效) , 模型的判斷力就會崩塌 , 甚至順從用戶的錯誤引導 。

4、安全隱患:
雖然GPT-5和Gemini 2.5在極高風險錯誤(S4)上控制較好 , 但在復雜的推理場景下 , 部分模型(如Claude Opus 4)的致命錯誤率隨難度顯著上升 。

結語:GAPS評測框架是AI醫生從“Chatbot”到“Doctor”的必經之路GAPS的發布 , 標志著醫療AI的評測標準從“考試分數”向“臨床勝任力”的范式轉移 。
螞蟻健康與北大人民醫院的這項工作告訴行業——現有的通用大模型在面對復雜的臨床不確定性時 , 依然顯得稚嫩且脆弱 。
未來的醫療AI研發 , 不能止步于預訓練知識的灌輸 , 而必須轉向循證推理(Evidence-grounded Reasoning)、過程決策控制以及不確定性管理 。
GAPS不僅僅是一個榜單 , 它更是醫療AI進化路上的“磨刀石” 。 只有跨越了GAPS設定的這四道關卡 , AI醫生才能真正放心地走進診室 。
論文地址:https://arxiv.org/abs/2510.13734
評測集地址:https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview
【AI醫生終于有了硬標尺!螞蟻發布全球首個專病循證評測框架GAPS】自動化評測框架地址:https://github.com/AQ-MedAI/MedicalAiBenchEval

    推薦閱讀