把醫療AI禁錮在嚴肅區間:百川M3 Plus首創證據錨定,幻覺率2.6%

把醫療AI禁錮在嚴肅區間:百川M3 Plus首創證據錨定,幻覺率2.6%

文章圖片

把醫療AI禁錮在嚴肅區間:百川M3 Plus首創證據錨定,幻覺率2.6%

文章圖片

把醫療AI禁錮在嚴肅區間:百川M3 Plus首創證據錨定,幻覺率2.6%

文章圖片

把醫療AI禁錮在嚴肅區間:百川M3 Plus首創證據錨定,幻覺率2.6%

衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
誰還沒拿自己日常的小病小痛問過AI?
就是這種日常場景 , 讓AI悄悄成為很多人就醫流程里的前置入口 。
尋醫問診時 , 咱普通人可以拿DeepSeek、ChatGPT的回答作參考 , 醫生卻不能 。 但在嚴肅的醫療領域 , 不準確的建議甚至比沒有建議更危險 。
但我們注意到 , 隨著AI智能越發涌現 , 很多醫生 , 尤其是年輕醫生已經開始嘗試擁抱AI 。
All in醫療AI的百川智能告訴我們 , 他們的專業版模型已有約10萬醫生用戶 , 而且年輕人偏多 , “用我們模型的用戶畫像和喝瑞幸的用戶畫像高度重合” 。

不過年齡只是影響因素之一 , 醫療界對AI大勢的判斷并不存在根本分歧 。
只是在嚴肅醫療領域 , AI想要真正進臨床 , 必須翻過兩座大山:信任與成本 。
百川智能最新發布的循證增強醫療大模型Baichuan-M3 Plus給出了極具誠意的答案 。
憑借百川智能獨創的六源循證技術 , 結合Baichuan-M3基座 , Baichuan-M3 Plus幻覺率降低至2.6% , 處于目前公開評測中的全球最低水平 。
借用這個模型 , 百川希望在嚴肅醫療場景下 , 正面回答“如何讓AI真正成為醫生可信賴的助手 , 最終惠及每一位患者”這個問題 。
全球最低幻覺率Baichuan-M3 Plus(以下簡稱M3 Plus)是一個循證增強醫療大模型 , 幻覺率全球最低 , 不到3% 。
“循證增強醫療大模型”是百川如今的模型主線 。
循證是個醫學概念 , 旨在將最佳研究證據、專業經驗以及當事人的意愿三者相結合 , 以做出更科學、可靠的決策 。

就在10天前 , 百川醫療大模型迭代至M3版本 , 在OpenAI發布的醫療評測集HealthBench上奪得全球第一 , 反超GPT-5.2 High 。
登頂背后最核心的技術殺手锏是Fact-Aware RL(事實感知強化學習) 。
傳統的強化學習(RLHF)往往只關注人類的偏好 , Fact-Aware RL技術通過在獎勵模型(Reward Model)中引入醫學事實的硬性約束 , 讓模型在訓練階段就形成了對幻覺的過敏反應 。
在訓練過程中 , 百川還特別引入了Citation Reward Model , 專門懲罰錯誤引用 。
具體到HealthBench的評測表現上 , M3在無工具輔助的原始設定下 , 將幻覺率壓低到了3.5% , 水平是當時的行業天花板 。
此次最新發布的M3 Plus , 正是由M3模型和日臻成熟的六源循證深度融合而來 。
這種結構讓M3 Plus的幻覺率再創新低 , 來到2.6% 。

這個幻覺率水平 , 已經低于目前業內公認的標桿產品水平 , 也低于部分人類醫生在復雜醫學問題上的平均誤判率區間 。
“如果模型幻覺低能力強 , 但成本太高 , 醫生和醫院也會難以真正用起來 。 ”調用成本下不來 , 談嚴肅落地就沒有意義 。
為此 , M3 Plus在工程層面進行了多輪極致優化 。
M3 Plus 在系統層面進行了全面的工程重構 , 通過 MoE 架構優化、模型量化以及 Gated Eagle-3 投機解碼等關鍵技術 , 在嚴格保證模型能力與可靠性的前提下 , 實現了 API 調用成本較上一代降低 70% 。
根據百川給出的數據 , 相同配置下 , Gated Eagle-3相較原始Eagle-3可帶來約15%的推理吞吐量提升 , 從而直接壓低單位請求的推理成本 。
好一個一邊讓嚴肅性提上去 , 一邊把價格打下來 。
既有助于消解醫學界對AI時代來臨想用又不敢用的情緒 , 又讓大家都用得起 。
首創“證據錨定” , 模型說的每一句都是據實回答此前的醫療大模型雖然大多支持標注“文獻引用” , 但在實際使用中 , 醫生經常遇到兩個頭疼的痛點 。
一種是“張冠李戴” 。
【把醫療AI禁錮在嚴肅區間:百川M3 Plus首創證據錨定,幻覺率2.6%】模型給出了引用角標 , 但點開發現引用的文獻里壓根兒沒有那句話 。
另一種是“內容沖突” 。
也是標明了有引用 , 但其實是AI瞎湊瞎引的 , 索引的文獻并不能支持AI得出的結論 。
據統計 , 目前醫療行業常見的引用準確率區間是40%到50% , 也就是一半左右的引用在語義或事實上站不住腳 。
溝通會上 , 百川智能模型技術負責人鞠強現場提供了一個真實案例素材——
在腫瘤藥物不良反應的測試中 , 某些看起來非常專業的回答 , 標明引用匯總了權威協會共識、專家指南和說明書 , 從形式上看幾乎無可挑剔 。
但逐條核對后發現 , 約90%的引用內容與結論本身沒有直接關系 , 有的甚至給出的引用里 , 連藥物都不是詢問模型的那一個 。
一個看起來有據可查的答案 , 背后隱藏著不可接受的嚴肅錯誤 。 但因為看上去高度專業 , 有經驗的醫生不留神都可能踩坑 , 更別提還有許多初出茅廬的那些醫生可能面對這樣的答案了 。
這成了百川在M3 Plus中試圖解決的核心問題 。
針對這一痛點 , 百川在M3 Plus中引入了證據錨定(Evidence Anchoring) , 將循證從理念變成模型必須遵守的結構性約束 。
與傳統“標明引用”的方式不同 , 證據錨定并不是要求模型多列幾篇文獻 , 它反過來約束模型:如果一句醫學結論找不到能與之精確對應的原始證據段落 , 這句話就不應該被說出來 。
具體實現上 , M3 Plus在生成答案時 , 不僅需要標注文獻來源 , 還必須將每一句關鍵醫學判斷 , 逐條錨定到原始論文、指南或共識中的具體段落 。
每一個結論 , 都需要能在原文中找到明確對應 。
說得通俗易懂一點 , 使用M3 Plus的醫生可以直接核查AI說的每一句話是否真的有原文支持 , 判斷其是否真正支持當前結論 。
引用內容豐富 , 包括但不限于藥品說明書:

中英文文獻:

以及專家共識等:

在訓練層面 , 百川將“證據是否準確錨定”作為獨立目標進行建模 , 通過Citation Reward Model , 顯式懲罰“張冠李戴”“內容沖突”等情況 。
鞠強解釋 , 沒有證據錨定 , 大多數大模型就不能真正理解證據與結論之間的邏輯關系 。
所謂的引用文獻往往發生在生成之后 , 是對輸出結果的補充 , 并不是推理過程的一部分 。
模型只學會了怎么“像醫生一樣說有證據的話” , 卻沒有學會如何“像醫生一樣查證” 。
但模型有幻覺這件事目前還沒有完美解法 。 百川團隊也反復強調 , 在醫學問題中 , 不確定性本身就是客觀存在的事實 。
真正重要的是讓錯誤盡可能提前暴露 , 讓使用者能夠盡早識別風險 。
百川M3 Plus之前 , 業內少有把“引用準確性”本身當成模型核心能力來重新定義的嘗試 。
M3 Plus用證據錨定技術 , 把“引用”這件事量化成了可審計的技術指標 , 并且提升了模型自己的引用準確率——從行業普遍約75%的水平提升至95%以上 。
面向醫療服務 , 推出“海納百川”免費計劃為了讓這套“證據錨定”技術真正跑在醫院的電腦和醫生的手機里 , 百川一邊M3 Plus的API降價70%之外 , 一邊同步開啟了 “海納百川計劃” 。
該計劃中 , M3 Plus將以API形式永久免費開放 , 不限Token數量 。
唯一要求是產品需在前臺展示“Powered by 百川” , 且不得對模型輸出進行影響準確性的修改 。
計劃限定對象為服務醫務工作者的機構 , 包括但不限于醫療信息化廠商、醫療教育機構、醫學研究項目、垂直創業公司等 。

目前 , 國內有上千家醫院和數百億投入的專項工程正在探索AI 。 “海納百川計劃”這種技術普惠戰略 , 有助于避免行業在底層技術上重復造輪子 , 也讓醫生端和醫療軟件廠商可以在真實場景中進行多輪反復驗證、持續迭代 。
王小川透露 , 百川智能不是沒有算過“海納百川計劃”背后的這筆賬 。
如果全國500萬醫學工作者都來使用 , 百川一年預計投入成本約1億元 , “這是我們能接受的” 。
因為賬單背后有更昂貴的成本 。 在醫療領域 , 技術試錯的代價往往最終由具體的生命來承擔 。
對在診室外等號的普通人來說 , 很難感受到幻覺率從3%降到2.6%究竟意味著什么……但對于每一位身處一線、需要應對海量文獻和復雜決策的醫生與醫學生來說 , 這0.4%的跨越就是更堅實的專業底氣 。
這種底氣不應只停留在實驗室的PPT里 , 應該去往最需要它的地方 。
現在 , 每一位醫生和醫學生 , 都可以走進“百小應”去親身體驗 M3 Plus 帶來的改變 , 看看一條結論如何被證據段落精準支撐 。
M3 Plus隨著免費開放給行業伙伴之后 , 這種證據錨定的專業能力 , 會在更多真實臨床場景里被實際使用反復檢驗 。
醫療AI的進步 , 最終會落到走廊里焦急等待的每一個普通人身上 。
— 完 —
量子位 QbitAI · 頭條號
關注我們 , 第一時間獲知前沿科技動態

    推薦閱讀