把醫療AI禁錮在嚴肅區間：百川M3 Plus首創證據錨定，幻覺率2.6%

2026-05-10 人工智能互聯網醫療 ai

文章圖片

文章圖片

文章圖片

衡宇發自凹非寺
量子位 | 公眾號 QbitAI
誰還沒拿自己日常的小病小痛問過AI？
就是這種日常場景，讓AI悄悄成為很多人就醫流程里的前置入口。
尋醫問診時，咱普通人可以拿DeepSeek、ChatGPT的回答作參考，醫生卻不能。但在嚴肅的醫療領域，不準確的建議甚至比沒有建議更危險。
但我們注意到，隨著AI智能越發涌現，很多醫生，尤其是年輕醫生已經開始嘗試擁抱AI 。
All in醫療AI的百川智能告訴我們，他們的專業版模型已有約10萬醫生用戶，而且年輕人偏多， “用我們模型的用戶畫像和喝瑞幸的用戶畫像高度重合” 。

不過年齡只是影響因素之一，醫療界對AI大勢的判斷并不存在根本分歧。
只是在嚴肅醫療領域， AI想要真正進臨床，必須翻過兩座大山：信任與成本。
百川智能最新發布的循證增強醫療大模型Baichuan-M3 Plus給出了極具誠意的答案。
憑借百川智能獨創的六源循證技術，結合Baichuan-M3基座， Baichuan-M3 Plus幻覺率降低至2.6% ，處于目前公開評測中的全球最低水平。
借用這個模型，百川希望在嚴肅醫療場景下，正面回答“如何讓AI真正成為醫生可信賴的助手，最終惠及每一位患者”這個問題。
全球最低幻覺率Baichuan-M3 Plus（以下簡稱M3 Plus）是一個循證增強醫療大模型，幻覺率全球最低，不到3% 。
“循證增強醫療大模型”是百川如今的模型主線。
循證是個醫學概念，旨在將最佳研究證據、專業經驗以及當事人的意愿三者相結合，以做出更科學、可靠的決策。

就在10天前，百川醫療大模型迭代至M3版本，在OpenAI發布的醫療評測集HealthBench上奪得全球第一，反超GPT-5.2 High 。
登頂背后最核心的技術殺手锏是Fact-Aware RL（事實感知強化學習）。
傳統的強化學習（RLHF）往往只關注人類的偏好， Fact-Aware RL技術通過在獎勵模型（Reward Model）中引入醫學事實的硬性約束，讓模型在訓練階段就形成了對幻覺的過敏反應。
在訓練過程中，百川還特別引入了Citation Reward Model ，專門懲罰錯誤引用。
具體到HealthBench的評測表現上， M3在無工具輔助的原始設定下，將幻覺率壓低到了3.5% ，水平是當時的行業天花板。
此次最新發布的M3 Plus ，正是由M3模型和日臻成熟的六源循證深度融合而來。
這種結構讓M3 Plus的幻覺率再創新低，來到2.6% 。

這個幻覺率水平，已經低于目前業內公認的標桿產品水平，也低于部分人類醫生在復雜醫學問題上的平均誤判率區間。
“如果模型幻覺低能力強，但成本太高，醫生和醫院也會難以真正用起來。 ”調用成本下不來，談嚴肅落地就沒有意義。
為此， M3 Plus在工程層面進行了多輪極致優化。
M3 Plus 在系統層面進行了全面的工程重構，通過 MoE 架構優化、模型量化以及 Gated Eagle-3 投機解碼等關鍵技術，在嚴格保證模型能力與可靠性的前提下，實現了 API 調用成本較上一代降低 70% 。
根據百川給出的數據，相同配置下， Gated Eagle-3相較原始Eagle-3可帶來約15%的推理吞吐量提升，從而直接壓低單位請求的推理成本。
好一個一邊讓嚴肅性提上去，一邊把價格打下來。
既有助于消解醫學界對AI時代來臨想用又不敢用的情緒，又讓大家都用得起。
首創“證據錨定” ，模型說的每一句都是據實回答此前的醫療大模型雖然大多支持標注“文獻引用” ，但在實際使用中，醫生經常遇到兩個頭疼的痛點。
一種是“張冠李戴” 。
【把醫療AI禁錮在嚴肅區間：百川M3 Plus首創證據錨定，幻覺率2.6%】模型給出了引用角標，但點開發現引用的文獻里壓根兒沒有那句話。
另一種是“內容沖突” 。
也是標明了有引用，但其實是AI瞎湊瞎引的，索引的文獻并不能支持AI得出的結論。
據統計，目前醫療行業常見的引用準確率區間是40%到50% ，也就是一半左右的引用在語義或事實上站不住腳。
溝通會上，百川智能模型技術負責人鞠強現場提供了一個真實案例素材——
在腫瘤藥物不良反應的測試中，某些看起來非常專業的回答，標明引用匯總了權威協會共識、專家指南和說明書，從形式上看幾乎無可挑剔。
但逐條核對后發現，約90%的引用內容與結論本身沒有直接關系，有的甚至給出的引用里，連藥物都不是詢問模型的那一個。
一個看起來有據可查的答案，背后隱藏著不可接受的嚴肅錯誤。但因為看上去高度專業，有經驗的醫生不留神都可能踩坑，更別提還有許多初出茅廬的那些醫生可能面對這樣的答案了。
這成了百川在M3 Plus中試圖解決的核心問題。
針對這一痛點，百川在M3 Plus中引入了證據錨定（Evidence Anchoring），將循證從理念變成模型必須遵守的結構性約束。
與傳統“標明引用”的方式不同，證據錨定并不是要求模型多列幾篇文獻，它反過來約束模型：如果一句醫學結論找不到能與之精確對應的原始證據段落，這句話就不應該被說出來。
具體實現上， M3 Plus在生成答案時，不僅需要標注文獻來源，還必須將每一句關鍵醫學判斷，逐條錨定到原始論文、指南或共識中的具體段落。
每一個結論，都需要能在原文中找到明確對應。
說得通俗易懂一點，使用M3 Plus的醫生可以直接核查AI說的每一句話是否真的有原文支持，判斷其是否真正支持當前結論。
引用內容豐富，包括但不限于藥品說明書：

中英文文獻：

以及專家共識等：

在訓練層面，百川將“證據是否準確錨定”作為獨立目標進行建模，通過Citation Reward Model ，顯式懲罰“張冠李戴”“內容沖突”等情況。
鞠強解釋，沒有證據錨定，大多數大模型就不能真正理解證據與結論之間的邏輯關系。
所謂的引用文獻往往發生在生成之后，是對輸出結果的補充，并不是推理過程的一部分。
模型只學會了怎么“像醫生一樣說有證據的話” ，卻沒有學會如何“像醫生一樣查證” 。
但模型有幻覺這件事目前還沒有完美解法。百川團隊也反復強調，在醫學問題中，不確定性本身就是客觀存在的事實。
真正重要的是讓錯誤盡可能提前暴露，讓使用者能夠盡早識別風險。
百川M3 Plus之前，業內少有把“引用準確性”本身當成模型核心能力來重新定義的嘗試。
M3 Plus用證據錨定技術，把“引用”這件事量化成了可審計的技術指標，并且提升了模型自己的引用準確率——從行業普遍約75%的水平提升至95%以上。
面向醫療服務，推出“海納百川”免費計劃為了讓這套“證據錨定”技術真正跑在醫院的電腦和醫生的手機里，百川一邊M3 Plus的API降價70%之外，一邊同步開啟了 “海納百川計劃” 。
該計劃中， M3 Plus將以API形式永久免費開放，不限Token數量。
唯一要求是產品需在前臺展示“Powered by 百川” ，且不得對模型輸出進行影響準確性的修改。
計劃限定對象為服務醫務工作者的機構，包括但不限于醫療信息化廠商、醫療教育機構、醫學研究項目、垂直創業公司等。

目前，國內有上千家醫院和數百億投入的專項工程正在探索AI 。 “海納百川計劃”這種技術普惠戰略，有助于避免行業在底層技術上重復造輪子，也讓醫生端和醫療軟件廠商可以在真實場景中進行多輪反復驗證、持續迭代。
王小川透露，百川智能不是沒有算過“海納百川計劃”背后的這筆賬。
如果全國500萬醫學工作者都來使用，百川一年預計投入成本約1億元， “這是我們能接受的” 。
因為賬單背后有更昂貴的成本。在醫療領域，技術試錯的代價往往最終由具體的生命來承擔。
對在診室外等號的普通人來說，很難感受到幻覺率從3%降到2.6%究竟意味著什么……但對于每一位身處一線、需要應對海量文獻和復雜決策的醫生與醫學生來說，這0.4%的跨越就是更堅實的專業底氣。
這種底氣不應只停留在實驗室的PPT里，應該去往最需要它的地方。
現在，每一位醫生和醫學生，都可以走進“百小應”去親身體驗 M3 Plus 帶來的改變，看看一條結論如何被證據段落精準支撐。
M3 Plus隨著免費開放給行業伙伴之后，這種證據錨定的專業能力，會在更多真實臨床場景里被實際使用反復檢驗。
醫療AI的進步，最終會落到走廊里焦急等待的每一個普通人身上。
— 完 —
量子位 QbitAI · 頭條號
關注我們，第一時間獲知前沿科技動態

推薦閱讀

上一篇：粵芯252億項目啟動，全球晶圓代工風起云涌！

下一篇：沒有了