世界最強醫療模型百川M3發布:AI醫療,奇點已至

世界最強醫療模型百川M3發布:AI醫療,奇點已至

文章圖片

世界最強醫療模型百川M3發布:AI醫療,奇點已至

文章圖片

世界最強醫療模型百川M3發布:AI醫療,奇點已至

文章圖片

世界最強醫療模型百川M3發布:AI醫療,奇點已至

文章圖片

世界最強醫療模型百川M3發布:AI醫療,奇點已至

文章圖片

編輯:艾倫
【新智元導讀】百川發布并開源全球最強醫療模型 Baichuan-M3 , 各項指標均已 SOTA!同時 M3 也超越了人類醫生的平均水平 。 它最大的進步是告別了機械的「背醫書」 , 學會了像真人醫生一樣主動追問、排查病因 , 主打「嚴肅問診」 , 不僅能把模糊的病情問清楚 , 更解決了 AI「胡說八道」的頑疾 , 準確度超越 GPT-5.2-High 。 這是 AI 從「聊天機器人」向「專業醫生」進化的關鍵一步 。 AI醫療 , 奇點已至 。
在很長一段時間里 , 人們習慣了這樣一種人機交互:你在搜索框或聊天窗口輸入「頭痛怎么辦?」 , 屏幕對面會瞬間拋回幾千字關于腦瘤、高血壓或頸椎病的百科知識 , 最后附上一句正確的廢話——「建議您及時就醫」 。
這不僅是搜索引擎時代的頑疾 , 也是目前大模型的通病 。
它們像是一個博聞強記但缺乏臨床經驗的醫學生 , 背下了所有醫書 , 卻不懂得如何面對一個活生生的人 。
【世界最強醫療模型百川M3發布:AI醫療,奇點已至】就在今天 , 這個僵局要被打破了 。
百川智能發布并開源了新一代醫療增強大語言模型 Baichuan-M3 。
在百川創始人王小川看來 , 這絕非僅僅是模型參數的升級 , 更是一次對「AI 醫療」的重新定義 。
M3 不再滿足于做一個被動的答題者 , 它試圖掌握一種人類醫生最核心的職業本能——嚴肅問診 。
數據顯示 , Baichuan-M3 在全球權威醫療 AI 評測 HealthBench 及其高難度子集 HealthBench Hard 上雙雙奪冠!

甚至在 OpenAI 最引以為傲的低幻覺領域 , Baichuan-M3 也以 3.5% 的幻覺率擊敗了 GPT-5.2 , 實現全面 SOTA!

真正的變化體現在「百小應」App 里:當患者描述模糊的癥狀時 , AI 不再急于給出結論 , 而是像一位經驗豐富的老大夫一樣 , 開始了一場抽絲剝繭的「偵探游戲」 。

百小應網頁端:https://ying.baichuan-ai.com/chat

從「被動答題」
到「主動追問」
醫療的本質 , 是信息不對稱的博弈 。
患者往往無法準確描述自己的痛苦 , 「肚子疼」在醫學上可能對應著從胃痙攣到急性胰腺炎等數十種可能 。
之前 , 大多數醫療大模型的訓練邏輯是「完形填空」——盡力補全用戶話語中的缺失 。
OpenAI 發布的 HealthBench 評測集 , 本質上考查的也是這種「單輪靜態問答」能力 。
然而 , 百川的技術團隊發現 , 這種邏輯在真實臨床中是危險的 。
醫生看病 , 第一件事永遠是排除危急重癥 。
但在傳統的提示詞工程下 , AI 往往因為急于表現「博學」 , 而忽略了對「紅旗征」(指危險信號)的排查 。
Baichuan-M3 的核心突破 , 在于它首次具備了原生的「端到端」嚴肅問診能力 。
這種能力源于百川獨創的 SCAN 全新問診原則 。
在百小應的實際體驗中 , 如果用戶說「頭暈」 , M3 不會立刻列舉頭暈的原因 , 而是會啟動一套縝密的追問邏輯:

  • 安全分層(Safety Stratification):「是一陣一陣的暈 , 還是天旋地轉?有沒有伴隨惡心嘔吐?」(排查中風或耳石癥風險)
  • 信息澄清(Clarity Matters):「最近有沒有熬夜或測量過血壓?」(量化誘因)
  • 關聯追問(Association & Inquiry):基于初步回答 , 像偵探一樣鎖定嫌疑病因 。
在以往 , 長輪次的對話訓練容易讓模型「迷路」 , 導致邏輯破碎 。
百川新的SPAR 算法通過分步懲罰機制 , 讓 AI 學會了在有限的對話輪次中 , 精準地問出最關鍵的信息 。
在百小應上 , 這意味著 AI 能將患者口中「有點痛」、「不舒服」等主觀體感 , 轉化為醫生看得懂的、結構化的臨床數據 。

攻克「AI 的痼疾」:幻覺
如果說「不會問診」只是讓 AI 顯得笨拙 , 那么「幻覺」則意味著安全風險 。
在嚴肅醫療場景下 , 大模型一本正經地胡說八道(即 AI 幻覺)是不可接受的 。
2025 年 , 盡管 DeepSeek 等國產模型讓 AI 普及到了千家萬戶 , 但大多數通用模型公司并未將「降幻覺」提升到與寫代碼、做數學題同等的高度 。
百川選擇了一條更難的路:將醫療幻覺抑制前移 。
不同于行業通用的「外掛知識庫」(RAG)模式 , Baichuan-M3 試圖從「基因」里剔除幻覺 。
技術團隊構建了一套事實感知強化學習(Fact-Aware RL)架構 。

簡單來說 , 就是在模型訓練的每一次獎懲中 , 都加入對醫學事實的嚴苛校驗 。
這相當于在 AI 的大腦里植入了一個實時的「審稿人」 。
當模型試圖為了讓答案看起來通順而編造一個藥物劑量時 , 懲罰機制會立刻介入 。
這種「內化」的訓練方法效果顯著 。
在不依賴任何外部搜索工具的情況下 , M3 的醫療幻覺率降至 3.5%!
這一數據不僅優于 GPT-5.2 , 更是刷新了全球的最好成績 。
對于百小應的用戶來說 , 這意味著 AI 給出的每一條建議 , 是基于嚴謹醫學邏輯的「負責任表達」 。
在遇到自身知識邊界外的復雜病例時 , M3 更傾向于引導就醫 , 而不是盲目自信地開方 。

誰來給「AI 醫生」監考?
如何評價一個醫生的水平?看他背了多少書 , 還是看他治好了多少人?
過去 , 以 HealthBench 為代表的評測集 , 更像是醫學院的筆試題 。
它考核的是 AI「會不會回答問題」 。
但在百川看來 , 這遠遠不夠 。
臨床如戰場 , 醫生面對的是動態的、混亂的、信息不全的真實世界 。
醫療模型必須要能夠帶著診療目標 , 完整的收集患者信息 。
為了給 M3 一場真正的「臨床大考」 , 百川聯合 150 多位一線醫生 , 借鑒醫學教育中經典的 OSCE(客觀結構化臨床考試)方法 , 搭建了 SCAN-bench 評測體系 。
這是一個包含病史采集、輔助檢查、精準診斷全流程的動態考場 。
AI 不僅要答對最后的病名 , 還要被考核「問診思路是否清晰」、「檢查開得是否合理」、「有沒有漏掉高危風險」 。
在實驗過程中百川發現 , 問診準確度每增加 2% , 最終診療結果的準確度就會提升 1% 。 評測結果顯示 , M3 在SCAN的四個維度均顯著高于人類醫生基線水平 , 并大幅領先于國內外頂尖模型 。

分數超越人類醫生平均值并非意味著 AI 已經全面超越了名醫 , 但在標準化的問診流程、知識的廣度以及對指南的絕對遵循上 , AI 展現出了人類難以比擬的穩定性 。

醫療 AI 的「最后一公里」
技術的高低 , 最終要落回到具體的應用場景中 。
隨著 M3 的發布 , 百川智能旗下的醫療應用「百小應」正在經歷一場靜悄悄的質變 。
在過去 , 患者去醫院就像是一場「盲盒游戲」 。
排隊三小時 , 看病三分鐘 , 面對醫生時語無倫次 , 把關鍵病史忘得一干二凈 。
而接入 M3 后的百小應 , 正在試圖成為醫患之間的「翻譯官」 。
在患者端 , 它是一個 24 小時在線的「全科醫生助理」 。
當你感到不適 , 它通過多輪專業的追問 , 幫你理清病情 , 生成一份專業的病情摘要 。
在醫生端 , 這可能意味著工作流的重塑 。
當患者坐到診室時 , 醫生看到的將會是一份已經排除了基礎風險、羅列了關鍵癥狀的結構化報告 。
醫生可以跳過機械的信息收集環節 , 直接進入高價值的診斷與治療決策 。
這就是百川強調的「強推理、低幻覺的醫療服務能力」的真實落地 。
它不試圖取代醫生 , 而是試圖通過提升問診能力、準確性 , 來幫助醫生決策 。

披荊斬棘的 AI 醫療先鋒
2026 年初 , 全球 AI 醫療的競爭已進入深水區 。
從 OpenAI 的 ChatGPT Health 到 Anthropic 的 Claude for Healthcare , 巨頭們都在爭奪這塊最難啃的骨頭 。
在這場競速中 , Baichuan-M3 的出現具有特殊的標本意義 。
它標志著中國 AI 醫療從「跟隨者」轉身為「定義者」 。
百川證明了 , 通過對醫療決策過程的深度建模 , 大模型可以走出「聊天機器人」的舒適區 , 進入嚴肅、嚴謹且充滿敬畏的臨床世界 。
技術是冰冷的 , 但醫療永遠關乎人性的溫度 。
AI 無法替代醫生握住患者顫抖的手 , 但它可以讓醫生在握手之前 , 看得更清楚、判得更準確 。
針對人口老齡化 , AI 是最靠譜的解決優質醫療資源短缺的幾乎唯一的方案 。
百川作為國內最早一批開始探索 AI 醫療的公司 , 在迷霧中努力探索出一條可落地的 AI 賦能醫療的道路 。

    推薦閱讀