AI医生终结“胡言乱语”?百川M2 Plus携“六源循证”炸场医疗圈!

温故智新AIGC实验室

TL;DR:

百川智能M2 Plus医疗大模型放大招,不仅幻觉率比友商狂降3倍,还首创“六源循证”推理,让AI医生告别“胡说八道”,智商情商双双在线,秒变医学“考霸”!

在AI大模型“横扫”各行各业的当下,医疗领域无疑是那颗“皇冠上的明珠”,璀璨夺目却又充满挑战。毕竟,这可是人命关天的大事,AI要是“幻觉”起来,那可不是闹着玩的!就在大家还在为AI大模型的“胡说八道”犯愁时,百川智能却悄悄甩出了一记“王炸”:他们带着循证增强医疗大模型Baichuan-M2 Plus隆重登场,直接把医疗AI的“幻觉率”狠狠按在地上摩擦,比友商DeepSeek足足降低了3倍!这波操作,简直是给医疗AI打了一剂“强心针”!1

告别“胡言乱语”:AI医生,这次真的靠谱了?

想象一下,一个AI医生,面对你的病情,突然“脑补”出一些根本不存在的症状或疗法,那场面……简直是医学版“恐怖故事”!这就是大模型的“幻觉”问题,在通用大模型身上司空见惯,但在医疗领域,它就是悬在医生和患者头上的“达摩克利斯之剑”。

然而,百川M2 Plus这次就是要**“拔剑出鞘”**,直接冲着AI幻觉这老大难问题去了。他们宣称,M2 Plus的医疗幻觉率在所有大模型中最低,不仅把DeepSeek R1最新版甩开3倍,甚至比美国知名的医疗AI产品OpenEvidence还要优秀。

“M2 Plus的可信度,已能比肩资深临床医生水准。”

百川智能在发布会上自信地表示。这话听起来是不是有点燃?这意味着,AI医生从“小白实习生”到“资深老专家”的蜕变,似乎已经悄然上演。那么,百川到底用了什么“黑科技”,让AI医生能够如此“靠谱”呢?

独家秘方大公开:六源循证,让AI“像医生一样思考”

要让AI不“胡说”,首先得让它知道什么叫“铁证如山”。这,就不得不提现代医学的“葵花宝典”——循证医学(Evidence-Based Medicine, EBM)。它强调所有医疗决策都必须基于最可靠的科学证据。百川M2 Plus正是把这一原则刻进了AI的“骨子里”。

他们首创了**“六源循证推理(EAR)范式”**,简直是给AI医生量身定制了一套“武功秘籍”,让它不仅能“看病”,还能“思考”:

  • 原始研究层:这里索引了海量医学期刊论文,超过4000万篇,比PubMed收录还多!这是AI知识的**“源头活水”**。这层主要回答“事实是否存在”问题。
  • 证据综述层:整合了系统评价和Meta分析等“高级证据”,相当于把各种研究报告的**“精华”**都提炼了出来。这层主要回答“结论是否一致”问题。
  • 指南规范层:引入了国际和国内权威机构发布的临床指南、专家共识和行业标准,这可是AI医生决策的**“官方认证”**。这层回答了“行业如何规范”问题。
  • 实践知识层:包含了临床病例报道、一线专家经验和诊疗技巧等“接地气”的实用知识,让AI能更贴近**“真实战场”**。这层回答了“医生应如何决策”问题。
  • 公共健康教育层:汇集权威科普和公共卫生知识,是AI对大众进行**“健康科普”**的素材库。这层回答“患者应如何理解”问题。
  • 监管与真实世界层:涵盖药监部门公告、临床试验登记及大规模真实世界研究数据,这是AI医生对**“风险预警”“实时更新”**的保障。这层回答了“是否存在新风险”问题。

百川M2 Plus主动屏蔽了互联网上的“七嘴八舌”,只盯着权威的医学证据,从源头杜绝了AI“信口开河”的可能。这套“六源循证”体系,就像给AI医生打造了一个完整且权威的知识宇宙

光有知识库还不够,还得会“找”和会“用”。传统的RAG(检索增强生成)模式,就像在大海捞针,只要“找得到”就行。但医疗AI需要的是**“手术刀式精准”**的循证检索,不仅要找到,更要找到“铁证”。

M2 Plus引入了PICO框架(人群Population、干预Intervention、对照Comparison、结局Outcome),把模糊的医学问题结构化,然后分层匹配到它的六源数据库里。比如,你问“老年OSA患者使用CPAP能否改善高血压?”,系统会优先在高等级证据里搜索,并自动评估研究质量、样本量、置信区间等,这可比直接把新闻和指南一视同仁的通用RAG高明多了!

更牛的是,M2 Plus还能**“三步精准锁定铁证”**:

  1. 智能提问:自动把你的问题拆解成多个专业PICO查询,进行“地毯式”搜索,保证“面子”和“里子”都有。
  2. 精准锁定:通过自研的Medical Contextual Retrieval技术,保留文献的“临床因果链”,避免信息“断片”。
  3. 证据排序:内置了一个“审稿人”模型,自动评估证据等级,把最可信、最相关的**“铁证”**优先呈现。这操作,简直就是给AI安了个“学术良心”!

当AI手握“铁证”后,最关键的一步就是如何让它**“像医生一样思考”**,而不是“自由发挥”。百川智能在M2 Plus中引入了“循证增强训练”机制,简单来说就是:

  • “奖励引用,惩罚臆测”:AI模型准确引用权威来源时,会获得高分;一旦脱离证据“瞎编”,立刻受到惩罚。这不就是AI版“做人不能太双标”吗?
  • 内置“证据评估器”:模型被训练得能自动评估证据质量,优先采纳RCT(随机对照试验)、Meta分析等高可信度信息,并无缝融入推理链。
  • 自动附上参考文献:在输出关键结论时,M2 Plus会自动附上文献和指南出处。这下,谁还敢说AI“胡说八道”?人家可是有**“理”有“据”**!

这种“循证驱动”的生成逻辑,让M2 Plus几乎告别了“无中生有”的内容,在多场景评测中,其综合幻觉率确实做到了最低。

卷出新高度:考试碾压,AI医生也要“内卷”了?

光说不练假把式,AI医生实力如何,还得看“考试成绩”。M2 Plus在各种医学“大考”中的表现,简直是**“学霸级碾压”**!

  • USMLE(美国执业医师资格考试):这项被视为临床知识和推理能力“黄金标准”的考试,M2 Plus取得了惊人的97分!要知道,就算是资深临床专家,要突破90分也极具挑战。而M2 Plus不仅远超人类平均水平,更是与OpenAI的GPT-5打了个平手。2
  • NMLE(中国执业医师资格考试):在国内考场上,M2 Plus更是取得了568分的“碾压级”成绩,远超360分的及格线,在所有公开测试的主流大模型中位列第一。

除了这些“刷题机器”般的考试,更硬核的考验是HealthBench Hard评测集,这是一个专门针对复杂困难场景设计的评估集。此前,全球没有任何模型能超过32分,甚至很多前沿模型直接“吃鸭蛋”!但现在,M2 Plus以34.7分的成绩,成为全球第二款超过32分的模型,与GPT-5并驾齐驱,力压世界所有其他顶尖闭源大模型。3 这简直是医疗AI界的**“双雄争霸”**!

百川M2 Plus的“武功”不只在分数上,它还在真实医疗场景中达到了与人类资深临床专家同等的可信度,尤其在病史分析、诊断思路、治疗方案等核心场景中表现突出。

更厉害的是,百川M2 Plus不仅能力**“超神”,还考虑到了落地问题。它支持RTX4090单卡部署**,相比DeepSeek-R1 H20双节点部署方式,成本直接“腰斩”57倍!2 这波操作,简直是把**“性价比”拉满**,让更多的医院和医疗机构都能用上顶尖的AI医生,真正做到了**“普惠医疗AI”**。

目前,接入M2 Plus的“医生版ChatGPT”——百小应,已在各大手机应用商店上线,网页版(ying.ai)也同步开放。它还面向医院信息化部门、互联网医疗、大健康服务等泛医学机构,以及医疗AI开发者提供了标准化的API接口,这不就是打通了医疗AI的“任督二脉”吗?

从早期与北京儿童医院合作推出“福棠·百川”儿科大模型4,到如今的M2 Plus,百川智能一直在强调对中国医疗场景的深度适配。这意味着,M2 Plus不仅懂全球最前沿的医学知识,更懂得中国患者的特点、医疗资源的现状和中国指南的推荐,真正成为中国医疗界专属的“顶尖智囊团”。

AI医疗的“星辰大海”:未来已来,你准备好了吗?

百川M2 Plus的发布,无疑是医疗AI领域的一次重要里程碑。它不仅解决了大模型在医疗应用中最大的“痛点”——幻觉问题,更通过独特的循证机制,让AI医生从“知识问答机”进化为“临床决策助手”,甚至能模拟真实患者进行训练,练出**“随机应变”的能力**。

虽然AI医疗的道路依旧漫长,数据合规、伦理治理等挑战层出不穷。但百川M2 Plus用实力证明,在AI垂直领域,中国力量完全有机会实现“弯道超车”,甚至成为全球的领跑者。当AI医生不再“胡说八道”,能够像资深专家一样思考、诊断、治疗,并以更低的成本走进千家万户,那医疗普惠的“星辰大海”,或许真的不远了。

引用


  1. 百川发布循证增强大模型M2 Plus,幻觉率相比DeepSeek降低3倍·极客邦科技(2025/10/22)·检索日期2025/10/22 ↩︎

  2. 反超OpenAI,百川开源大模型医疗能力登顶世界第一·生物谷(2025/10/22)·检索日期2025/10/22 ↩︎ ↩︎

  3. 百川开源最新医疗大模型,中国力量领跑医疗AI赛道·OFweek(2025/08)·检索日期2025/10/22 ↩︎

  4. 中国医疗大模型反超OpenAI,Baichuan-M2如何撕开行业天花板?·知乎·甲子光年(2025/10/22)·检索日期2025/10/22 ↩︎