超越“幻觉”：医学AI从语言生成向“视觉证据推理”的范式跃迁

TL;DR：

医学AI正从单纯的“看图说话”进化为具备主动探索能力的智能体；通过引入“Think with Images/Videos”范式，模型开始像医生一样通过工具主动查证视觉证据，这标志着医疗AI从概率模拟迈向了确定性推理的深水区。

视觉并非终点，而是推理的原材料

过去几年，医学多模态大模型的发展路径在很大程度上被“语言建模”所主导——模型通过编码图像特征，利用强大的大语言模型（LLM）能力生成诊断解释。然而，这种路径存在一个根本性的认知盲区：模型通过大规模预训练习得的统计相关性，往往无法在微小的病灶边界或瞬息的手术动态中保持精确。

当AI模型表现出“看起来逻辑严密，实则盲点频出”的现象时，本质上是因为它缺失了临床诊断的核心行为：主动查证。LeapQuest团队提出的Ophiuchus与MedScope工作，正是要打破这种“被动接收”的僵局。

技术突破：从“预测”到“交互式观察”

Ophiuchus（图像推理）与MedScope（视频推理）的核心创新，在于将“视觉工具调用”内嵌至思维链（Chain of Thought）中。

视觉证据的闭环交互：模型不再是一次性提取特征，而是将其视为一个动态过程。在推理过程中，模型可以调用SAM2（分割）、Zoom-in（放大）或crop_video（视频切片）等工具。这些工具的输出并非仅仅供人类查看，而是作为后续推理步骤的直接依据，形成了“假设—查证—修正—决策”的医学认知闭环。
强化学习的范式重构：MedScope利用GA-GRPO（Grounding-aware Group Relative Policy Optimization）算法，将视觉定位的准确性纳入强化学习的奖励机制。这意味着，如果模型回答正确但“找错”了关键帧，系统会给予负反馈。这种机制强迫模型学会“为了正确的原因得出正确的答案”。

商业与临床价值：通往可解释AI的路径

在商业逻辑上，这一范式转变将显著提升医学AI在临床场景的落地深度。目前的医疗合规体系对“黑盒决策”持有极高的审慎态度，而Ophiuchus与MedScope带来的“可审查性”，实际上是将AI的思维过程“可视化”了。

“当医学AI能够展示它放大了哪个像素区域、回看了哪一秒的手术过程来支持其诊断时，它才真正具备了作为医生协同工具的临床可信度。”

从产业生态角度看，这意味着医疗影像诊断软件（PACS系统）的供应商们，将不再仅仅销售静态的辅助分析工具，而是会转向提供“主动推理助手”。这种技术能力的提升，将直接缩短放射科医生与病理科医生的审查时间，提高医疗资源的运转效率。

哲学视角：AI与医学认知的融合

从认知科学的角度看，Ophiuchus和MedScope体现了AI正在重塑人类对“专家知识”的定义。医学不仅仅是知识库的提取，更是对复杂、不确定性视觉信号的甄别。将视觉证据作为思考过程的一部分，实质上是赋予了AI一种“第二视觉”。

然而，这也带来了新的伦理挑战：当AI能够自主决定“看哪里”时，它是否会产生新的算法偏见？例如，模型是否会倾向于关注某些易于分割的病灶而忽略了更加隐蔽的微小病变？这种对技术的信任，需要建立在更严谨的临床评测基准上，而非单纯的榜单分数。

未来展望：具身诊断智能的雏形

展望未来3-5年，这种“Think with Tools”的智能体模式将成为多模态大模型的标准架构。我们正在目睹AI从单纯的“信息处理者”向“认知参与者”的进化。随着模型在推理过程中对视觉、听觉（如手术心电监护音）、触觉信号的深度整合，我们可能很快会看到具备完整“临床认知能力”的AI智能体，它们不仅能读懂影像，更能理解复杂临床流程的本质逻辑。

视觉并非终点，而是推理的原材料

技术突破：从“预测”到“交互式观察”

商业与临床价值：通往可解释AI的路径

哲学视角：AI与医学认知的融合

未来展望：具身诊断智能的雏形

引用