首页
洞察
早报
日报
主题探索
关于
动态评估
洞察 Insights
MAC基准:AI科学推理的“活考卷”——解码多模态大模型的真实智能边界
上海交通大学推出的MAC动态基准,通过利用顶尖科学期刊的最新封面,旨在构建一个持续演进、能有效防止数据污染的AI评估体系,以真正考验多模态大模型对复杂科学概念的深层推理能力。该基准发现现有模型在跨模态科学理解上存在显著局限,并提出了DAD分步推理方法,为AI的评估、发展以及在科学发现中的应用提供了更严谨、前瞻性的洞察。
阅读全文