洞察 Insights

多模态AI的数学困境：从图像到形式化证明，准确率仅4%揭示深层推理鸿沟

香港科技大学团队发布的MATP-BENCH基准测试显示，当前多模态大模型（MLLMs）在理解图文结合的数学问题并将其形式化方面表现尚可（45%成功率），但在构建完整、可验证的形式化证明时，其成功率骤降至仅4%，暴露出模型在严谨逻辑推理和辅助线构造等深层能力上的显著不足，这指明了AI在迈向真正智能道路上的关键瓶颈。

阅读全文