洞察 Insights

超越“思考的幻觉”：一场关乎大模型推理本质与评估范式的深度辩论

苹果公司此前发表论文质疑大模型推理能力，认为其在复杂问题上表现崩溃。最新研究由Open Philanthropy和Anthropic合作，并由AI模型Claude Opus共同署名，反驳了苹果的观点。新论文指出，苹果的实验设计存在缺陷，如模型输出令牌限制、误差累积和包含无解问题，这些因素导致模型被误判为缺乏推理能力。

阅读全文