洞察 Insights

当“推箱子”邂逅AI：o3-pro在经典游戏基准测试中突破上限

o3-pro大模型在名为Lmgame的新基准测试中，成功通关经典游戏“推箱子”并无限畅玩“俄罗斯方块”，突破了现有AI在该领域的能力上限。这一突破揭示了大模型在复杂规划、长期推理和环境交互方面的显著进步，同时其操作耗时也凸显了当前AI效率的瓶颈，为通用人工智能的发展提供了新的评估维度和研究方向。