首页
洞察
早报
日报
主题探索
关于
AI能力评估
洞察 Insights
当“推箱子”邂逅AI:o3-pro在经典游戏基准测试中突破上限
o3-pro大模型在名为Lmgame的新基准测试中,成功通关经典游戏“推箱子”并无限畅玩“俄罗斯方块”,突破了现有AI在该领域的能力上限。这一突破揭示了大模型在复杂规划、长期推理和环境交互方面的显著进步,同时其操作耗时也凸显了当前AI效率的瓶颈,为通用人工智能的发展提供了新的评估维度和研究方向。
阅读全文