洞察 Insights

Agent的“成年礼”：当基准测试不再通过“死记硬背”，AI离真实经济价值还有多远？

Agents’ Last Exam (ALE) 通过引入长流程的真实专业任务，揭示了当前AI Agent在执行复杂生产任务时的技术局限，不仅纠正了现有的性能评估偏差，更为AI从“应试模型”转向“实用生产力”指明了方向。

洞察 Insights

SWE-BENCH PRO揭示大模型编程幻象：GPT-5的“不交卷”策略与真实能力边界

最新的SWE-BENCH PRO基准测试揭示了GPT-5等大模型在真实复杂软件工程任务中的显著局限，特别是GPT-5高达63.1%的任务未尝试解决，暴露出其在问题理解和主动规划方面的不足。这一结果修正了此前对AI编程能力的过度乐观预期，并为未来AI Agent和软件工程的结合指明了更具挑战性也更务实的研发方向。

阅读全文