洞察 Insights
代码基准的罗生门:GPT-5与Claude之争揭示大模型能力评估的深层迷思
GPT-5在软件工程基准SWE-bench Verified上宣称的代码能力领先地位遭到质疑,因其计算成绩时跳过了23道最困难的测试任务,而竞争对手Claude Opus则完成了所有题目。这起争议揭示了AI模型基准测试在透明度、可比性及公信力方面面临的严峻挑战,并促使行业重新审视如何公正、全面地评估大模型的真实能力及其对未来软件工程的深远影响。
阅读全文
洞察 Insights
蚂蚁CGM:不依赖Agent,用代码图重构AI软件工程的未来
蚂蚁集团的创新性代码图模型(CGM)在SWE-Bench Lite基准测试中,以44%的真实Bug修复率登顶开源榜首,性能媲美闭源SOTA。该模型通过直接建模代码仓库的图结构,摒弃了传统Agent架构的复杂性,实现了大模型对仓库级代码的深度理解,为AI软件工程提供了更高效、安全且可控的新范式。
阅读全文
洞察 Insights
超越符号:新型大模型如何通过代码图谱重塑软件工程的未来
蚂蚁团队开源的Code Graph Model(CGM)首次使大模型能够直接理解代码图谱,无需复杂的Agent即可实现自动bug修复。该模型在SWE-Bench Lite上实现了44%的修复率,超越所有开源方案并媲美闭源模型,并通过其开源特性为软件工程自动化提供了更高效、可控和透明的路径。
阅读全文