洞察 Insights

代码基准的罗生门：GPT-5与Claude之争揭示大模型能力评估的深层迷思

GPT-5在软件工程基准SWE-bench Verified上宣称的代码能力领先地位遭到质疑，因其计算成绩时跳过了23道最困难的测试任务，而竞争对手Claude Opus则完成了所有题目。这起争议揭示了AI模型基准测试在透明度、可比性及公信力方面面临的严峻挑战，并促使行业重新审视如何公正、全面地评估大模型的真实能力及其对未来软件工程的深远影响。

阅读全文

洞察 Insights

蚂蚁CGM：不依赖Agent，用代码图重构AI软件工程的未来

蚂蚁集团的创新性代码图模型（CGM）在SWE-Bench Lite基准测试中，以44%的真实Bug修复率登顶开源榜首，性能媲美闭源SOTA。该模型通过直接建模代码仓库的图结构，摒弃了传统Agent架构的复杂性，实现了大模型对仓库级代码的深度理解，为AI软件工程提供了更高效、安全且可控的新范式。

阅读全文

洞察 Insights

超越符号：新型大模型如何通过代码图谱重塑软件工程的未来

蚂蚁团队开源的Code Graph Model（CGM）首次使大模型能够直接理解代码图谱，无需复杂的Agent即可实现自动bug修复。该模型在SWE-Bench Lite上实现了44%的修复率，超越所有开源方案并媲美闭源模型，并通过其开源特性为软件工程自动化提供了更高效、可控和透明的路径。

阅读全文