Agentica和Together AI联合发布的DeepCoder-14B-Preview,一款开源的140亿参数AI编程模型,在编码基准测试中超越了OpenAI的o1模型,并达到o3-mini的性能水平。这一突破性进展不仅展示了通过强化学习进行高效模型训练的潜力,更通过完全开源数据和训练配方,致力于推动LLM强化学习训练的民主化,为AI辅助编程的未来发展开辟了新路径。
当业界巨头们围绕着闭源AI模型的性能指标展开激烈竞争之际,一个由Agentica项目和Together AI联合打造的开源模型——DeepCoder-14B-Preview——悄然崛起,以其令人印象深刻的表现,向既有秩序发起了强劲挑战。这款仅有140亿参数的AI编程模型,在权威的LiveCodeBench编码基准测试中达到了60.6%的通过率,不仅超越了OpenAI的o1模型,其性能更是直逼o3-mini,引发了社区和专业人士的广泛关注123。这不仅仅是一个性能上的胜利,更是对AI模型开发模式的一次重要宣言:高性能可以与开源精神并存,并有望加速整个领域的创新步伐。
开源AI编程的新里程碑
DeepCoder-14B-Preview的问世,无疑为开源AI编程领域注入了一剂强心针。在LiveCodeBench上,它以60.6%的Pass@1准确率,显著超越了OpenAI的o1模型(据报道为59.5%),并且与o3-mini(60.9%)的性能差距微乎其微23。除了LiveCodeBench,DeepCoder还在Codeforces、HumanEval等多个知名编码基准以及数学基准AIME2024上表现出色,其分数与闭源推理模型如o1和o3-mini“可比”甚至更优1。
这一成就的背景是,模型基于_Deepseek-R1-Distilled-Qwen-14B_进行构建,并在24,000个编码问题数据集上通过强化学习(RL)进行了精细微调14。值得注意的是,Reddit社区用户在试用DeepCoder-14B的量化版本后,对其性能表示高度赞赏,称其为“在这种大小中尝试过的最好的模型”,并认为它在日常任务中确实超过了某些闭源模型1。这表明,DeepCoder不仅在理论基准上表现优异,在实际应用中也展现出强大的潜力。
技术深层解析与训练民主化
DeepCoder的成功并非偶然,而是源于团队对强化学习训练流程的深刻理解和创新优化。在开发过程中,他们着重解决了RL训练的两个核心难题:高质量训练数据的稀缺性和奖励信号计算的高昂成本15。
首先,针对编码问题中“高质量、可验证”训练数据不足的问题,DeepCoder团队开发了一套自动化流程。他们发现许多现有数据集“有噪声或包含不可验证的问题”,或者对模型来说过于简单1。为了确保数据质量,他们的流程只保留那些具有可验证解决方案并至少包含五个单元测试的问题。这种对数据清洁度和验证性的严格要求,是模型能够有效学习复杂编程逻辑的基础。
其次,强化学习训练中一个重要的瓶颈是“采样”,即对正在训练的模型进行推理以获取反馈。这通常是一个计算密集型且耗时的过程15。DeepCoder团队通过将训练和推理过程_管道化_(pipelined)来解决这一问题,使其并行运行,并利用推理输出作为下一批训练的输入。这一优化将训练迭代时间减少了1.4倍,并使端到端训练效率提高了2倍1。这些优化都被内置到了他们改进的分布式RL框架_verl_中,为强化学习的开发提供了一个强大的模型训练工具15。
更重要的是,DeepCoder团队秉持着强烈的开源精神。他们不仅发布了模型本身,还完全共享了所有相关的构件:包括训练代码、数据集、训练日志以及对verl框架的改进167。正如他们在声明中所言:
“我们的目标是对大语言模型(LLM)的RL训练民主化……通过完全共享我们的数据集、代码和训练配方,我们赋予社区复制我们工作的能力,并使所有人都可以使用RL训练。我们相信推进RL扩展是一个集体的、社区驱动的努力,我们欢迎开源贡献和赞助。让我们携手推动RL在LLM推理——以及更广泛的领域——的前沿!”1
这种开放的态度得到了业界的广泛认可。知名AI专家Andrew Ng(吴恩达)的新闻通讯《The Batch》就赞扬了DeepCoder团队开源其“推理配方”的做法,指出许多团队在成功实施RL方面仍面临困难,而开放的RL训练方法和数据管理技术对于推动该领域的发展至关重要15。
推动AI编程的未来版图
DeepCoder-14B-Preview的发布,不仅是一项技术成就,更具有深刻的行业影响和前瞻性意义。它证明了即使是相对较小参数的开源模型,在经过高效的强化学习训练后,也能在特定领域(如代码生成)达到甚至超越大型闭源模型的性能。这预示着AI模型开发的未来可能不再完全由少数拥有巨额计算资源的公司主导,而是会走向一个更加_去中心化_和_协作化_的模式。
从经济角度看,更高效的开源训练方法和模型,将显著降低中小企业和研究机构开发和部署先进AI编程工具的门槛。这将激发更广泛的创新,催生出更多元化的AI应用和服务,从而为软件开发行业带来深远的变革。开发者可以利用这些开源模型作为基础,针对特定需求进行定制和优化,加速从概念到产品的迭代周期。
从社会和伦理角度来看,高性能开源AI编程模型的普及,带来了机遇也伴随着挑战。一方面,它赋予了更多人利用AI赋能自身创造力的能力,可能促进科学研究、教育和开源社区的繁荣。例如,它能帮助非专业人士进行简单的脚本编写,或加速专业程序员的开发流程,从根本上提升生产力。另一方面,这也要求我们思考如何确保这些AI生成代码的_可靠性、可解释性_和_安全性_。当AI生成的代码被广泛应用时,其潜在的错误或漏洞可能带来意想不到的后果。因此,未来的研究不仅要关注性能提升,更要探索有效的验证、调试和监管机制,确保AI辅助编程在推动效率的同时,也能保持高标准的代码质量和伦理责任。
DeepCoder的发布,不仅仅是关于一个模型在基准测试上的表现,它更是一个信号,表明开源社区在AI核心技术,特别是强化学习领域,正展现出越来越强大的竞争力。随着更多的“训练配方”被开源和民主化,我们或许正站在一个新时代的门槛上,一个AI不再仅仅由少数“巫师”掌控,而是成为全人类共同工具的时代。
References
-
InfoQ(2025/6/20)。Agentica项目的开源DeepCoder模型在编码基准上优于OpenAI的O1。InfoQ。检索日期2025/6/20。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
SegmentFault(2025/6/20)。Agentica 项目的开源 DeepCoder 模型在编码基准测试中优于 OpenAI 的 O1。SegmentFault。检索日期2025/6/20。 ↩︎ ↩︎
-
每时AI(2025/6/20)。媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开。每时AI。检索日期2025/6/20。 ↩︎ ↩︎
-
Hugging Face(2025/6/20)。agentica-org/DeepCoder-14B-Preview。Hugging Face。检索日期2025/6/20。 ↩︎
-
Andrew Ng(2025/6/20)。The Batch, Issue 301。DeepLearning.AI。检索日期2025/6/20。 ↩︎ ↩︎ ↩︎ ↩︎
-
Agentica项目(2025/6/20)。DeepCoder-14B-Preview训练代码。GitHub。检索日期2025/6/20。 ↩︎
-
Together AI(2025/6/20)。DeepCoder-14B-Preview模型文件。Hugging Face。检索日期2025/6/20。 ↩︎