阿里巴巴从基于Copilot的代码辅助工具转向更通用的AI智能体,旨在通过自主化能力实现研发效率的指数级提升。这一范式转变虽前景广阔,但面临着复杂的模型可靠性、工程集成、伦理安全及责任归属等深层技术与社会挑战,其成功将重塑软件开发的未来。
在数字化的浪潮中,人工智能正以前所未有的速度渗透到传统行业的核心流程,而软件开发领域,作为数字世界的基石,尤受AI影响。从最初的代码补全工具,到如今能够自主规划、执行复杂任务的“智能体”(Agents),AI正在重塑我们对软件工程的认知。阿里巴巴,作为全球领先的科技巨头,其在AI编码(AI Coding)领域的探索,无疑是这一宏大变革的缩影,不仅揭示了技术演进的潜力,也暴露了其所面临的深层挑战。
从代码补全到智能体:阿里巴巴的探索之路
阿里巴巴在智能研发工具领域的探索起步较早,自2023年3月起便开始布局,至今已逾两年。最初的重心主要落在编程场景的优化,例如提供类似Copilot的代码补全功能(包括传统补全和多行补全),以及代码会话能力。此外,他们还率先在代码审查(Code Review)方面投入,利用大模型对代码进行总结,并能精确指出问题代码行,甚至提供一键修改建议,极大简化了开发者的工作流程。这些工具与阿里巴巴内部的IDE和业务系统深度整合,形成了独特的_Prompt市场_和_Extension功能_,以支持垂直业务场景的自动化。
据阿里巴巴内部数据显示,其AI Coding产品目前日活用户约12,000人,集团内部渗透率高达65%。在核心的代码补全功能上,整体采纳率达到28%,其中在Java广泛使用的IntelliJ IDEA上,采纳率更高达33%。在代码审查方面,约有20%的问题建议由AI生成1。这些数字无疑证明了AI在局部效率提升上的显著价值。
然而,尽管取得了初步成功,阿里巴巴也逐渐发现,仅凭“Copilot”式的辅助并不能满足所有期望。一线研发人员感受到了效率提升,但对非一线人员而言,他们希望更激进的变革——例如,从需求提出直接生成可上线代码,实现端到端的自动化。现有的工具在解决复杂问题时显得力不从心,主要症结在于:
- 工具理解能力有限:AI难以完全捕捉用户真实、细致的需求,尤其是在处理边界条件和约束条件时。
- 用户需求描述模糊:用户往往不擅长清晰地表达复杂需求,导致AI生成结果与预期存在偏差。
- 领域知识整合困难:企业内部存在大量隐性知识和不一致的命名规范,这使得模型难以有效学习和应用。
- 用户使用成本仍高:AI生成的代码通常只能达到85%-90%的完成度,用户仍需耗费精力进行本地修改和测试,影响了留存率。
- 大模型自身局限:模型在可靠性、上下文窗口处理复杂性、关键信息抓取以及逐步解决问题的能力上仍有不足。
- 内部数据和平台集成障碍:DevOps平台间的信息孤岛,以及文档质量参差不齐、图片信息解析不足等问题,使得研发信息的串联和知识的有效利用面临巨大挑战。
智能体范式的崛起与挑战
在过去半年中,外部产品(如_Cursor_2、Windsurf)、多模态模型(理解架构图、截图)以及端到端代码生成能力的飞速进步,特别是大模型在“思考”和理解自身能力边界方面的提升,为阿里巴巴带来了新的机遇。这些进步促使阿里巴巴将战略重心从“Copilot”全面转向“Agent”模式。
阿里巴巴认为,传统的“人与模型共同驱动”的规则编排模式,虽然短期有效,但存在泛化能力不足、构建成本高昂以及难以应对复杂任务等问题。受到_Devin_等能够从零开始生成代码、并在容器环境中进行调试的_模型驱动_型Agent的启发2,阿里巴巴决定摈弃规则编排,全面拥抱模型驱动的Agent范式。
目前,阿里巴巴已开发了两类Agent产品:
- 基于IDE的Agent:这款Agent在集成开发环境中运行,通过模型驱动调用Shell能力、代码库搜索能力以及文件读写等功能,帮助用户快速实现小型需求、理解代码仓库,并将许多研发任务“左移”到开发早期阶段,例如在IDE中自动进行更深层次的代码审查。它采用逐步反馈、迭代推进的任务执行方式。
- Aone Agent(通用Agent):这是一款类似_Devin_的通用Agent产品,其核心目标是通过模型驱动来解决复杂的长链路任务。它具备自主思考、自主规划、使用工具、反思和自我学习的能力。用户只需提出一个高层需求(如“生成一个五子棋游戏”),Aone Agent就能在后台容器中自动完成代码生成、调试、测试和预览的全过程。其定位是全研发全生命周期提效,旨在实现“一个人成为一个团队”的愿景,从而将研发效率提升十倍1。它不仅能完成代码编写,还能进行业务调研、技术调研报告生成,甚至行程规划等3。
然而,构建和部署通用Agent面临着一系列严峻的挑战:
- 记忆管理:Agent需要高效管理短期记忆(防止上下文膨胀)和长期记忆(存储成功经验并按需召回)。
- 任务执行与评估:多步骤、长链路任务的异步执行需要复杂的Multi-Agent架构和高效的任务调度。更棘手的是,如何评估Agent的能力和效率?传统的代码评测集无法评估整个过程,需要结合结果和过程进行多维度评估。
- 工具使用能力:Agent在使用浏览器控制台、Shell等工具时仍显笨拙,工具间的通信也存在问题(如子Agent无法自动获取主Agent已知的凭据)。
- 大模型自身缺陷:指令遵循能力不足(例如,反复使用转义符或不按规则测试),上下文长度问题(长文本中易忽略细节),以及推理和反思能力欠缺(容易误入歧途或陷入死循环,缺乏从错误中学习并纠正路径的能力)。
- 算法团队的认知偏差:当前的大模型训练往往聚焦于局部最优解,而Agent模式追求的是长链路任务的全局最优解,这要求算法团队在模型训练目标上做出根本性转变。
- 对外部模型的依赖:通用Agent的运行高度依赖强大的基础大模型,而目前具备Agent能力的国产模型相对较少。这带来了高昂的成本(单个复杂任务可能高达50-80元人民币)1、数据隐私风险、服务限流风险,甚至是被模型提供商“降智”的潜在风险1。
展望未来:AI Agents 的潜能与深层考量
阿里巴巴的探索反映了一个更广泛的行业趋势:AI Agent正被视为软件开发领域继图形用户界面和移动互联网之后的又一“GUI时刻”2。它有望使更多非专业人士(citizen developers)实现长尾需求,生成“随用随抛”的_disposable apps_,为不同用户提供个性化体验2。最终目标是打造一个“任务引擎”(task engine)2,彻底颠覆软件生产方式。
然而,AI Agents的崛起也带来了一系列深层次的伦理和社会考量,这些问题远超技术范畴,关乎我们如何定义人机关系和责任边界:
- 安全风险:Agent的异步执行和不可预测性可能导致无法预料的后果,尤其是在关键业务场景中。
- 隐私侵犯:具备自主权限的Agent可能过度收集和处理敏感数据,引发隐私泄露风险。
- 授权边界:用户如何信任Agent,并清晰地界定其权限范围,避免无意中的越权操作(例如,Agent在未经明确指示的情况下删除重要数据仓库)。
- 责任归属:当Agent在自主执行任务过程中造成损失时,其责任应归属于人类操作者、模型开发者,还是Agent本身?这是一个尚无定论的法律和伦理难题,是业界和社会必须共同面对和探讨的核心问题。
阿里巴巴从Copilot到通用Agent的转型,是AI在软件工程领域从辅助工具到自主系统的关键跃迁。这不仅是技术能力的飞跃,更是对现有研发范式、企业组织形态乃至社会伦理的深刻重塑。未来的软件开发,将不再仅仅是人类工程师与工具的协同,而是人类与高度自主智能体共同创作、调试、优化的复杂生态。能否妥善应对其技术挑战,并负责任地解决其伴随而来的伦理困境,将决定AI Agents能否真正释放其改变世界的巨大潜能。
引文
-
AI Coding 最全图谱:Agent 将如何颠覆软件 · 华尔街见闻 · (2024/05/20) · 检索日期2024/05/20 ↩︎ ↩︎ ↩︎ ↩︎
-
通义灵码_你的智能编码助手-阿里云 · 阿里云 · (2024/05/20) · 检索日期2024/05/20 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
从“人驱动”到“模型驱动”:聊聊Agent 在2025 年的爆发与挑战 · InfoQ · (2024/05/20) · 检索日期2024/05/20 ↩︎