从感知到行动:RSAgent如何终结视觉分割的“单次预测”时代

温故智新AIGC实验室

TL;DR:

复旦大学团队推出的RSAgent通过引入“先观察、再推理、后修正”的闭环智能体框架,在视觉分割任务中通过多轮工具调用实现了9%的准确率提升,标志着视觉AI正从静态描述转向主动交互的行动逻辑。

技术原理与范式迁移:从被动预测到主动试错

长期以来,视觉分割(Visual Segmentation)一直被视为一种“瞬间判断”任务——给定图像和文本指令,模型需要一步到位地输出像素级掩码(Mask)。然而,这种单次前向传递(Single-pass Inference)在面对遮挡、语义歧义或复杂空间关系时显得力不从心。

RSAgent的核心突破在于其将“视觉理解”转化为“视觉行动”。它不再试图训练一个完美的分割头(Segmentation Head),而是构建了一个包含观察(Observation)、思考(Thought)、行动(Action)与反馈(Feedback)的交互闭环1。这一范式借鉴了强化学习(RL)中的长程决策逻辑,利用多模态大模型(MLLM)作为智能核心,通过多次调用视觉工具(如SAM2)持续修正输出。正如团队所指出的,痛点不在于模型算力不够,而在于缺少“自我确认与纠错”的机制

实验基准的深层启示:量化提升背后的系统论

在ICML 2026入选工作中,RSAgent在ReasonSeg和RefCOCOg等基准测试中展现了卓越表现。数据统计显示,相比传统静态模型,其IoU指标提升了9.0个百分点1

值得关注的不仅是数据本身,而是消融实验揭示的底层逻辑:

  • 结构化协作:模型通过Cold-start SFT(有监督微调)掌握工具语法,通过Agentic RL优化决策路径。
  • 过程奖励(Process Reward):系统引入对中间步骤的反馈机制,而非仅仅关注最终结果,这促使模型学会了“何时应该缩放视图”、“何时需要请求二次确认”。

这种从单一模型向“模型+工具链”协作的转变,本质上是AI从处理静态数据向处理动态复杂环境的进化。

产业影响:AI迈向物理世界的“感知闭环”

RSAgent所代表的架构,对未来产业生态具有深远意义:

  1. 机器人感知能力升级:具身智能(Embodied AI)的核心难点在于对目标物体精准的像素级定位。RSAgent的多轮纠错机制,为机器人提供了一种类似人类视觉“反复确认目标”的预处理流程,显著提升了在非结构化场景中的操作成功率。
  2. 自动化标注的范式重构:在医疗影像分割或工业质检领域,人类专家往往通过多轮观察来辅助诊断。RSAgent实现了这一逻辑的自动化,能够极大降低人工复核成本。
  3. 内容生成的可控性:在设计编辑领域,能够进行像素级“边看边改”的智能体,将自然语言意图精准落实为局部图像修改,这是通往更高级别视觉协作工具的关键一步。

未来展望:迈向真正的视觉代理人

从哲学层面思考,RSAgent不仅是算法的优化,它暗示了视觉智能的一个根本转型:将AI从一个“阅读者”变成了一个“操作者”

在未来3-5年,我们预见视觉智能体将不再满足于“理解图片”,而是在复杂的视觉空间中通过自主导航与操作获取信息。这一趋势将深度改变医疗、自动驾驶、机器人和创意生产的业务逻辑。然而,随之而来的挑战在于推理成本(Latency/Token Cost)与精确度之间的平衡,以及在极端开放场景下的泛化能力。

正如该研究所展示的,我们正在进入一个“动态交互”的AI新时代——模型不再是最终答案的给出者,而是通过试错与自我校准,不断靠近真相的探索者。

引用


  1. 让大模型“边看边改”,视觉分割准确率直接上涨9% · 搜狐(36氪发布) · 张钰杰(2026/5/27) · 检索日期2026/5/27 ↩︎ ↩︎