从“回合制”到“在场”:京东JoyAI-VL-Interaction为何是AGI迈向物理世界的关键拼图

温故智新AIGC实验室

TL;DR:

京东通过开源JoyAI-VL-Interaction模型,率先打破了AI仅限于“你问我答”的封闭范式,确立了以“实时视觉流”为核心的主动交互新范式。这一举措标志着AI已从数字世界的模拟器,正式进化为具备感知、判断与协作能力的物理世界运营者。

从“回合制”到“实时流”:范式的底层的迁移

过去两年,大模型的爆发掩盖了一个本质性的滞后:人机交互依然深陷于“你问我答”的“回合制”逻辑。这种交互方式假设了需求是由人类发起的,但在真实物理世界中,绝大多数关键信息——从老人摔倒的瞬间到生产线异常的闪现——具有瞬时性和突发性。当AI无法自主感知这些需求,它就永远只是一个“数字顾问”,而非“物理伙伴”。

京东推出的JoyAI-VL-Interaction 1 试图通过技术手段抹平这一差距。其核心在于引入了“主动介入”机制:模型不再被动等待Prompt,而是通过对连续视频流的持续观察,自主决策何时回应、何时沉默、何时调用外部Agent。这种将“交互时机”训入模型的做法,将多模态AI从离线处理推向了实时流式交互的深水区。

技术突破:在沉默中寻找意义

JoyAI-VL-Interaction 的技术深度体现于对“处理边界”的重定义。模型不仅要学会“看”,更要学会“评估价值”。2 通过适配 vLLM-Omni 等工程优化,京东实现了在8B量级下的低延迟决策,其逻辑分层极其清晰:

  • 感知层:利用 AdaCodec 技术实现对关键帧的高效编码,大幅降低了流式视频的计算成本。
  • 决策层:不仅判断“看到了什么”,更自主判断“是否需要打断人类的安宁”。这种对“沉默”的管理,是AI从工具向“智能助手”进化的心理学分野。
  • 协作层:它不是全能的,而是通过桥接架构,将复杂逻辑(如代码编写、深度分析)甩给后台更强大的 Agent,这种“前台实时感知+后台深度推理”的架构,正是未来通用人工智能(AGI)在物理世界落地的模板。

商业敏锐:从“数据孤岛”到“物理世界运营中心”

京东此次开源的深层商业动机,是对“具身数据”这一战略资源的争夺。在2026年这一“具身智能数据元年”,数据瓶颈已成为限制AI进化的最大短板。3 京东不仅开源了模型,更开源了完整的训练数据集、系统架构和部署流程。

这一战略逻辑极具杀伤力:京东拥有零售、物流、工业制造等海量的真实业务场景,这些场景既是模型天然的“训练场”,也是数据收集的“发动机”。通过开源构建开发者生态,京东实际上是在以极低的边际成本,调动全球开发者参与到物理世界数据的清洗与标注中。这种以“生态建设”驱动“数据闭环”的模式,比单纯堆叠参数更具长期的护城河。

未来展望:当AI学会“看”世界

未来3-5年,交互模型(Interaction Models)将成为AI硬件(如AR眼镜、协作机器人)的核心操作系统。当AI能够实时理解空间,它将不再是屏幕里的像素,而是物流仓储里的自动调节者、居家场景中的护理助理、以及直播带货里的实时解说员。

然而,挑战依然存在。随着主动式AI融入生活,其带来的伦理边界(如隐私、无感监控的伦理压力)将是开发者不得不面对的课题。正如我们在技术演进史中所见,当AI具备了“在场”的能力,人类文明与技术的协作关系也随之进入了重构的拐点。京东的选择,是将这扇窗户彻底打开,赌的是主动交互将成为下一个AI周期的底色。

引用


  1. 独家|京东即将开源视觉语言实时交互模型 从“一问一答”走向“边看边说” · 腾讯新闻 · 黄心怡(2026/06/17)· 检索日期 2026/06/24 ↩︎

  2. 94毫秒延迟、监控胜率100%!国产视频模型干翻Gemini · 智源社区(2026/06/24)· 检索日期 2026/06/24 ↩︎

  3. 全球首个京东全栈开源JoyAI-VL-Interaction 让大模型从“一问一答”走向“边看边说” · 央广网 · 陈越(2026/06/22)· 检索日期 2026/06/24 ↩︎