TL;DR:
商汤最新发布的日日新V6.5模型,通过率先突破“图文交错思维链”技术,迈向更接近人类认知模式的原生多模态智能,不仅预示着通用人工智能(AGI)在形象与逻辑思维融合上的关键跃迁,更在商业应用层面展现出显著的效率与效费比优势,重塑产业格局。
在2025世界人工智能大会(WAIC)上,商汤科技发布了其日日新V6.5多模态模型,宣称率先突破“图文交错思维链”技术,成为国内首个拥有形象思维并实现图文交错思维的商业级大模型。这一进展不仅是技术栈上的一个重要里程碑,更是对通用人工智能(AGI)发展路径的深刻思考与实践。商汤科技联合创始人、执行董事、首席科学家林达华在深度长文中阐释了公司在多模态智能领域的底层逻辑、技术路径及商业化考量,为我们描绘了一幅通向AGI的独特路线图。1
技术原理与创新点解析
商汤的此次突破,核心在于其对“智能”本质的深刻理解和对数据驱动的坚定信念。林达华指出,智能的本源在于与外界进行自主交互的能力,而语言仅仅是描述世界的工具,并非世界本身。因此,单靠语言模型无法构建真正意义的AGI,多模态信息感知与处理能力才是从语言模型迈向AGI的必由之路。2
-
原生多模态融合训练: 与业界普遍采用的“适应训练”(Adapter-based Training)不同,商汤选择了资源消耗更高但能力更强的“原生训练”(Native Training)路径。这意味着,日日新V6.5模型从预训练阶段就开始融合文本、图像等多种模态数据,形成一个统一的、不再生产单独语言模型的原生多模态模型。这种“从出生就具备多模态能力”的设计,使其能更深入掌握不同模态间的内在关联,避免了“后补”式模型在处理复杂信息时的僵硬和局限。此举让日日新6.5在OpenCompass和SuperCLUE等权威评测平台上位居国内模型之首,甚至在语言任务上与DeepSeek V3并列,证明了原生融合的优越性。3
-
“图文交错思维链”的突破: 当前主流多模态模型的推理思维链仍以纯文本为主,即将图像转化为文本描述后进行语言推理。然而,人类的思考过程是逻辑思维与形象思维的真正跨模态结合。商汤通过**“两步走”路径**实现了图文交错思维链:
- 第一步:基于工具调用进行图像编辑。这种方法本质上是构建一个“对内”(introspective)的智能体,通过外部工具高效、精准地实现构图目标,以此构建图文交错的思维链。
- 第二步:基于多模态理解生成统一的机制实现内生的图文混合思考。这使得模型能像人一样,在思考过程中灵活地在图像与文本之间切换,进行更深层次的推理和概念重组,极大拓宽了思路。这一突破为模型带来了“真正的多模态思考能力”,显著提升了综合推理性能。1
-
模型架构的效率优化: 商汤在模型架构设计中重新思考了视觉编码器(“眼睛”)和多模态大语言模型主干(MLLM主干,“大脑”)的功能定位。他们认为“眼睛”应聚焦于捕捉连续的视觉信号,而“大脑”则应专注于离散的语言和语义计算。这种差异化设计使得视觉感知与语言模型能采用不同的结构和学习方式,并在涉及到语义处理时及早融合。经过架构更新,日日新6.5能更快捷地处理高分辨率大图及长视频,在相同性能下,效率提升超过3倍,实现比Gemini 2.5系列更优的效费比。这不仅是技术上的精进,更是商业化落地效率的关键。
产业生态影响与商业化前景
商汤的战略布局清晰地诠释了其“三位一体”的理念——“基础设施 - 模型 - 应用”。他们没有将技术与商业视为资源争夺的两侧,而是互为因果、相互促进的两个环节。4
-
差异化竞争优势: 在多模态大模型赛道,商汤选择了门槛更高、投入更大的原生训练路径,并率先实现了图文交错思维链。这使得日日新V6.5与国内其他厂商普遍采用的语言模型(LLM)与视觉语言模型(VLM)分立的布局形成鲜明对比,构建了独特的竞争壁垒。这种先发优势和技术深度,有助于其在激烈的市场竞争中脱颖而出。
-
商业化加速落地: 林达华强调,技术理想需要商业价值的护航。商汤的创新成果正在加速商业化进程,尤其是在“生产力AI”和“交互AI”两大应用方向:
- 生产力AI:性能持续领先,装机量正从百万级迈向千万级,意味着其技术正在企业级应用中得到广泛验证和规模化推广,尤其在需要图文理解与推理的垂直领域,如智能办公、内容创作、工业质检等,将释放巨大潜力。
- 交互AI:广泛落地于新型智能硬件和机器人,重塑用户与世界的交互形态。这预示着AI将从屏幕内走向物理世界,为具身智能(Embodied AI)的规模化应用奠定基础。
-
世界模型与具身智能的协同: 商汤正积极探索“开悟世界模型”,目标是打通数字空间与物理空间连接的通道,解决AI从数字世界走向物理世界时面临的交互学习效率问题。通过将多模态模型作为基础,结合智能汽车业务获得的大量真实场景数据进行加强,世界模型能够高效模拟现实世界并生成不同视角的视频,为智能驾驶等具身智能系统提供高效率的交互反馈训练。这不仅指向了更高阶的AI应用,也构筑了未来在自动驾驶、机器人等高价值领域的核心竞争力。
未来发展路径与深层启示
商汤的“两步走”策略和对原生多模态的坚持,不仅仅是技术路线的选择,更是对AGI本质和未来形态的深思熟虑。
-
通往AGI的“四次破壁”: 林达华提出了智能演进的“四次破壁”理论:Transformer实现长序列建模;语言与视觉会合实现多模态理解;逻辑思维与形象思维结合实现真正的多模态推理;最终,智能体突破数字与物理空间边界,实现与真实世界的交互。2 商汤目前已迈出了前三步的关键,并开始探索第四步——具身智能和世界模型。这表明,AGI的实现并非一蹴而就,而是一系列渐进且具有里程碑意义的突破。
-
数据驱动与组织协同: AI的每一次跃迁都源于数据边界的打破。商汤强调数据驱动,并构建了面向不同类型专业高阶数据的规模化合成管线,通过多智能体协作合成和验证思维链,解决了多样性不足的问题。同时,面对AI 2.0时代大模型训练对数据和算力的高度依赖及外部竞争加剧的挑战,商汤重构研究组织,强调“方向和效率”,以更高的组织度和技术探索空间来保持创新活力,这为其他AI企业提供了有益的组织管理范式。
-
哲学与商业的交汇: 商汤的路径选择,是对技术理想与商业现实如何正向循环的探索。原生多模态、图文交错思维链以及具身智能的探索,都指向了AI更深层的能力——模仿甚至超越人类的认知模式。这种能力一旦成熟,将深刻影响教育、医疗、制造、服务等诸多行业,催生前所未有的商业模式和生产力革命。然而,这也引出了关于AI伦理、就业结构和社会公平等深层哲学和社会议题,需要持续的审视和讨论。商汤的实践提醒我们,AGI的未来,不仅是技术竞赛,更是对人类文明未来的深刻考量。