快手Keye-VL:国产多模态巨舰启航,通向具身智能与商业新纪元

温故智新AIGC实验室

TL;DR:

快手开源的Keye-VL-671B-A37B旗舰多模态大模型,以其6710亿参数、基于DeepSeek-V3-Terminus的先进架构及对视觉感知与复杂推理的显著提升,标志着国产多模态AI技术进入新阶段。其高效的训练策略和对未来Agent能力的融合,预示着AI将从“看懂世界”迈向“深度思考并行动”,为产业带来颠覆性变革,并加速具身智能时代的到来。

快手新一代旗舰多模态大模型Keye-VL-671B-A37B的开源,不仅是其在AI领域的一次高调亮相,更在全球多模态AI竞争格局中投下了一枚重磅炸弹。这款拥有6710亿参数的模型,在视觉感知、跨模态对齐及复杂推理链路上的显著升级,使其在多项基准测试中超越了同类头部模型,成功问鼎“国产最强多模态”的宝座。然而,其深层意义远不止于性能的提升,它揭示了当前多模态大模型的演进趋势,并为未来的商业应用和社会图景勾勒出更加清晰的轮廓。

技术原理与创新点解析

Keye-VL-671B-A37B的核心在于其精妙的架构融合与高效的训练范式。模型以DeepSeek-V3-Terminus为大语言模型基座,辅以来自Keye-VL-1.5的Keye-ViT视觉模型,通过MLP层实现跨模态桥接,这种强强联合确保了其文本与视觉能力的协同发展。其参数量高达6710亿,已跻身全球顶级模型之列,为其卓越的复杂推理能力奠定了基础1

值得注意的是,快手在训练策略上展现了高度的效率与创新。相较于业界动辄万亿(T)级的数据量,Keye-VL-671B-A37B仅使用了约300B高质量数据完成预训练。这凸显了“数据质量优于数量”的范式转变,即通过严格过滤、重采样及VQA数据增强等自动化管线,构建覆盖OCR、图表、表格等复杂视觉格式的高质量数据集,以有限计算资源高效构建模型核心感知基础1。预训练分三阶段:初期冻结模型以对齐视觉与语言特征;中期打开全部参数进行全面预训练;后期则在更高质量数据上进行退火训练,并引入DeepSeek-V3-Terminus生成的思维链(CoT)数据,旨在强化细粒度感知能力同时保持强大的推理优势。

后训练阶段是其实现“善看会想”的关键。Keye-VL-671B-A37B采用了监督微调(SFT)、冷启动和强化学习(RL)三步策略,特别注重对长思维链(Long-CoT)数据的混合使用。实验证明,在SFT阶段加入更多Long-CoT数据能显著提升模型整体性能和训练稳定性。为了解决纯文本模型推理冗余问题,团队开发了严格的数据筛选流程,过滤掉存在冗余反思行为的思维链,从而进一步提升推理与感知效能。

在强化学习环节,快手摒弃了传统token-level的GRPO算法,转而采用GSPO(Group Sequence Policy Optimization)这一sequence-level建模算法,提升了可验证奖励强化学习(RLVR)的稳定性,该算法在阿里Qwen3系列模型中亦有应用1。为确保奖励信号质量,快手专门训练了一个Verifier(验证器)模型,以Keye-VL-1.5 8B为基座,用于验证模型输出思考过程的逻辑性及答案准确性。Keye-Verifier在与Qwen-2.5-VL 72B Instruct模型的对比中展现了更高的检测精度,确保了强化学习的有效性和模型的可靠性。

在性能表现上,Keye-VL-671B-A37B在通用视觉理解和视频理解两大核心领域,全面超越了字节跳动的Seed1.5-VL think、阿里巴巴的Qwen3-VL 235B-A22B等前沿VL模型1。在涵盖STEM、推理、通用问答、视频理解、OCR和纯文本等26项主流基准测试中,斩获18项最高得分,尤其在需要高阶逻辑推理与数学解题的挑战性任务中表现卓越,甚至在高考数学卷上取得了140分的高分2。这些数据量化地验证了其作为国产旗舰多模态模型的领先地位。

产业生态影响评估

Keye-VL-671B-A37B的开源,不仅是快手技术实力的秀肌肉,更是对整个AI产业生态的一次积极赋能。从商业敏锐度的角度看,这一举动具有多重战略意义:

首先,开源策略是加速技术普及与构建生态的关键。将旗舰模型公之于众,能够吸引全球开发者、研究机构基于Keye-VL进行二次开发和创新,形成良性循环的生态系统。这不仅能迅速扩大模型的影响力,也为快手积累了宝贵的社区资源和用户反馈,加速了技术的迭代与优化。对于国内AI产业而言,开源也降低了中小企业和初创公司进入多模态领域的门槛,推动了中国AI技术的整体进步。

其次,视频理解能力是快手在激烈市场竞争中的核心优势。作为短视频巨头,快手在视频数据和相关技术积累上拥有得天独厚的优势。Keye-VL在视频理解和推理方面的强大表现,将直接赋能其核心业务,如更智能的内容推荐、精准广告投放、高效内容审核以及创新的视频创作工具。例如,模型能够深度理解视频内容,识别品牌、场景和用户意图,从而为用户提供更个性化、沉浸式的体验,为商家创造更高的商业价值3。这种基于自身业务优势的技术溢出,是快手在AI时代构筑竞争壁垒的重要路径。

再者,高效训练与高质量数据策略预示着行业新趋势。Keye-VL通过300B高质量数据而非海量数据的训练模式,传递了一个重要信号:未来AI模型的竞争将不再单纯依赖“砸数据”,而是转向更精细化、更智能的数据构建与利用。这对于计算资源有限的开发者和企业而言,无疑提供了新的思路和机会,也可能促使整个行业更加重视数据治理和数据价值挖掘。

从更广阔的产业生态来看,Keye-VL的推出将推动多模态AI在更广泛领域的应用落地。其卓越的感知与推理能力,使其在电商(商品识别、评论分析)、教育(智能批改、知识图谱构建)、安防(行为识别、异常检测)、自动驾驶等领域都拥有巨大的商业潜力。它不仅能提升现有业务的效率和智能化水平,更可能催生全新的商业模式和服务形态。

未来发展路径预测

Keye-VL的发布,不仅是一项技术成就,更是一扇通往未来智能世界的窗口。快手对Keye-VL未来发展路径的规划,清晰地描绘了多模态AI从“看懂”到“会办事”、从“感知”到“具身智能”的演进方向。

首先,融合多模态Agent能力是其演进的核心方向。快手明确表示,Keye-VL系列模型将进一步融合多模态Agent能力,走向“会用工具、能解复杂问题”的形态。这意味着模型不再仅仅是信息的接收器和分析器,而是能够自主规划、调用外部工具(如搜索引擎、数据库、应用程序),并执行多轮任务的“智能体”1。这种Agent能力的增强,是当前AI领域最激动人心的前沿之一,它将极大地拓展AI的应用边界,使其能够应对更加复杂、动态的真实世界任务。未来3-5年内,我们有望看到Keye-VL类Agent在虚拟助手、智能客服、内容生成与编辑、自动化办公等场景中发挥越来越关键的作用,从根本上改变人与软件、人与物理世界的交互模式。

其次,“think with image”和“think with video”将成为AI深度理解的标志。模型不仅能看懂图像与视频,还能围绕它们进行深度思考与链式推理,在复杂的视觉信号中发掘关键信息。这意味着AI将不再停留在表面识别,而是能够理解视觉内容的深层语义、逻辑关系和隐含意图。例如,在医疗影像分析中,它能更准确地识别病灶并理解其发展趋势;在工业质检中,能从视频流中推理出潜在的故障原因。这种视觉认知能力的“哲学升华”,将赋能AI在需要高阶认知和决策的专业领域发挥更大价值,加速AI辅助科学发现与创新。

第三,人机交互范式将被重塑。当AI能够像人类一样通过多种模态理解世界,并具备自主行动能力时,人类与AI的交互将变得更加自然、直观和高效。通过语音、手势、眼神甚至意念,AI就能理解复杂指令并执行任务,模糊了物理世界与数字世界的界限。这种无缝交互将深刻影响教育、娱乐、工作和生活,让技术变得“隐形”且无处不在。

然而,伴随能力的提升,潜在的伦理挑战与治理需求也日益凸显。当AI Agent能够自主决策和行动时,如何确保其行为符合人类价值观、如何界定责任、如何避免偏见和滥用将成为亟待解决的问题。快手作为头部科技公司,在推动技术发展的同时,也需积极参与AI伦理框架的构建和最佳实践的探索,确保技术发展沿着负责任的轨道前进。

总之,快手Keye-VL-671B-A37B的开源,不仅巩固了国产大模型在多模态领域的竞争力,更指明了AI从感知智能迈向通用智能、从辅助工具演变为自主Agent的清晰路径。它为我们描绘了一个充满无限可能的未来图景:一个AI能更深刻理解并积极参与构建的世界,一个由技术革新驱动,不断向前演进的商业与社会新纪元。

引用


  1. 国产最强多模态宝座又易主?671B参数练就“火眼金睛”,基于DeepSeek打造·智东西·陈骏达(2025/11/28)·检索日期2025/11/28 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 快手开源多模态大模型Kwai Keye-VL - 开源× AI · 开发者生态社区·OSCHINA·无作者(2025/06/26)·检索日期2025/11/28 ↩︎

  3. Kwai Keye-VL 登场:快手开源多模态大模型,引领视频理解新纪元·知乎·北方的郎AI秒懂短视频(2025/06/26)·检索日期2025/11/28 ↩︎