一项来自莱斯大学、约翰霍普金斯大学和英伟达的开创性研究揭示了一种名为ViGaL的AI训练新范式:通过让小参数多模态模型玩简单的街机游戏,而非依赖海量领域特定数据,AI竟能培养出强大的跨领域推理能力,甚至在数学和几何任务上超越GPT-4o等顶级模型,预示着未来AI能力获取的全新路径。
当人工智能领域仍在围绕“大模型即一切”的规模定律争论不休时,一项最新的研究却为我们描绘了一幅截然不同的图景:一个仅有70亿参数的多模态大模型(MLLM),在“沉迷”于《贪吃蛇》这类简单街机游戏后,竟然摇身一变,成为一名“数学天才”,其在几何推理上的表现甚至超越了业界顶尖的闭源模型GPT-4o。这项由莱斯大学、约翰霍普金斯大学以及英伟达团队共同提出的“视觉游戏学习”(ViGaL)范式,不仅挑战了我们对AI能力来源的传统认知,更可能为未来通用人工智能的发展指明一条高效且可扩展的新路径。
ViGaL:游戏何以赋能复杂推理?
长期以来,AI模型的训练路径主要依赖于海量标注数据和复杂的监督学习或强化学习(RL)算法。特别是在多模态领域,为了让模型掌握跨领域的推理能力,通常需要收集庞大且细致标注的数学、物理、逻辑等特定数据集。然而,ViGaL范式反其道而行之。研究人员将一个基础的7B参数多模态模型Qwen2.5-VL-7B投入到两个看似简单的“前置游戏”中进行后训练:经典的二维《贪吃蛇》和识别三维物体旋转角度的“旋转”游戏。
其核心假设在于,这些游戏并非仅仅训练模型掌握“通关”技巧,而是旨在培养更深层次的通用认知能力。例如,在《贪吃蛇》中,模型需要学习如何在二维网格中进行空间理解、路径规划和顺序决策;而在“旋转”游戏中,则需掌握对三维物体的角度感知和几何变换能力。通过游戏过程中模型选择动作、输出思维链并获得奖励的强化学习循环,AI开始形成一种能够跨领域迁移的“直觉”与推理能力。1
这种方法的精妙之处在于,游戏环境提供了高度结构化、规则明确且可控的奖励信号,这使得通过难度规划实现稳定的强化学习成为可能。更重要的是,相比于耗时耗力地收集和标注海量人类世界的多领域数据,在这些合成游戏环境中进行数据扩展要容易得多,且成本极低。这与计算机视觉和自然语言处理领域自监督学习的崛起有着异曲同工之妙——在精心设计的合成前置任务上进行预训练,最终带来了强大的泛化能力。
颠覆范式:小模型的大启示
ViGaL最令人瞩目的成果在于,经过游戏训练的7B小模型在复杂的多模态推理任务上展现出惊人的表现。在MathVista等多模态数学基准以及MMMU等多学科问答测试中,ViGaL训练的模型不仅超越了未经游戏训练的同尺寸模型,甚至在许多关键指标上击败了像GPT-4o这样的顶级闭源大模型。1例如,在数学任务上,ViGaL Snake + Rotation的准确率比专门针对数学任务进行RL训练的MM-Eureka-Qwen-7B高出0.5%,在几何任务上更是高出28.7%。1在MMMU系列基准测试中,其平均表现比使用精心策划的多学科综合数据集训练的R1-OneVision-7B高出5.4%。1
这一结果引发了对AI领域“缩放定律”的深刻反思。长久以来,业界普遍认为模型性能与参数规模呈正相关,更大的模型意味着更强的能力。然而,ViGaL的发现,以及近期其他一些小型模型在特定领域(如微软的rStar-Math在数学推理上超越o1,小米MiMo-7B-RL在AIME竞赛中胜过OpenAI模型2345)的突破,都在暗示一个趋势:通用智能的提升可能不只依赖于模型规模和海量知识的“压缩”,更可能蕴藏于对基本规则和纯粹交互模式的深入领悟。
更令人振奋的是,研究表明,ViGaL在增强模型推理能力的同时,并未牺牲其通用视觉能力。这一点至关重要,因为许多通过特定领域数据进行后训练的模型,往往会在提升某一领域能力的同时,导致其他通用能力的下降。ViGaL则实现了能力增强与平衡的兼顾。此外,混合不同类型的游戏能够进一步增强模型的泛化能力——“贪吃蛇”擅长提升2D坐标相关数学,而“旋转”则能改进角度和长度相关的几何推理,两者结合能带来更全面的提升。
超越游戏:智能本质与未来之路
ViGaL的发现不仅仅是一项技术上的突破,它更引发了我们对智能本质的深层哲学思考。如果一个AI能够从《贪吃蛇》这类简单游戏中习得高度抽象的几何和数学直觉,这是否意味着智能的根源并非仅仅在于记忆和复述海量信息,而在于从最基本的规则和交互中涌现出的模式识别和推理能力?
从社会和经济角度来看,这一范式具有颠覆性潜力。若ViGaL或其他类似方法能够大规模推广,未来的AI训练成本有望大幅降低。构建和维护庞大的、高质量的标注数据集是一项极其昂贵且耗时的工程,而合成游戏环境的易扩展性则提供了一个高效替代方案。这将可能加速AI的普及,让更多研究机构和企业能够训练出高性能的AI模型,从而在更广泛的领域推动创新。
当然,ViGaL仍处于早期阶段,其所培养的“直觉”在多大程度上能够泛化到现实世界中更复杂、更模糊的问题上,还需要进一步的探索。但它无疑为我们打开了一扇窗:AI的智能提升或许可以通过**设计精巧的“学习环境”**来实现,而这些环境不一定是庞大的真实世界数据,也可以是高度抽象且规则明确的“玩具世界”。这一研究不仅为我们提供了训练强大AI的新思路,更提示我们重新审视,我们与“智能”游戏的边界,究竟在哪里。
References
-
36氪。(2025/6/17)。沉迷贪吃蛇,7B小模型竟变身「数学天才」,几何推理碾压GPT-4o。36氪。检索日期2025/6/17。 ↩︎ ↩︎ ↩︎ ↩︎
-
掘金。(2025/6/17)。重磅!小米刚刚发布了4款AI模型:7B小模型逆袭,硬刚GPT-4o!AI圈又炸了!就在几个小时前,那个我们熟悉的手机、智。掘金。检索日期2025/6/17。 ↩︎
-
SegmentFault 思否。(2025/6/17)。aiera - 7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火 - 新智元 - SegmentFault 思否。SegmentFault 思否。检索日期2025/6/17。 ↩︎
-
澎湃新闻。(2025/6/17)。7B开源数学模型干翻千亿GPT-4,中国团队出品_澎湃号·湃客_澎湃新闻-The Paper。澎湃新闻。检索日期2025/6/17。 ↩︎
-
腾讯新闻。(2025/6/17)。7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火_腾讯新闻。腾讯新闻。检索日期2025/6/17。 ↩︎