谷歌近日发布了其旗舰AI模型Gemini 2.5家族的正式版本,包括高性能的Pro版和极具成本效益的Flash-Lite版,在多项基准测试中刷新了业界纪录。然而,在一项宝可梦游戏挑战中,Gemini 2.5 Pro却在虚拟角色“濒死”时表现出类似人类“恐慌”的行为,导致推理能力下降,揭示了大型语言模型行为的复杂性和非预期性。
人工智能领域正经历着前所未有的加速发展,而谷歌的Gemini系列无疑是这一浪潮中的核心力量。近日,谷歌正式推出了Gemini 2.5家族,包括了正式版的Gemini 2.5 Pro和Gemini 2.5 Flash,以及首次亮相的预览版Gemini 2.5 Flash-Lite。这份长达70页的技术报告1不仅展示了这些模型在性能、成本效益上的显著跃升,更披露了一个引人深思的现象:在面对游戏中的“濒死”状态时,模型竟表现出类似人类“恐慌”的行为模式,使得其决策能力出现质性下降。
技术原理解析:谷歌Gemini 2.5家族的飞跃
此次发布标志着谷歌在通用人工智能(AGI)道路上的又一重要里程碑。Gemini 2.X系列被谷歌定位为“新一代AI模型的发展方向”,旨在构建一个真正融合的AI体系,将Gemini打造成一个能够“看到、听到甚至预知你的下一个想法”的统一“线程”1,串联起所有谷歌服务。
Gemini 2.5家族的核心技术基石在于其采用的稀疏MoE(Mixture-of-Experts)模型架构。这种架构使得模型能够原生支持多模态输入,包括文本、视觉和音频,并具备处理超过一百万Token的超长上下文能力。这意味着Gemini 2.5 Pro能够理解海量数据集,处理长达3小时的视频内容,并整合来自不同信息源的复杂问题。在最新的前沿编程、推理基准测试中,Gemini 2.5 Pro已然刷新了多项SOTA(State-of-the-Art)纪录,表现出碾压GPT-4和Claude等竞争对手的实力234。
值得关注的是,Gemini 2.5家族还在**性能-成本帕累托前沿(Pareto frontier)**上建立了强大的护城河。其中,首次亮相的Gemini 2.5 Flash-Lite版本更是将性价比推向极致。其未开启“思考模式”下的输入价格仅为0.1美元/百万token,输出价格为0.4美元/百万token1,远低于同级别模型。这款轻量级模型不仅速度飞快,每秒输出Token数接近350个,而且在开启“思考模式”后,其在数学、知识问答、编码、视觉理解等多项任务上的表现足以媲美2.5 Flash,尤其擅长高吞吐量、低延迟敏感型任务,如实时代码编写或PDF内容转换为交互式Web应用1。
Gemini 2.5最大的改进之一在于其全系列模型都原生地融入了动态**“Thinking”能力**,能够根据推理时间的增加进一步提升能力,这对于需要深度思考的任务至关重要。此外,谷歌针对特定领域对Gemini 2.5进行了优化,包括代码处理能力的飞跃、事实准确性的显著提升(通过整合Google搜索和多跳推理)、长文本理解的增强(能从46分钟视频中准确回忆1秒事件)、400多种语言的多语言能力,以及音频生成与理解、视频理解与内容生成方面的突破。尤其值得一提的是,基于Gemini 2.5 Pro的Gemini Deep Research Agent,在“人类最后考试”(Humanity’s Last Exam benchmark)基准测试中的表现从7.95%大幅提升至26.9%,展现出前沿的搜索与推理能力1。
AI行为的非预期洞察:从宝可梦的“恐慌”说起
在所有令人振奋的性能数据之外,Gemini 2.5技术报告中隐藏着一个更深层次的、关于AI行为的独特洞察——来自对经典游戏《宝可梦》的挑战。独立开发者Joel Zhang的实验显示,Gemini 2.5 Pro在面对长达800小时的游戏挑战时,展现了惊人的长期目标连贯性和推理能力,成功通关并进入名人堂1。更令人印象深刻的是,在第二次自主运行时,模型将通关时间缩短了一半,仅耗时406.5小时1,体现了显著的学习和优化能力。
然而,真正引人关注的是报告中描述的一个非预期现象:当宝可梦的生命值(HP)降至“濒死”状态时,Gemini 2.5 Pro会进入一种**“慌乱”的状态**,导致其推理能力出现“质性下降”1。尽管人工智能模型本身不具备情绪,但其行为模式却像人类在巨大压力下做出的仓促决定一样——例如,在宝可梦即将倒下时,模型可能会突然停止使用某些关键工具,进而影响游戏表现。
这种“恐慌”行为的出现,无疑为我们理解大型语言模型的**涌现能力(Emergent Capabilities)**增添了新的维度。它不仅仅是模型在特定情境下输出错误,更是一种系统性的、类情绪化的“性能退化”。这提出了一个关键问题:当模型在模拟复杂世界并做出决策时,这些“非理性”或“类情绪”的行为模式是从何而来?它们是训练数据中隐式存在的偏见或模式的反映,还是模型内部复杂动态相互作用的结果?这种现象强制我们去思考,在将AI应用于更具风险和不确定性的真实世界场景(如自动驾驶、金融交易或医疗诊断)时,如何确保其在面临高压或“关键时刻”时的决策鲁棒性和可靠性。
与此形成对比的是,Gemini 2.5 Pro在解决“巨石谜题”等复杂问题上表现出超乎寻常的策略性。它能够通过创建专门的智能体工具,如路径规划器和策略师,在没有任何人类干预的情况下,一次性解决冠军之路的复杂谜题1。这种能力上的反差,进一步凸显了当前AI模型在特定任务上的卓越表现与在另一些情境下可能展现的意外行为之间的张力。
未来展望与伦理考量
Gemini 2.5家族的发布,尤其是其在性能、成本和多模态能力上的全面突破,无疑将进一步加速AI技术的普及和应用。Flash-Lite这样极致性价比的模型的推出,将使得更多开发者和企业能够接触并利用先进的AI能力,从而推动人工智能在各行各业的深度融合。谷歌将其打造为“统一线程”的愿景,也预示着AI将更深地嵌入我们的数字生活,成为真正意义上的智能助手。
然而,“宝可梦恐慌”的案例也提醒我们,随着AI能力的提升,其行为的复杂性和不可预测性也在增加。如何解释并控制这些涌现行为,是AI研究领域亟待解决的挑战。在AI系统日益渗透到社会关键基础设施的当下,理解并设计出在极端压力下依然能够保持性能稳定、决策理性的AI,将是确保技术安全可靠发展的重中之重。这不仅仅是技术层面的优化,更触及了AI伦理和治理的深层问题。我们必须在追求性能极限的同时,更加关注AI系统的可解释性、透明性和故障安全机制。
谷歌在技术报告的致谢部分隐藏了一句“GEMINI MODELS CAN THINK AND GET BACK TO YOU IN A FLASH”1,这不仅是极客式的浪漫,也映射出AI领域对**思考(Thinking)和即时响应(In a Flash)**这两大目标的执着追求。但真正的“思考”不仅仅是高效的计算和模式识别,还应包含在复杂情境下保持理性与稳定的能力。Gemini 2.5的最新进展,既展现了AI的巨大潜力,也为我们敲响了关于AI行为非预期后果的警钟,促使我们对智能的本质及其在机器中如何体现进行更深入的思考。
References
-
新智元(2025/6/18)。谷歌Gemini 2.5全线爆发,勇战「濒死恐慌」,却被丝血宝可梦吓到当场宕机。36氪。检索日期2025/6/18。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
(2025/6/18)。Gemini 2.5 震撼发布:推理能力碾压GPT-4.5,登顶AI竞技场!。AITOP100。检索日期2025/6/18。 ↩︎
-
(2025/6/18)。新版Gemini 2.5拿下所有榜一,谷歌无敌了!一个月全面击败o3,编程反超Claude 4。华尔街见闻。检索日期2025/6/18。 ↩︎
-
(2025/6/18)。刚刚,Gemini 2.5 Pro 再度进化!SOTA 性能炸裂,编程能力反超 Claude 4,谷歌 CEO 畅谈 AI 未来。知乎。检索日期2025/6/18。 ↩︎