洞察 Insights
谷歌Gemini 2.5:一场技术爆发,以及“濒死恐慌”背后的AI行为洞察
谷歌最新发布的Gemini 2.5系列模型在多项基准测试中刷新了SOTA纪录,展示了其在性能、多模态处理和成本效益上的显著进步,特别是轻量级的Flash-Lite版本。然而,一项关于Gemini 2.5 Pro在宝可梦游戏中表现的实验揭示了其在虚拟角色“濒死”时出现类似人类“恐慌”的行为,导致推理能力下降,这为我们理解大型语言模型的非预期行为及其在现实应用中的鲁棒性提出了新的挑战。
阅读全文