AI“凡尔赛”时刻:谷歌Gemini 3.0偷跑,GPT-5竟“看表发癫”?

温故智新AIGC实验室

TL;DR:

谷歌Gemini 3.0的神秘“马甲”被LMArena扒了个精光!不仅成为AI界第一个能精准读懂复杂钟表的“时间管理大师”,还在SVG绘画和作曲上秀了一把。这波操作让隔壁GPT-5在“看表”环节直接“发癫”,AI巨头们的“内卷”大戏,越来越好看了!

当整个AI圈都在屏息等待OpenAI的“大招”时,谷歌这边却悄悄地玩了一手“突袭”。最近,他们的下一代旗舰模型Gemini 3.0,竟然以“马甲”身份,在LMArena竞技场上**“偷偷”上线**,结果一不小心就**“炸”出了一个王炸**——它居然是唯一能看懂钟表的AI!这下好了,一直被视为行业标杆的GPT-5,在“看表”这项看似简单却暗藏玄机的任务上,直接“发癫”了。网友们纷纷表示:这波操作,谷歌是打算逆风翻盘吗?

这已经是AI大模型界心照不宣的**“传统艺能”**了:新模型要登场,先上LMArena这种公开竞技场“遛一遛”,看看群众反响,顺便给发布会攒点流量。这次被扒出来的Gemini 3.0马甲,赫然是“lithiumflow”(Gemini 3.0 Pro)和“orionmist”(Gemini 3.0 Flash)1。别看这名字有点神秘,但背后的实力,可真不是盖的。

告别“文盲”AI:Gemini 3.0竟是“时间管理大师”?

要说这次Gemini 3.0最亮眼的表现,那必须是它**“看懂钟表”的神奇能力。你可能觉得这有啥难的?但对于AI来说,解读一张钟表图片,可是个“史诗级难题”。你想想,钟表样式千变万化,指针长短、指向、分钟间隔,甚至背景干扰,都可能让AI“大脑宕机”。这不,就连GPT-5 Thinking这种顶级选手,也经常在时针分针之间“左右横跳”,给出一些“奇葩”答案**,比如把6点30分20秒看成12点30分2。简直就是**“AI界的近视眼”**,让人哭笑不得。

但Gemini 3.0 Pro(lithiumflow)呢?它就像一个自带“火眼金睛”的时间管理大师,不仅能精确识别出小时(6),还能精准到分钟(02)和秒(30)1。这准确率,直接把一众“看表发癫”的模型甩了好几条街。这背后的技术突破,可能意味着AI在复杂图像识别和细粒度语义理解方面,又迈上了一个新台阶。

“AI第一次看懂钟表,这是真的有点东西!”——网友点评,估计是看到了未来AI不再“时间盲”的希望。

“骑鹈鹕”艺术大师,还是“作曲小王子”?

除了“看表”神技,Gemini 3.0还在SVG(可缩放矢量图形)测试上展现了不俗实力。SVG测试算是新模型亮相的**“保留节目”,而“骑自行车的鹈鹕”这个互联网meme(梗)更是常客。早前的模型,画出来的鹈鹕和自行车经常是“抽象派”到让人怀疑AI是不是喝高了。但Gemini 3.0 Pro画出来的自行车,不仅细节到位,甚至还带上了一点“抽象派的风格”**,画面表现力提升了好几个档次1

不过也有“吃瓜群众”调侃,这个“骑鹈鹕”梗现在已经成了AI模型的**“应试教育”,大家都在悄悄针对这个提示词“微调”模型。导致现在很多模型画出来的鹈鹕都“完美”得有点假,反而Gemini 3.0这种带点“个性化”的抽象风**,显得更真实,更像未经太多“应试训练”的原始表现。

更让人惊喜的是,Gemini 3.0 Pro还被发现是个**“作曲小王子”!它能模仿多种音乐风格,不仅能长时间保持节奏,还能带来活力和变奏。这意味着AI在创意内容生成方面,又解锁了一个“高级技能”**。想象一下,未来你可以直接对AI说:“给我来一首融合了巴洛克和赛博朋克风格的摇滚乐!”AI就能给你安排得明明白白,这体验,简直不要太酷!

AI圈“内卷”:是骡子是马,还得拉出来遛遛!

这波Gemini 3.0的“马甲”上线,被不少人看作是谷歌在AI赛道上的一次**“硬气反击”。毕竟,在OpenAI接连甩出GPT-5和新版Sora 2这两张“王牌”后,谷歌之前只跟了一张“Veo 3.1”,多少有点让人觉得“不够尽兴”。现在Gemini 3.0在LMArena上的表现,无疑是在告诉大家:“我谷歌,可不是吃素的!”** 尤其是此前还有内测开发者爆料,Gemini 3.0能用一个HTML符合整个MacOS、Windows系统的UI交互,甚至一分钟内用SVG做出风格动画,这种**“未来科技感”**简直是直接拉满1

当然,竞技场实测的魅力就在于它的**“不可预测性”**。虽然很多用户碰到了“神级表现”,但也有人遇到了“翻车现场”,效果并不理想1。这就像抽盲盒,你永远不知道下一个“马甲”会给你带来惊喜还是惊吓。

但话说回来,无论是谷歌的Gemini 3、OpenAI的GPT-5,还是Anthropic的Claude新版本,整个AI圈的“传统艺能”也越来越固定了——先**“传风声”、再“上LMArena”、然后“一堆人去撞马甲”“测SVG”“看谁更像真货”1。这种“排队测评”**的方式,看多了也确实有点“审美疲劳”。

大模型们越来越聪明,功能越来越强大,但我们的评测方式似乎还停留在老套路上。我们期待的,不只是模型本身的**“性能飞跃”,更是AI技术能真正“玩出点新花样”,带来更具颠覆性的应用和更具想象力的交互体验。也许,下一次的AI发布,能给我们带来更多“意料之外”**的惊喜,而不是只停留在这些熟悉的“测试套路”上。

引用


  1. 谷歌新版Gemini马甲被扒,LMArena实测:唯一能看懂表的AI,GPT-5乱答·新智元·定慧(2025/10/21)·检索日期2025/10/21 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. 谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5 ...·野湃AI(2025/10/20)·检索日期2025/10/21 ↩︎