TL;DR:
谷歌 AI 界的“显眼包”又整活了!Nano Banana 2(Gemini 3.1 Flash Image)正式登场,不仅继承了前代“画得快、画得好”的优良传统,更是在人物一致性上玩出了花。简单来说,这就是个能听懂人话、修图不“变脸”、且每张图只要三毛钱的顶级画师。
还记得几个月前,在 AI 竞技场 LMArena 榜单上横扫各大老牌模型,却深藏功与名的神秘代号“Nano Banana”吗?当时连谷歌 CEO 劈柴哥(Sundar Pichai)都亲自下场连发三根香蕉“宣誓主权”1。
现在,这根香蕉的“Pro 增强版”——Nano Banana 2(正式身份是 Gemini 3.1 Flash Image) 终于揭开了面纱。它不只是速度快,更是带着一种“要把修图师的工作彻底卷掉”的狠劲儿来的。
技术大揭秘:这只“香蕉”为啥不失忆?
在 AI 生图界,有一个让无数设计师抓狂的痛点:一致性(Consistency)。你想让同一个模特换身衣服,模型往往能顺便帮她把脸也给整了;你想让家里的萨摩耶去故宫合个影,出来的可能是一只长得像萨摩耶的白熊。
Nano Banana 2 最大的杀手锏,就是解决了这个“AI 健忘症”。
- “交替生成”新范式: 研发团队透露,它会把复杂的指令拆解。先锁死人物特征,再逐步修改背景或姿势1。这就像是一个慢工出细活的老师傅,每一笔都记得上一笔画了啥。
- Gemini + Imagen 强强联手: 谷歌把负责“理解世界”的 Gemini 团队和负责“画出世界”的 Imagen 团队关在了一个屋子里。结果就是:它不仅画画好,而且能听懂你的各种“奇葩”抽象指令12。
- 自然语言驱动: 以前修图得画蒙版、调参数,现在你只需要像指挥实习生一样说:“把这张照片里的我移到马尔代夫,顺便给我怀里的娃换成一只穿着墨镜的小猩猩。”它不仅能执行,而且融合得毫无违和感1。
“这就是在用编辑文字的逻辑来编辑图片。” 有开发者评价道。这种丝滑感,大概就是所谓的“指哪儿打哪儿”。1
行业“地震”:谁在笑,谁在哭?
谷歌这次不仅是在秀肌肉,更是在打价格战。
根据公开数据,Nano Banana 2 的生成成本低到让人掉下巴:单张图像仅需 0.039 美元(约合人民币 3 毛钱)1。相比之下,那些还需要昂贵订阅费且出图慢如牛车的模型,瞬间就不香了。
而且,它不仅集成了 Google AI Studio 和 Vertex AI,甚至连 Adobe、Lovart 等设计巨头都已经把它接入了自己的工具包13。对于品牌方来说,以前需要花大价钱租影棚、请模特、搭置景的工作,现在几行 Prompt 就能搞定。
不过,这根“香蕉”也不是全无槽点。虽然它在生图和修图界横着走,但在面对自家老板时却有点“不怀好意”。有网友测试让它画劈柴哥和扎克伯格的合影,结果它居然把自家老板认错了1!这种“扣工资”的行为,也侧面说明了目前的 AI 在处理特定真实人物和中文文字渲染上,依然还有进步空间。
未来预测:从“玩具”到“全能代理”
Nano Banana 2 的出现,标志着谷歌多模态战略的一个重要转折点。
从 2024 年至今,谷歌的 AI 更新频率快得像“密集轰炸”。从长文本神器 Gemini 1.5 到视频王者 Veo 3,再到如今的 Nano Banana 2(Gemini 3.1 Flash Image),谷歌正在构建一个全家桶生态12。
谷歌 2025 AI 全家桶进化史
- 底座升级: Gemini 3 系列引入“Deep Think”模式,AI 开始学会像人类一样“慢思考”2。
- 图像进阶: Nano Banana Pro(Gemini 3 Pro Image)开始解决事实幻觉和乱码问题2。
- 创意爆发: 网友们已经开始把 Nano Banana 的能力和视频模型结合,让梵高和蒙娜丽莎在中央公园坐着聊天1。
未来的 AI 不再是一个你问它答的对话框,而是一个能理解你的意图、跨平台协作、甚至带点“审美”的智能体。
正如 DeepMind 研究员所说,他们希望这根“香蕉”不只是一个生成图片的模型,而是一个能陪伴用户思考和创作的伙伴1。虽然现在它可能还会在你的合影里把马斯克变成扎克伯格,但不可否认,AI 创作的门槛,已经被这根“香蕉”踢翻了。