TL;DR:
视觉搜索已从单纯的“图像比对”进化为“多模态推理”,AI 能像人类一样理解照片中的逻辑关系。通过“查询扩展(Query Fan-out)”技术,AI 会将一张照片拆解成多个子问题并同步搜索,从而给出如同私人助手般的深度解答。
想象一下,你漫步在京都的古老街道上,路边一朵形状奇特、花瓣呈半透明质感的兰花吸引了你的注意。你没有翻阅植物图鉴,只是掏出手机,对着它拍了一张照片,并随口问了一句:“这花在我的阳台上能养活吗?”
几秒钟后,你的手机不仅告诉了你这叫“水晶兰”,还根据你所在城市的实时天气、光照强度,甚至是你阳台的朝向,给出了一份详细的养护建议。这种仿佛科幻电影般的体验,正是谷歌最新的“AI 模式(AI Mode)”正在实现的视觉搜索革命。12
像人类一样“看”世界:多模态推理的魅力
在过去,当你把照片上传给搜索引擎时,它就像一个拿着通缉令比对路人的保安。它会将照片中的像素排列与数据库中的图片进行匹配,找出一张相似度最高的给你。如果你的照片拍得模糊,或者光线不对,它可能就“瞎”了。
而现在的 AI 模式 接入了像 Gemini 这样的新一代“多模态”大脑。34 “多模态”这个词听起来很玄学,但其实它是在模拟人类的感知:我们看到一张照片时,大脑不仅接收视觉信号,还会联想相关的文字描述、逻辑因果和生活常识。
当你问“这花能养活吗”,AI 不仅仅是在识别花朵。它在理解你(阳台的主人)与物体(花朵)之间的互动关系。它会调用强大的进阶推理能力,思考这朵花生长需要的湿度、温度,并将其与你的地理位置信息进行交叉比对。这种跨模态的理解,让搜索引擎从一个“复读机”变成了一个“智囊团”。2
“查询扩展”:一位会分身的超级侦探
如果说多模态理解是 AI 的“眼睛”,那么 查询扩展(Query Fan-out) 就是它的大脑运作方式。
当我们提出一个复杂的问题时,AI 不会直接去搜答案,而是扮演起了一位“超级侦探”。它会将你的一个大问题,拆解成无数个小线索同步发给不同的调查小组。5
假设你拍了一张电动车的照片,问道:“帮我比较这辆车和市面上同价位车型的续航与维修成本。”
AI 的后台会瞬间启动“查询扩展”:
- 第一路分身去查这张照片的具体型号;
- 第二路分身去检索该型号的最新市场价;
- 第三路分身寻找同价位的竞品;
- 第四路分身翻阅各大论坛的真实维修记录。
这种“分身术”被形象地称为 Query Fan-out。它不是在做一次搜索,而是同时进行了几十甚至几百次精准检索。5 随后,AI 会将这些海量信息重新整合,像写研究报告一样,把条理清晰的对比表直接呈现在你面前。
从“查找结果”到“解决问题”的跨越
这种技术的进步彻底改变了我们与物理世界的交互方式。谷歌将这种体验比作从“试吃小碟”升级到了“主厨吧台”。5
以前的 AI Overviews 只是在搜索结果上方给你一小块摘要(试吃);而现在的 AI Mode 则是你坐在吧台前,看着主厨根据你的每个细微要求——不要辣、要高蛋白、预算 50 元——一边备料一边即时调整菜单(交互式搜索)。
这种深度不仅体现在问答上。在 AI Shopping 场景下,AI 可以结合超过 500 亿笔商品的 Shopping Graph,为你提供虚拟试穿、即时比价,甚至根据你的购物历史推荐最适合你肤色的款式。5
视觉搜索不再是冰冷的算法匹配,它正在变成一种带有“直觉”的对话。当你下一次举起手机对准未知的世界时,你得到的不再是一个个网页链接,而是一个理解你需求、懂上下文、甚至能预测你下一个问题的全能助手。科学的边界,正随着 AI 的每一次“注视”而不断向日常延伸。
引用
-
Google Search 的AI 模式获得新的视觉搜索能力 - 腾讯云·腾讯云·(2026/3/6)·检索日期2026/3/6 ↩︎
-
Google AI Mode - a new way to search, whatever's on your mind·Google·(2026/3/6)·检索日期2026/3/6 ↩︎ ↩︎
-
2025年谷歌I/O一览:新推理模型、AI搜索与AI眼镜齐登场 - 证券时报·证券时报·(2026/3/6)·检索日期2026/3/6 ↩︎
-
AI Mode 是什麼?掌握Google 搜索引擎AI 模式應用亮點與特色 - AdHub·AdHub·(2026/3/6)·检索日期2026/3/6 ↩︎
-
Google AI Mode(AI 模式)是什麼?Google AI 搜尋的新巨變·Frank Chiu·(2026/3/6)·检索日期2026/3/6 ↩︎ ↩︎ ↩︎ ↩︎