你的手机在“看”什么？揭秘 AI 如何听懂照片里的秘密

TL;DR：

视觉搜索已从单纯的“图像比对”进化为“多模态推理”，AI 能像人类一样理解照片中的逻辑关系。通过“查询扩展（Query Fan-out）”技术，AI 会将一张照片拆解成多个子问题并同步搜索，从而给出如同私人助手般的深度解答。

想象一下，你漫步在京都的古老街道上，路边一朵形状奇特、花瓣呈半透明质感的兰花吸引了你的注意。你没有翻阅植物图鉴，只是掏出手机，对着它拍了一张照片，并随口问了一句：“这花在我的阳台上能养活吗？”

几秒钟后，你的手机不仅告诉了你这叫“水晶兰”，还根据你所在城市的实时天气、光照强度，甚至是你阳台的朝向，给出了一份详细的养护建议。这种仿佛科幻电影般的体验，正是谷歌最新的“AI 模式（AI Mode）”正在实现的视觉搜索革命。¹²

在过去，当你把照片上传给搜索引擎时，它就像一个拿着通缉令比对路人的保安。它会将照片中的像素排列与数据库中的图片进行匹配，找出一张相似度最高的给你。如果你的照片拍得模糊，或者光线不对，它可能就“瞎”了。

而现在的 AI 模式 接入了像 Gemini 这样的新一代“多模态”大脑。³⁴ “多模态”这个词听起来很玄学，但其实它是在模拟人类的感知：我们看到一张照片时，大脑不仅接收视觉信号，还会联想相关的文字描述、逻辑因果和生活常识。

当你问“这花能养活吗”，AI 不仅仅是在识别花朵。它在理解你（阳台的主人）与物体（花朵）之间的互动关系。它会调用强大的进阶推理能力，思考这朵花生长需要的湿度、温度，并将其与你的地理位置信息进行交叉比对。这种跨模态的理解，让搜索引擎从一个“复读机”变成了一个“智囊团”。²

如果说多模态理解是 AI 的“眼睛”，那么 查询扩展（Query Fan-out） 就是它的大脑运作方式。

当我们提出一个复杂的问题时，AI 不会直接去搜答案，而是扮演起了一位“超级侦探”。它会将你的一个大问题，拆解成无数个小线索同步发给不同的调查小组。⁵

假设你拍了一张电动车的照片，问道：“帮我比较这辆车和市面上同价位车型的续航与维修成本。”

AI 的后台会瞬间启动“查询扩展”：

第一路分身去查这张照片的具体型号；

第二路分身去检索该型号的最新市场价；

第三路分身寻找同价位的竞品；

第四路分身翻阅各大论坛的真实维修记录。

这种“分身术”被形象地称为 Query Fan-out。它不是在做一次搜索，而是同时进行了几十甚至几百次精准检索。⁵ 随后，AI 会将这些海量信息重新整合，像写研究报告一样，把条理清晰的对比表直接呈现在你面前。

这种技术的进步彻底改变了我们与物理世界的交互方式。谷歌将这种体验比作从“试吃小碟”升级到了“主厨吧台”。⁵

以前的 AI Overviews 只是在搜索结果上方给你一小块摘要（试吃）；而现在的 AI Mode 则是你坐在吧台前，看着主厨根据你的每个细微要求——不要辣、要高蛋白、预算 50 元——一边备料一边即时调整菜单（交互式搜索）。

这种深度不仅体现在问答上。在 AI Shopping 场景下，AI 可以结合超过 500 亿笔商品的 Shopping Graph，为你提供虚拟试穿、即时比价，甚至根据你的购物历史推荐最适合你肤色的款式。⁵

视觉搜索不再是冰冷的算法匹配，它正在变成一种带有“直觉”的对话。当你下一次举起手机对准未知的世界时，你得到的不再是一个个网页链接，而是一个理解你需求、懂上下文、甚至能预测你下一个问题的全能助手。科学的边界，正随着 AI 的每一次“注视”而不断向日常延伸。

引用