AI圈“榜一大哥”轮流坐!谷歌刚登顶就被“截胡”,阿里大模型杀疯了?

温故智新AIGC实验室

TL;DR:

嘿,AI圈又上演了“榜一大哥”争霸赛!谷歌的Gemini Embedding刚在文本嵌入模型MTEB榜单上坐稳C位,没想到还没捂热乎,就被阿里系的Qwen3-Embedding“弯道超车”了。这波操作,简直是“神仙打架”年度大戏,卷王们都不给对方留活路啊!

要说这AI圈的“卷”,那真是分分钟上演大戏。前脚谷歌还在MTEB文本嵌入模型排行榜上高调宣布自己“C位出道”,坐稳了“榜一大哥”的宝座1,还没等大家鼓掌叫好呢,后脚阿里系就来了一记“王炸”——旗下的Qwen3-Embedding模型不仅奋起直追,还在最新的MTEB多语言榜单上实现了“反杀”,直接把谷歌给“截胡”了,分数甩开一大截,稳稳登顶2。这操作,简直是把“卷王之王”的剧本写到了极致,让人直呼:“AI江湖,风云变幻,榜一大哥轮流坐,今年到我家!”

这Embedding到底是何方神圣?

估计有小伙伴会问了,“Embedding”是个啥?听起来不明觉厉,但又感觉很厉害的样子。简单来说,它就像是给文字“注入灵魂”的魔法师。我们人类理解文字,靠的是语义、语境。但电脑呢?它只认识0和1。Embedding模型就是把文字(无论是单词、句子还是整篇文章)转化成一串串数字(也就是向量)。这些数字可不是随便来的,它们代表了文字的“意义”。

想象一下,你把“苹果”(吃的)和“苹果”(手机)这两词,通过Embedding变成两串数字。如果这两个词的含义完全不搭边,那它们对应的数字向量在“数学空间”里就离得很远;如果“香蕉”和“苹果”(吃的)含义很接近,那它们的向量就会靠得很近。这样一来,计算机就能通过计算这些数字的距离,来“理解”词语之间的关系和文本的含义了。

“Text Embedding就是把人类的语言变成了机器能懂的‘暗号’,而且这暗号还能告诉机器:‘你俩是哥俩好,他俩是死对头!’简直是AI世界的‘瑞士军刀’,啥文本任务都能用上。”3

排行榜风云:巨头们的“大乱斗”

这次的“榜单争霸赛”,主角就是谷歌新推出的Gemini Embedding和阿里开源的Qwen3-Embedding。

  • 谷歌Gemini Embedding:作为Gemini API家族的新成员,它一出道就自带光环,在MTEB基准测试中表现亮眼,平均任务得分一度高达68.32,特别是在配对分类和检索任务上表现突出1。当时那声势,简直是“舍我其谁”的架势4

  • 阿里Qwen3-Embedding:没过多久,阿里就带着它的Qwen3系列模型来了。特别是Qwen3-Embedding 8B版本,在多语言MTEB榜单上以70.58的高分强势登顶2,直接把谷歌给比下去了。这不仅仅是分数的超越,更是“开源”阵营对“闭源”巨头的一次漂亮反击。

这背后,其实是AI大模型时代两种不同策略的较量: 一种是像谷歌这样的闭源巨头,模型能力强悍,但普通开发者想要用,就得乖乖调用API,受限于其平台。 另一种是像阿里、Meta(Llama系列)这样推行开源策略的玩家,他们把部分强大的模型代码和权重直接放出来,让全球开发者都能免费使用、修改、甚至在此基础上再创新。

“开源就是‘把蛋糕做大’,让更多人参与进来,技术迭代速度飞快。闭源呢,更像是‘守住自己的蛋糕’,提供高定制化的服务。各有利弊,但目前看来,开源的力量不容小觑。”

除了这两位“顶流”,AI江湖中还有不少实力派选手。比如M3E(Moka Massive Mixed Embedding)3这个开源中文嵌入模型,凭借千万级的中文句对数据集训练,在多语言和多粒度处理上都有不俗表现。还有BGE-M3,它能处理8192个token的超长文本,支持多语言、跨语言检索,甚至能搞定句子、段落、篇章、文档等不同粒度的文本Embedding3。可以说,这文本嵌入模型赛道,简直是“卷”到飞起,百花齐放。

未来已来:小小的Embedding,大大的世界

你可能会说,不就是个排行榜嘛,有啥大不了的?但Embedding模型的重要性,远超你的想象。它是很多AI应用背后默默无闻的“英雄”。无论是智能搜索、推荐系统、情感分析,还是问答机器人、语义匹配,甚至代码理解,都离不开高质量的Embedding5。它就像是AI世界的“基础设施”,地基打得越稳,上面的高楼大厦才能建得越高。

这次阿里Qwen3-Embedding的登顶,不仅是它自身技术实力的证明,也再次印证了开源AI的澎湃活力。当顶尖模型不再是少数巨头的“独家秘笈”,而是通过开源惠及全球开发者时,整个AI生态的创新速度都会被大大加速。这下,谷歌的工程师们可能又要挑灯夜战,琢磨着下一波“反杀”大招了。毕竟,在AI这个“内卷”到极致的赛道上,不进则退,谁也别想躺平!

引用


  1. 谷歌Gemini Embedding 登顶MTEB,问鼎最强文本嵌入AI 模型·新浪科技·(2025/3/7)·检索日期2025/7/19 ↩︎ ↩︎

  2. 阿里又开源两款Qwen3模型!拿下文本嵌入模型SOTA,技术报告公布·知乎专栏·(2025/6/6)·检索日期2025/7/19 ↩︎ ↩︎

  3. 关于Embedding模型的那点事儿 - 知乎专栏·张小白·(无日期)·检索日期2025/7/19 ↩︎ ↩︎ ↩︎

  4. AIGCLINK on X: "谷歌凌晨放出了其首个嵌入模型gemini-embedding ..."·AIGCLINK·(2025/9/9)·检索日期2025/7/19 ↩︎

  5. 文本嵌入模型的选择- 蝈蝈俊 - 博客园·蝈蝈俊·(无日期)·检索日期2025/7/19 ↩︎