TL;DR:
谷歌这波AI操作,简直是“大象转身”的教科书!二十年技术隐忍,一度被OpenAI“红色警报”吓醒,然后开启“全体总动员”模式,Gemini、TPU齐发力,从“中年危机”瞬间变“AI卷王”,这剧情反转,比狗血剧还精彩!
一年前的谷歌,在硅谷的叙事里,简直就是个患了**“中年危机”的角色,虽然家大业大,但总感觉少了点年轻人的冲劲。可谁能想到呢?仅仅365天,故事就来了个“惊天大反转”**!Gemini 3横扫各大榜单,那个叫“香蕉”的模型Nano Banana Pro更是把AI生图的想象力直接拉满。财报数字也跟着“起飞”,Gemini应用月活用户直接飙到6.5亿,比上季度狂涨2亿。
这不禁让人好奇:谷歌最近是吃了什么**“大力丸”**,突然变得这么猛?难道是“开挂”了?
其实,这并非一次天降神兵的“突然爆发”,而是一场蓄谋已久的**“大象转身”。谷歌正以前所未有的决心和效率,把自己数十年积攒的AI技术储备,一股脑地转化成硬核产品力。如果你把时间轴拉得更长,你会发现一条更令人拍案叫绝的“暗线”:从拉里·佩奇那个关于“终极搜索引擎”的构想,到鼎鼎大名的“猫论文”,再到DeepMind、TPU……谷歌这二十多年来的AI投资,几乎贯穿了现代深度学习的每一个关键节点。更让人惊掉下巴的是,在Transformer论文问世的十年前,全球几乎所有知名的AI大神,都曾在谷歌“打过工”。这种全栈的技术沉淀和人才密度,为谷歌筑起了一条远超想象的“护城河”**。
这真是**“草蛇灰线,伏脉千里”。谷歌如今的“绝对反击”**,其实早已经深深埋藏在它二十年来的投资拼图里了。今天,咱们就来扒一扒谷歌在AI战场上的那些关键落子,看看它们是如何在漫长的二十年里,一步步左右了整个AI产业的走向。
回到原点:佩奇的“终极想象”和“压缩即理解”
谷歌的AI故事,得从它的“老父亲”拉里·佩奇说起。别看佩奇现在是科技大佬,他老爹可是多伦多大学的计算机科学教授,专攻机器学习和人工智能。那会儿的AI,在主流学界眼里,那可是个**“有点浪费生命”的冷门方向,简直就是“天坑专业”。可偏偏,小佩奇受这套理论影响至深。他曾回顾谷歌早期,“凡尔赛”**地说了句:
“人工智能会是谷歌的终极版本。终极搜索引擎应该能理解整个互联网,也能精准理解你要什么,然后给你正确的答案。” 1
要知道,那是2000年,谷歌才成立两年。那时,LLM是啥?ChatGPT又是啥?没人知道。
谷歌第一次真正意义上的“语言模型实验”,充满了浓浓的**“谷歌风味”。大概在2000年左右,谷歌早期员工乔治·辛顿(Geoffrey Hinton,没错,就是那个AI“教父”之一)和诺姆(Noam Shazeer,Transformer论文主要作者之一)在一次闲聊中,突然抛出了一个“金句”**:
“如果你能把一段数据压缩,再无损还原,那从技术上讲,你必须真的‘理解’了它。”
这句话,直接**“戳中了”诺姆的G点(技术兴奋点)。他茅塞顿开:如果“压缩等于理解”,那搜索里的语言建模、概率预测不就能反过来当“理解机器”的基础了嘛!于是,这俩大神干脆把手头工作一停,一头扎进了语言模型和数据压缩的“死胡同”**。
结果呢?他们搞出了谷歌第一个真正意义上的“模型”产品——“你不是要找:xxx”(拼写纠错)。别看这只是个小小的应用场景,但它悄悄地把“概率语言模型”实打实地放进了搜索产品,既改善了用户体验,又帮谷歌省下了一大笔基础设施成本。这个项目后来还进化成了一个内部昵称PHIL(Probabilistic Hierarchical Inferential Learner)的“庞大”语言模型。从表面看,谷歌只是做了一个更聪明的输入框。但从这时起,搜索的背后,已经在悄悄变成一台**“建模世界与人类语言的机器”。这铺垫,不得不说,真是“老谋深算”**。
谷歌大脑:猫、YouTube与千亿美元的“吸金兽”
真正让谷歌拿到通往AI**“船票”的,是Google Brain(谷歌大脑)的成立。2011年,吴恩达从斯坦福到谷歌兼职,他当时正探索一种无监督的大规模神经网络训练法,目标是让系统自己从未经标记的图像中学习特征。这在当时可不常见,毕竟深度学习那时还在被“嫌弃”**,觉得“神经网络又慢又不稳定”。
但这种想法,却深深吸引了谷歌当时最顶级的系统工程师杰夫·迪恩。他心里一直有个疑问:大规模神经网络真的能在谷歌的基础设施上跑起来吗? 于是,两人**“一拍即合”,还拉上了神经科学博士格雷格·科拉多,开始“搞事情”**——构建一个庞大的深度神经网络模型,这就是后来的“谷歌大脑”。
要跑大模型,就需要强大的系统。主流观点认为,大模型得在同一台机器上同步训练。但杰夫·迪恩偏偏**“反其道而行之”:把网络拆到几千台CPU上,跨数据中心异步训练,就算参数“过时”也照训不误。这理论上听起来像一场“灾难”,但实践中,它居然跑通了!这,就是大名鼎鼎的“DistBelief”系统**。
于是,2012年,那篇名为《使用大规模无监督学习构建高级特征》的论文横空出世,它还有一个更**“接地气”的名字:“猫论文”。具体来说,他们用了16000个CPU核心,训练了一个九层神经网络,通过无监督学习,让它自己学会识别YouTube视频里的猫。在那之前,AI识别物体都得靠人类先打标签,但谷歌的这个神经网络,看了无数小时的YouTube视频后,自己“无师自通”**,学会了认识“猫”。它证明了无监督学习的可行性:机器真的可以自己从数据中提炼规律。
比起“猫论文”对AI行业的影响,更**“财大气粗”的是它带来的商业价值。因为它催生了一种新的“财富密码”**:推荐系统机制。当时YouTube正努力转型,想让用户多看视频,延长停留时间。推荐系统需要根据用户自己写的视频标题和描述来推送内容,但问题是,大家上传视频哪会写那么精准的描述啊!
“猫论文”的出现,简直就是**“及时雨”。它第一次证明:基于DistBelief的深度神经网络,可以直接从视频本身学出内容,自动理解画面和主题,然后用这些数据来精准推荐。于是,谷歌迅速把这套技术用在了YouTube的推荐算法评估上,也奠定了YouTube作为全球最大视频平台的基础。后来,Facebook、Instagram和字节跳动纷纷效仿这一机制,并在接下来的十年里,成为了全世界最主流的休闲娱乐方式,“吸金”**数千亿美元。
所以,在世人都知道ChatGPT之前,AI其实早就开始默默塑造我们所有人的生活了。而这一切,都始于谷歌的这场**“AI基因突变”**。
DeepMind:一次“神来之笔”,却扇出了“蝴蝶效应”
谷歌在招募顶级AI人才这条路上,从来就没**“手软”过。2012年,它还从百度手里“抢”**走了DNN(深度神经网络)研究公司,那可是杰夫·辛顿、伊利亚·苏茨克维尔(OpenAI首席科学家)等大神创立的。
但真正让谷歌在AI产业**“确立统治力”的,是对DeepMind的收购。2010年,哈萨比斯、谢恩·莱格和穆斯塔法·苏莱曼创立DeepMind,他们的目标宏大得有些“中二”:“解决智能,并利用它来解决所有其他问题”**。到了2013年底,DeepMind接到了扎克伯格和马斯克等大佬的收购要约。
在这场**“抢人大战”中,谷歌最终“胜出”。原因是,DeepMind创始团队和Facebook、特斯拉在理念上一直有分歧。哈萨比斯坚持DeepMind必须保持独立性,还要有一个拥有否决权的独立监管委员会,确保使命不被短期商业目标“稀释”**。扎克伯格不同意哈萨比斯继续掌握DeepMind控制权。
拉里·佩奇的态度则截然不同,他一直把谷歌视为一家以AI为核心的公司,对DeepMind的使命**“高度认同”,也愿意给团队足够的自主权。谷歌承诺DeepMind可以留在伦敦,专注纯粹的“智能”研究,不用为谷歌内部产品服务,因为谷歌已经有Google Brain团队负责落地了。而且,谷歌还有DeepMind所需的全部计算基础设施。于是,2014年1月,谷歌以5.5亿美元“豪掷”收购DeepMind,将当时最豪华的AI研究团队“收入囊中”,几乎“统治”**了AI领域 2。
然而,谁都没想到,这次收购就像**“蝴蝶扇动翅膀”一样,引发了一连串谷歌自己都无法预料的“连锁反应”**。甚至可以说,从OpenAI的创立,到ChatGPT的诞生,再到Anthropic、xAI等公司的出现,今日AI产业的几乎每一条重要支线,都能追溯到那场收购!
当时,这次收购产生了两个直接的后果:
- 直接“激怒”了马斯克。DeepMind被谷歌买走,谷歌又在全球**“疯狂招募”顶尖AI研究员,这让马斯克意识到:再不做点什么,未来人类对AI的控制权可能会高度集中在少数公司手里。2015年夏天,马斯克和奥特曼组织了一场晚宴,邀请那些被谷歌和Facebook“挖墙脚”的AI研究人员,询问他们离开的条件。他们提出的方案是:成立一个不受资本控制的非营利性AI研究实验室,致力于“以最有可能造福全人类的方式推进数字智能”。虽然大部分人都拒绝了,但AlexNet的主要贡献者、Google Brain团队的伊利亚·苏茨克维尔(Ilya Sutskever)对此很感兴趣。除了伊利亚,还有大约七位研究人员离开了谷歌,加入了马斯克和奥特曼的团队,共同创建了OpenAI。这下,“梁子”**算是结下了。
- 激化了AI领域巨头竞争,加速了Anthropic和xAI的诞生。谷歌收购DeepMind及随后AI人才流失到OpenAI,导致OpenAI内部的**“梦之队”**不断组建和变化。达里奥·阿莫代伊(Dario Amodei)在OpenAI取得重大进展后,最终也离开了OpenAI,创办了Anthropic。马斯克从OpenAI撤资后,也意识到特斯拉必须在AI上建立自己的技术路径,于是创建了xAI。
更**“戏剧性”的是,随着OpenAI的壮大,DeepMind收购的附带影响将谷歌最大的“敌人”微软重新带回了舞台中心。微软通过向OpenAI投资数十亿美元,获得了对其技术的独家授权,从而对谷歌的核心搜索业务构成了“生存威胁”。谷歌唯一值得“庆幸”的是,也正是这些团队的出走,最终让其免于因垄断而被迫处罚或者拆分。真是“塞翁失马,焉知非福”**?
被英伟达“逼出来”的TPU:谷歌的“反击神器”
在整合AI领域最顶级研究资源的同时,谷歌还干了一件很**“牛逼”**的事情:搞TPU。
2013年,当Alex Krizhevsky加入谷歌时,他震惊地发现他们现有的所有机器学习模型都运行在CPU上。此前,大家多次要求用GPU,因为机器学习工作负载太适合并行运行了,但谷歌的基础设施团队却**“傲娇”地拒绝了,他们认为扩展和多样化GPU集群会增加复杂性,“保持简单为好”。Alex Krizhevsky一怒之下,自己去当地电子商店买了一台GPU机器,插到网络上,开始用这台单独的硬件训练他的神经网络模型。真是“有钱任性”,或者说“技术硬核”**。
直到2014年,谷歌工程主管杰夫·迪恩和Google Brain负责人约翰·吉安南德里亚才决定,正式将GPU纳入谷歌的数据中心。最终,他们决定向英伟达**“壕”订4万块GPU,这笔订单价值1.3亿美元 3。这笔订单的预算之高,直接惊动了拉里·佩奇亲自审批。尽管财务部门曾试图否决,但拉里·佩奇还是“拍板”批准了,因为他认为深度学习是谷歌的未来。这笔订单,对当时英伟达的体量来说,简直是“改变命运级别”的!它也给了英伟达“莫大的信心”**,相信AI将在未来成为一项巨大的业务。
随着神经网络技术被集成到Google Photos、Gmail建议和AdWords等产品中,谷歌很快发现这些AI应用能带来可观的收入回报。于是,谷歌在1.3亿美元的基础上,又花费了数亿美元继续购买GPU。然而,在大规模购买GPU的同时,谷歌也发现了两个**“扎心”**的问题:
- “太烧钱!” 像谷歌这样规模的公司,一旦神经网络运作起来,需要进行大量的矩阵乘法运算。谷歌发现自己每年将需要“向英伟达输送数亿,很快就是数十亿美元”。这简直是在给英伟达**“交保护费”**啊!
- “GPU不够用了!” 当谷歌推出语音识别功能(利用神经网络实现)并在Nexus手机上取得成功后,杰夫·迪恩算了一笔账,“吓了一跳”:如果人们每天使用一项AI功能三分钟,而谷歌将其推广到所有十亿部安卓手机上,那么需要比目前整个谷歌拥有的数据中心数量多一倍的数据中心才能处理它!这简直是**“甜蜜的负担”,也是“算力危机”**。
解决办法只有两个:要么把基础设施规模再翻一倍,要么自己构建一种新的定制芯片,专门针对谷歌的特定用例进行优化(即张量乘法)。这,就是后来TPU(Tensor Processing Unit)出现的背景。
TPU被设计成一种应用特定的集成电路(ASIC),它虽然不能用于图形处理,但专门用于神经网络的矩阵乘法,效率远高于当时的GPU 3。TPU的核心目标是让谷歌能够在不将其整个基础设施规模翻倍的情况下,扩展其数据中心的能力。TPU的原理也很**“朴实无华”,就是“降低计算精度,提高计算效率”。举个例子,它会把4586.8272这样的数字四舍五入到4586.8,甚至可能直接四舍五入到4586,小数点后为空。这样一来,就可以在芯片上使用相同的功耗、内存和晶体管数量,每秒执行更多的计算,更快地输出结果。“牺牲一点点精度,换来效率起飞”**,这买卖,划算!
如今,TPU已经成为谷歌AI战略的**“核心基础设施”。谷歌内部也已经建立了一个规模几乎与英伟达相当的芯片研发体系,不仅服务于谷歌自身,也服务于谷歌云客户。在商业上,TPU还有另外一层意义:避免了被英伟达收“税”。目前,英伟达的GPU系统毛利率高达75%至80%,这意味着芯片成本可能有约5倍的加价。而谷歌通过自研,避免了支付这种巨大的溢价。这种“纵向一体化”的能力,已经反过来变成了模型竞争力的一部分,真是“既当运动员又当裁判”**,高明!
Transformer的“错判”与“红色警报”的拉响
在Transformer出现之前,谷歌团队已经用循环神经网络重写了谷歌翻译。效果确实不错,但很快,一些**“尴尬”的局限性也暴露无遗。其中一个主要问题是,模型“遗忘”信息的速度太快,用现在的话说,就是“上下文窗口很短”**。
谷歌改进算法的方法之一,是使用一种叫做长短期记忆网络(LSTM)的技术。LSTM的基本原理是为模型创建一个持久的或长短期记忆,这样模型在执行一系列步骤时就能记住上下文。2016年,谷歌翻译采用了LSTM,错误率降低了60%!这是一个巨大的飞跃。当时,大家都认为LSTM将会把语言模型和大型语言模型推向主流。然而,LSTM也有弊端,它计算量非常大,而且并行化效果不佳。
于是,谷歌大脑内部的一个团队开始寻找一种**“更厉害”的架构,它既要具备LSTM的优点,又不能过快遗忘上下文信息,同时还要能够更好地并行化和扩展。一位名叫雅各布·乌什科雷特的研究员一直在尝试拓展语言处理中“注意力”(Attention)的范围。如果模型不再只关注眼前的词语,而是关注整个文本语料库,预测下一个翻译词应该是什么,会怎么样呢?如果要这样做,该模型需要大量的计算能力才能完成这项工作,但它具有极强的并行化能力。雅各布开始与大脑团队的其他几位成员合作,他们决定把这项新技术命名为“Transformer”**。
一开始,他们虽然已经实现了Transformer模型,但实际上它的表现并不比LSTM好多少。直到诺姆(对,又是他!)加入团队,他从头开始重写了整个代码库。完工后,Transformer模型**“彻底碾压”**了基于LSTM的谷歌翻译方案,也证明了一件事:模型规模越大,效果就越好。
在Transformer论文发布一年后,谷歌又开发出了大型语言模型BERT。很多人认为谷歌在论文发表后就对Transformer架构**“无所作为”**,事实并非如此。他们用基于Transformer的大型语言模型做了很多工作。但在当时,谷歌确实没有将其视为一次全面的技术平台变革。
事实上,在ChatGPT之前,谷歌已经有一个聊天机器人了。当时,诺姆已经看到了Transformer模型的价值,并向高层游说,公司应该全力以赴转型做一个巨大的Transformer模型。为此,诺姆还构建了一个聊天机器人,叫Mina。Mina与ChatGPT很接近,但没有ChatGPT那样具备训练后的安全机制,所以很容易**“失控”**。比如,你只要问它谁该死,它就会列出一些应该死的人的名字。也正因为如此,谷歌始终没有发布它。
除了**“失控风险”外,谷歌没有发布Mina的原因还有两个,简直是“创新者的困境”**的活生生案例:
- “断人财路”:如果把谷歌搜索页面变成一个聊天机器人,那么用户将直接得到答案,而不是网站链接,这将直接影响谷歌的收入。尽管谷歌现在在考虑这个问题,但在2021年之前,提出这样的建议是绝对行不通的。
- “法律风险”:直接给出答案,存在法律风险。当时,有相当多的舆论认为谷歌正在剥夺出版商与读者之间的直接联系,为此谷歌已经花了数十年时间来对抗公众舆论和法院判决。
出于这些考虑,即使诺姆和谷歌内部都认为基于Transformer构建LLM,并为其添加聊天机器人界面,可能是一个极具吸引力的产品,但在当时并没有迫切的理由去做这件事。结果,2021年,诺姆带着他的**“聊天机器人梦想”**离开了谷歌,创立了Character AI。
谷歌的**“误判”,却给了OpenAI一个“绝佳的契机”**。2018年6月,OpenAI发布了一篇论文,描述了他们如何利用Transformer模型,并开发了一种新的方法,即先在互联网上大量通用文本上对其进行预训练,然后将这种通用预训练微调到特定的用例。他们还宣布,他们已经训练并运行了该方法的第一个概念验证模型,他们称之为GPT-1。这与BERT的出现时间大致相同。
然后,2022年底,**“核弹级”**产品ChatGPT出现了。ChatGPT的成功,彻底颠覆了谷歌对于AI的判断。在此前相当长时间里,谷歌、皮猜、拉里以及所有人都把AI视为持续性创新,谷歌可以利用AI持续巩固在所有领先产品中的领先地位。但在ChatGPT问世后,一夜之间,AI从一种持续性创新转变为颠覆性创新。
甚至说,这种变化对谷歌构成了一种**“生存威胁”。这意味着,谷歌过去10-20年在人工智能领域积累的许多优势,都变成了劣势。这下,谷歌算是“被打脸了”**。
“红色警报”拉响,巨象“变形金刚”上线!
ChatGPT发布后,桑达尔·皮查伊在公司内部直接发布了**“红色警报”。这是谷歌的最高级别危机模式,意味着公司需要立即采取“全体总动员”**的应对措施。
为了挽回**“危局”,谷歌做了两件“惊天动地”**的大事:
- 组织架构的彻底重组。皮猜认为,谷歌不能再有两支AI团队了,于是他做出了重大的组织决策:将Google Brain和DeepMind合并为一个实体,即Google DeepMind 4。同时,他任命DeepMind联合创始人哈萨比斯为合并后的Google DeepMind首席执行官,主导整个谷歌AI部门的发展方向。尽管,这一决定违反了最初收购DeepMind时承诺其独立性的条款,但它也体现了公司对AI紧迫性的**“最高重视”,真是“壮士断腕”。同时,谷歌决定重新召回顶级人才。谷歌联合创始人谢尔盖·布林重新作为员工回归,参与Gemini项目的工作。他们斥巨资与Character.AI达成许可协议,将诺姆带回谷歌,让他与杰夫·迪恩一起担任Gemini的联席技术负责人,其他Google Brain核心成员也加入DeepMind团队,共同开发Gemini。这操作,简直是“众星捧月”**。
- 产品和技术上的集中火力。谷歌决定结束多模型、多团队并存的**“混战局面”**,集中资源打造一款旗舰模型。皮猜决定谷歌将标准化并只使用一个模型,即Gemini。该模型将用于谷歌内部的所有AI产品和外部服务。同时,谷歌也在内部积极推广Gemini,他们会联系每个团队,告诉他们Gemini代表着公司的未来,你们需要开始寻找将Gemini集成到产品中的方法。
Gemini被设计为多模态(multimodal)模型,能够处理文本、图像、视频和音频。谷歌以极快的速度构建和训练Gemini,在2023年5月宣布计划后,于2023年12月就发布了早期的公共测试版本,这**“速度与激情”**在谷歌历史上都实属罕见。
自那之后,谷歌进入了一个罕见的产品**“加速期”:Gemini 2.5 Pro横扫各大榜单,到“香蕉”模型Nano Banana的爆火,视频模型Veo 3展示了物理世界的理解力;Genie 3甚至能一句话生成一个虚拟世界。进入今年11月,谷歌接连发布了Gemini 3和Nano Banana Pro,尤其是Gemini 3在各类主流基准上展现了“统治级表现”**。
谷歌用一连串**“王炸”产品,重新站回了“牌桌中央”**。
结语:宿命的闭环,那个“令人害怕的谷歌”回来了
谷歌在AI上的这二十年,绝对是一部充满戏剧性的**“启示录”。它始于拉里·佩奇对“理解互联网”的天才构想,中间一度迷失于“创新者的困境”和垄断带来的“舒适区”,最终在生存危机的紧迫下,完成了一次惊心动魄的转折。这很大程度上要归功于OpenAI的“突袭”**,因为它给了谷歌最需要的东西:恐惧。
当桑达尔·皮查伊打破分区墙,当谢尔盖·布林重回业务一线,当那些分散在Google Brain和DeepMind的天才们终于坐在同一张办公桌前,谷歌展现出了**“体系化的AI力量”**。
再把视角拉回到2000年的那个下午。拉里·佩奇曾说:
“人工智能是谷歌的终极版本。”
二十五年过去了,“宿命完成了闭环”。谷歌从来就不是一家搜索公司。从一开始,它就是一家试图用数学和算力穷尽人类知识边界的AI公司。如今,那个大家熟悉的、“令人害怕的谷歌”,终于回来了。