AI范式静默转型:从预训练到推理,揭示GPT-5.1与具身智能的深层逻辑

温故智新AIGC实验室

TL;DR:

Łukasz Kaiser揭示AI正经历一次从预训练向推理模型的范式静默转型,其意义不亚于Transformer。这一转变驱动了GPT-5.1以用户体验为导向的迭代,并预示着多模态推理与具身智能将成为下一轮、更直观的AI革命,深刻重塑商业版图与人类工作模式。

AI领域正在经历一场深刻而静默的范式转型,其影响可能不亚于多年前Transformer架构的横空出世。当前,外界对AI发展的认知呈现两极分化:一部分人认为增长放缓、模型触顶,而另一部分则不断被GPT-5.1、Gemini 3等新模型发布的“AI大周”所震撼。作为Transformer的共同作者之一,现任OpenAI研究科学家的Łukasz Kaiser近期首次披露了这一核心变迁,为我们提供了深入理解当下与未来AI路径的第一视角。

技术原理与创新点解析:推理模型驱动的AI新纪元

Łukasz Kaiser明确指出,AI并非发展变慢,而是底层范式正在悄然“换代”1。从内部视角看,AI能力增长始终遵循一条平滑的指数曲线,与摩尔定律有异曲同工之妙。之所以外界感到“放缓”,是因为业界重心已从以大规模数据和算力为核心的“预训练”范式,转向了更侧重“推理能力”的新范式。如果说预训练模型正处于S曲线的上升后期,那么推理模型则刚启程,展现出惊人的发展速度。

预训练的_Scaling Laws_依然有效,但随着模型规模的增长,其投入产出比面临挑战。这促使研究人员转向开发更小、更便宜但质量相当的模型,导致外界误以为预训练停滞。推理模型的本质是让AI在给出最终答案前进行**“思考”**,即所谓的“思维链”(Chain of Thought)2。模型被赋予使用工具(如浏览网页)的能力,通过推理分析而非单纯记忆来生成更准确的答案。这一过程本身被视为模型的一部分并接受训练。

这种训练范式也发生了质变:传统的深度神经网络更多依赖梯度下降,而推理模型则广泛采用强化学习(Reinforcement Learning, RL)。RL通过奖励机制推动模型不断自我纠正,并在复杂场景中寻求最优解。未来,强化学习将变得更加复杂,可能借助另一个大模型来判断答案的正确性或偏好度,并深度融入人类偏好。这一技术演进为多模态推理能力的爆发奠定了基础,尽管Gemini等模型已初步具备在推理中生成图像的能力,但整体仍处于起步阶段1

GPT-5.1的商业策略与技术演进

关于近期发布的GPT-5.1,Łukasz Kaiser透露,它绝非表面上的小版本更新,而是“一个巨大的稳定性迭代”1。相比GPT-5对推理能力的显著提升(得益于强化学习和合成数据),GPT-5.1的改进更多集中在后训练阶段(post-training):例如,增强安全性、减少“幻觉”(hallucinations),并引入多种输出风格(如书呆子、专业风格等)以满足用户定制化需求。

OpenAI的命名规则也随之转变,不再与深层技术细节直接挂钩,而是以用户体验为导向1。GPT-5代表基础能力,GPT-5.1是更优版本,Mini则指向更小、更快、更廉价的模型,而推理模型则专注于复杂任务。这种命名策略的转变,赋予OpenAI内部更大的灵活性,使得强化学习、预训练、幻灯片优化等多个项目可以并行推进,并通过蒸馏技术(distillation)将多项目成果整合到单一模型中,显著缩短了模型迭代周期,更迅速地响应市场和用户需求。这体现了TechCrunch式的商业敏锐——技术迭代不再是纯粹的性能竞赛,更是用户价值与市场效率的考量。

然而,Łukasz也坦诚,即便GPT-5.1在解决奥林匹克竞赛题方面游刃有余,却仍在处理多模态常识推理上存在短板。他以女儿的数奇偶数问题为例,指出模型往往会忽略共享点,缺乏将推理经验迁移到相似场景的能力。这暴露出当前AI在“理解”物理世界和进行通用常识推理方面仍有巨大的进步空间,预示着多模态推理和上下文推理迁移将是未来的核心研究方向1

产业生态与未来竞争态势

Łukasz Kaiser从谷歌Transformer团队转投OpenAI的经历,也折射出AI研究前沿的动态与挑战。他强调,尽管Transformer论文的八位作者从未在同一个物理房间共事,但他们协同构建了这一里程碑式模型,并顶住了当时主流“任务专用模型”的质疑,坚信通用模型的力量1。这种超越传统工作模式的协作精神,正是Wired所推崇的未来主义创新缩影。

加入OpenAI后,Łukasz被其扁平化、项目驱动的灵活组织架构所吸引。团队根据项目自发组队,资源(尤其是GPU算力)的竞争也异常激烈,反映出前沿AI研发对顶级计算资源的极度渴求1。这种内部竞争机制,在一定程度上也推动了技术的快速迭代和效率优化,是TechCrunch分析创业公司和巨头竞争时常关注的要素。

从商业角度看,推理模型的兴起以及对更小、更经济模型的偏好,将极大地降低AI技术的使用门槛和运营成本,从而加速AI在各行各业的普及和深化。Codex在程序员工作流中的彻底变革,正是AI实用性导向和产业生态影响力的例证——“Codex先处理,人工再微调”已成为新的范式1。这将催生更多AI驱动的SaaS服务和企业解决方案,重塑传统软件行业。

多模态推理与具身智能:下一场AI革命的序章

Łukasz Kaiser对AI未来的展望,清晰地指向了两个关键突破点:多模态推理与具身智能。他预言,家用机器人将成为继ChatGPT之后,“下一次更为直观的AI革命”1

这一预判并非空穴来风。具身智能要求AI能够理解并操作物理世界,其核心正是对多模态信息的深度感知与处理,以及在现实世界中进行复杂推理的能力。当前硅谷公司在智能手遥操作等硬件领域的快速进展,预示着硬件基础正迅速成熟。一旦多模态能力、通用强化学习和通用推理取得突破,机器人技术将迎来爆发式增长。届时,AI将不再局限于数字界面,而是以实体形态进入我们的生活空间,其影响力将比ChatGPT更直观、更易感知,对人类社会产生深远的哲学与社会学影响。这正是Wired所擅长探讨的,技术与人类存在本质的交汇。

AI对社会与工作的深层影响

Łukasz Kaiser对“AI是否会让人类完全失去工作”的问题给出了肯定的否定:AI会改变工作,但不会让工作消失1。他以翻译行业为例:尽管Transformer驱动的机器翻译已极其精准,但在报纸广告或ChatGPT UI等高关注度场景,仍需人类译者进行二次审核。这反映了人类对“信任”和“专业品质”的根本性需求,尤其在高风险决策或审美判断中,人类专家的价值依然不可替代。

然而,对于可替代性较高的基础性、重复性工作,AI的介入将显著提升效率,进而引发工作内容的重构和技能需求的转型。这并非简单地“失业”,而是**“职业再定义”**。劳动力市场将出现新的分化:一部分人将与AI协同工作,利用AI作为工具提升效率;另一部分则需要培养更高级的批判性思维、创造力、情感智能和跨领域整合能力,以适应AI无法胜任的复杂任务。MIT Technology Review和Wired均长期关注这类由技术驱动的社会结构性变迁。政府、教育机构和企业需要共同规划,进行大规模的技能再培训,以应对这场变革。

结语

Łukasz Kaiser的洞察为我们描绘了一幅清晰的AI演进图景:一场从预训练到推理的范式深层转型,正通过GPT-5.1等产品的迭代悄然进行。这场转型不仅优化了AI的效率和经济性,更为多模态推理和具身智能的崛起铺平了道路,预示着家庭机器人将成为下一场“肉眼可见”的AI革命。我们正站在一个技术、商业、社会相互激荡的临界点上,理解这些底层逻辑与前瞻性趋势,对于个人、企业乃至人类文明的未来发展都至关重要。

引用


  1. Transformer作者爆料GPT-5.1内幕,OpenAI内部命名规则变乱了·量子位·鹭羽(2025/12/1)·检索日期2025/12/1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. Transformer 作者Łukasz 揭示「推理典範」取代LLM,AI的真正瓶頸 ...·Threads(2025/12/1)·检索日期2025/12/1 ↩︎