TL;DR:
Transformer核心发明者Lukasz Kaiser深度剖析了AI从大规模预训练到强化学习驱动推理的新范式,强调语言作为智能基石,并指出具身智能、Agent协作及持续学习的实现,需超越当前架构、突破算力经济边界,探索更数据高效、并行化的下一代模型与训练范式。
OpenAI资深研究科学家、Transformer架构的共同发明人Lukasz Kaiser与奇点智能研究院院长李建忠的一场深度对话,为我们揭示了当前大模型技术前沿的“第一性思考”。这场交流不仅是对当下AI热潮的审视,更是对通往通用人工智能(AGI)道路上技术、商业、社会乃至哲学深层挑战的预判与洞察。我们正站在一个关键转折点,AI的未来不再仅仅是模型的“更大更强”,而是向着更深层次的“智能”本源回归,探索新的学习范式与架构。
Transformer的演进与智能本源的重塑:语言、多模态与抽象概念
对话伊始,两位嘉宾便聚焦于AI智能的核心——语言与视觉的辩证关系。Lukasz Kaiser强调了语言的“时间维度”与“序列处理”能力,将其视为表达智能的重要组成部分,而非仅仅是静态信息的处理。他指出,当前被称作“语言模型”的Transformer,最初实为“序列模型”,能灵活处理各类序列数据,包括蛋白质或音频。李建忠则进一步提出,语言作为人类编码和压缩后的信息,在智能表征上比视觉更高效,且赋予了AI超越物理世界描述抽象概念的能力,这与《人类简史》中人类因语言而异于动物的观点不谋而合1。
Kaiser还通过具体案例——模型在多语言训练中形成独立于语言的“抽象概念”——有力地反驳了“大模型只是鹦鹉学舌”的论调。这表明,模型内部确实在抽象空间进行问题解决和概念思考,这与人类学习过程中的“概念构建”异曲同工。然而,他也审慎指出,模型所理解的抽象概念,尤其是在与物理世界真实感受(如“痛苦”或“爱”)相关的领域,可能与人类的内涵存在差异,警示我们在解读AI智能时避免拟人化陷阱。
在多模态融合的趋势下,尽管现代大语言模型已具备处理图像和音频的能力,但Kaiser坦言,模态间的深度融合仍有挑战。他认为,当前普遍采用的VQ-VAE编码器虽有效,但其固定频率和分辨率的特性,尚不能达到人类视觉动态获取信息的灵活性。未来,VQ-VAE代码需更具可训练性,与语言进行更深层次的交互,以实现真正的“统一模型、统一模态”愿景。这一观点不仅提供了技术细节的分析(MIT Technology Review),也引发了关于AI感知的哲学思考(Wired)。
对于“世界模型”的争论,Kaiser认为现代大语言模型在文本和数学领域已是“令人惊叹的世界模型”,但在物理世界方面表现欠佳,这归因于视频数据的数量、质量不足以及现有架构的局限。他预测,通过架构和损失函数的改进,结合更优更多的数据,将弥合“世界模型”与“语言模型”之间的鸿沟。Sora、Genie、Veo等视频生成模型的出现,正是朝着这个方向迈进的重要一步,它们预示着AI对物理世界理解能力的显著提升。
Scaling Law的经济与技术边界:从预训练到强化推理的新范式
关于业界普遍信奉的“Scaling Law”,Kaiser提出了一个具有批判性思维的深刻洞察。他将“预训练的Scaling Law”与“强化学习的Scaling Law”区分开来,指出两者虽曲线相似,但本质和限制截然不同。
他认为,预训练的Scaling Law虽然有效,但正逐渐逼近经济上的极限。建造参数更大、所需数据更多的模型,将导致每个Token的推理成本高昂,难以在实践中推广。这是对当前算力“蒙眼狂奔”的一种商业敏锐度(TechCrunch)层面的警示。他举例说明,早期解决GSM-8K数学问题需要千亿甚至万亿参数,但在实践中不可行。
而由强化学习驱动的推理范式(如OpenAI的O1和DeepSeek R1),则为AI的发展开辟了新的路径。Kaiser将其视为一种“新架构”,尽管其底层仍是Transformer。这种范式不增加参数,而是通过“思维链”让模型运行更长时间,以极高的数据效率(例如,几十万个数学任务即可从0%提升到100%准确率)解决复杂问题。这种突破,不仅是技术上的,更是成本效率上的巨大飞跃,对商业化应用具有深远意义。
然而,Kaiser也指出了强化推理的局限性:
- 架构限制:Transformer最初并非为无限运行而设计,注意力机制的上下文长度限制,对长序列推理构成挑战。
- 强化学习机制:当前语言模型中的RL算法相对简单,通常只在长序列推理结束后获得单一奖励信号。当思考时间长达数小时甚至数周时,信用分配问题变得极其复杂,导致训练效率低下。
Lukasz Kaiser比喻道:“我觉得推理模型正处于我刚开始从事机器学习时RNN所处的阶段,而我们可能需要一个Transformer创新级别的推理模型。”
这意味着,要充分发挥强化推理的潜力,可能需要对强化学习的文献进行重新审视,并探索全新的架构或范式,而非仅仅在现有Transformer基础上线性扩展。这不仅是技术研究的前沿(MIT Technology Review),更是对未来AI基础理论的哲学思辨(Wired)。
Agents、具身智能与AI记忆:通往物理世界与持续学习的挑战
智能体(Agent)和具身智能(Embodied AI)是当前AI领域的热点,但也面临着深层挑战。Kaiser对“智能体模型”的概念进行了澄清,指出其核心是推理模型调用外部工具的能力。他认为当前Agent系统的泛化困境,并非是根本限制,而是缺乏有效的学习信号。当Agent被期望使用未经训练的工具或在未经训练的环境中协作时,如果没有强化学习的训练过程和模拟环境,其表现将难以出色。实现大规模Agent协作,需要下一代推理模型,这种模型需要具备更强的并行处理能力,并在训练中融入更丰富的学习信号,而不仅仅是单一的最终奖励。这要求我们在训练范式和架构设计上进行根本性创新。
在具身智能方面,关于“数据匮乏”与“比特原子差异”的争论,Kaiser倾向于认为,具身智能的实现路径将比我们想象的更接近于现有的大语言模型,但需要更好的多模态基础模型和RL推理机制。像Sora和Veo这类视频理解和生成模型,被视为具身智能预训练阶段的绝佳前驱。然而,真正的机器人操控还需要能够进行动作前推理的RL训练,这涉及到速度和层级式架构的调整。他预测,第一个版本的具身智能可能建立在现有成果之上,但长远来看,人类与动物在行动上的高效性,暗示未来将出现数据和计算效率更高的新一代模型,带来架构和学习过程上的更多改变。
至于AI的记忆瓶颈,当前大模型的“工作记忆”受限于上下文窗口,而“长期原生记忆”则多通过外部工具(如网络搜索、历史对话记忆)实现。Kaiser认为,这种工具化的记忆解决方案对于大多数情况已足够好用。然而,他作为一个研究者,仍希望未来能有更优雅、更原生的记忆机制,例如将记忆存储为连续的向量或直接修改模型权重,而非仅仅是Token形式。
这与“持续学习”的挑战紧密相关。人类总是在持续学习,而当前大模型一旦训练完成,权重便固定。Kaiser指出,上下文学习已在某种程度上实现了瞬时持续学习,但效率不高。LoRA等小适配器(adapters)的出现,使得经济地修改模型权重成为可能,为实现真正的、内生性的持续学习提供了技术基础。然而,如何设计算法以高效、可解释地进行权重修改,仍是一个悬而未决的研究问题。这不仅关乎AI的能力边界,更触及了智能体自身进化的核心,具有深刻的哲学意义。
AI与科学发现:强化学习的潜能与未来组织协作的愿景
Kaiser对强化学习驱动的推理范式能够带来真正全新的科学发现抱有极高的期望。他认为,RL的抽象性和数据高效性使其能够从有限的数据集中学习复杂的科学概念。通过将数学或物理学研究论文转化为RL学习任务,模型可以迅速掌握特定研究课题的知识,并提出新颖甚至令专业人员都感到有趣的见解。
Kaiser坚信:“这个未来,即将到来,并不像几年前那么遥远。能够致力于此并推动其发展,无疑是令人兴奋的。”
这预示着AI将从一个辅助工具转变为科学研究的共同探索者,加速医学、生物学、化学、数学、物理学等领域的发现进程,甚至帮助验证现有方法或指出改进空间。这一愿景,超越了传统的商业价值评估,直指AI对人类文明进步的深层影响(Wired,MIT Technology Review)。
然而,实现AI的大规模“组织”协作,仍是巨大的挑战。OpenAI将“创新”和“组织”定义为AGI更高等级的标志。Kaiser指出,当前推理模型以顺序方式生成结果,而大规模Agent协作则需要高度并行化。这要求下一代推理架构能够提供更多的并行信号,并在训练中融入更精细的信用分配机制(如重新引入价值函数或探索能量模型),以有效协调成千上万个Agent的行动。这不仅仅是技术难题,更是对AI“社会智能”和“集体智慧”本质的探索。
伦理考量与未来展望:构建负责任且高效的通用智能
这场深度对话不仅聚焦于技术突破,也自然触及了AI发展的社会影响与伦理考量。从语言的边界定义世界的边界,到模型概念与人类概念的差异,再到AI编程对未来工作模式的重塑,无不体现着技术对社会结构、认知方式乃至人类自我认知的深远影响。
AI编程就是一个典型的商业与社会融合案例。Kaiser预见语言模型将覆盖大量编程工作,但他也认为,对于专业程序员而言,理解底层数学和编程语言仍将是高效沟通的关键。他并不认为必然需要新的编程语言,而是要更好地利用现有语言进行“沟通和抽象”。这一观点平衡了“AI原生”与“AI副驾驶”两种模式,暗示未来编程世界将是人与AI协同、各取所长的新生态。
在AI快速发展的同时,我们必须认识到其中的风险与机遇并存。预训练Scaling Law的经济限制、Agent泛化困境、具身智能的操控复杂性,都提醒我们,技术发展并非坦途。然而,强化推理在科学发现中的巨大潜力、持续学习对AI进化意义,又描绘了一幅激动人心的未来图景。
Lukasz Kaiser在ML-Summit的演讲主题“下一代推理模型的挑战与研究”正预示着,AI的焦点正从单纯的“计算力堆叠”转向**“范式创新”和“数据效率”**。这要求我们以系统性思维,将单一技术置于更大的生态系统中考量,不仅关注技术本身的演进,更要深刻理解其对商业模式、社会伦理和人类文明进程的深层影响。我们期待一个更数据高效、能真正理解物理世界、具备持续学习能力,并能与人类社会深度协作的通用智能体的未来。
-
《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录·CSDN程序人生·李建忠研思(2025/10/13)·检索日期2025/10/13 ↩︎