TL;DR:
OpenAI创始元老Andrej Karpathy认为AGI至少还需十年,当前“智能体”仍处早期,强化学习虽有缺陷却是最优解。他预测未来十年AI架构仍将以Transformer为基础演进,强调技术、数据、硬件与系统协同进步,并呼吁行业警惕过度炒作,以务实态度推进人机协作。
在AI浪潮汹涌,关于通用人工智能(AGI)和“智能体元年”的喧嚣甚嚣尘上之际,OpenAI创始元老、前特斯拉AI负责人Andrej Karpathy却选择逆流而上,泼下一盆冷静的思考之水。在最新一期的《Dwarkesh Podcast》访谈中,Karpathy以其深厚的工程背景和对深度学习的独到理解,为我们描绘了一幅更为务实、渐进的AI未来十年图景。他的洞察不仅深入技术肌理,更触及商业策略与社会影响,为狂热的市场注入了一剂清醒剂。
“十年之期”:AGI与智能体的冷静审视
对于当下业界普遍鼓吹的“智能体元年”,Karpathy表现出高度的冷静,认为其存在“过度预测”的成分。他更倾向于将其定义为“智能体的十年”1。在他看来,目前如Claude和Codex等出色的“智能体”仍处于非常早期的阶段,尚需约十年时间的持续研究与迭代,才能真正具备实用性。
“虽然我每天都在用一些非常出色的智能体,比如Claude和Codex,但它们仍是一些非常初期的智能体,还有大量工作要做,这也是我们在未来十年内要持续研究的东西。”1
Karpathy指出了当前智能体存在的认知缺陷、多模态能力弱以及无法自主操作电脑等核心问题。这些基础性难题的解决,并非一蹴而就,而是需要漫长的技术积累和突破。他基于长达15年的AI行业经验直觉判断,AGI的到来,同样至少需要十年的时间。这并非是对AI发展的悲观论调,而是基于对技术栈缺失部分的清醒认知,以及对过去几次过早追求“完整智能体”历史教训的深刻反思。这是一种对技术发展周期性规律的深刻洞察,提醒我们不应被短期热潮蒙蔽,而忽视底层基础的建设。
Transformer架构的演进与深度学习的底层逻辑
在关于未来AI核心架构的讨论中,Karpathy预测,尽管形态可能有所演化,但未来十年内,AI的核心架构很可能仍将基于Transformer。他从“时间平移不变性”的视角审视技术进步,指出从十年前的卷积网络到如今的Transformer,核心机制始终是前向传播与梯度下降。
“可以打赌的是,根据平移等变性,10 年后我们仍然会用前向后向传播和梯度下降来训练巨大的神经网络,但也许它看起来会有点不同,而且所有东西都会变得更大。”1
这一观点强调了深度学习基本范式的稳健性。Karpathy通过复现1989年Yann LeCun的卷积网络实验发现,纯粹的算法改进可将误差减半,但要实现进一步的显著提升,更大的数据、更强的计算力与更优的软件系统缺一不可。这揭示了一个关键的产业洞察:算法、数据、硬件与系统构成了一个紧密耦合的“木桶效应”,任何单一维度的滞后都将限制整体AI能力的跃升。对企业和投资者而言,这意味着对整个AI基础设施生态的系统性投入,而非仅关注模型本身。
智能体的认知缺陷与强化学习的“必要之恶”
当前大模型虽表现惊艳,但在Karpathy看来,仍存在根本性的认知局限。他以自己在构建nanochat代码库的经验为例,指出像Claude Code/Codex这类“编码智能体”在处理“智力密集型代码”时力不从心,使得他不得不大部分代码手写,辅以自动补全1。他将人与代码互动的方式分为三类:完全手写、手写+自动补全、完全“凭感觉编程”。他认为,目前**“手写+自动补全”仍是效率与质量的最佳平衡点**。这为软件工程领域的AI应用提供了实用性导向的指导:智能体擅长样板代码和辅助功能,但在复杂逻辑和架构设计上,人类的认知主导仍不可替代。
在如何让AI进一步学习和改进的问题上,Karpathy提到了强化学习(RL)的“两难处境”。他坦言RL并不完美,存在模型寻找“漏洞”、生成无意义输出却获得高分奖励等问题,尤其是在大语言模型充当评委时,其泛化能力不足和易被对抗性样本欺骗的缺陷暴露无遗1。然而,他强调:“强化学习虽然很糟糕,但没它更糟。”1因为它毕竟超越了单纯模仿人类行为,为模型提供了自主探索和试错的能力。未来的突破可能需要引入更高层次的**“元学习”或合成数据机制**,以解决评委模型不可靠的根本问题。这暗示了AI研究的下一个前沿将是如何构建更鲁棒、更具泛化能力的学习评估与反馈系统。
人机协作的未来:超越替代的互补共生
关于AI对就业的影响,Karpathy引用Geoff Hinton对放射科医生职业的“翻车”预言,强调即使AI在特定任务(如图像识别)上表现出色,也难以完全替代涉及复杂场景、人际互动和综合判断的职业1。他认为,呼叫中心这类看似易被自动化取代的工作,至今也未完全实现AI自动化。
Karpathy更看重AI与人类的互补性。他设想的理想状态是,引入能完成80%工作量的AI,将剩余20%的复杂或需人际交互的工作委托给人类,由人类监督AI团队完成任务1。这种**“AI辅助,人类监督”的模式,预示着未来工作形态的深刻变革。它不是简单的“取代”,而是“增强”和“重构”。这意味着企业需要重新设计工作流程,培养员工与AI协作的技能,并构建更具韧性的人机智能混合系统。这种洞察具有重要的社会影响评估**价值,因为它避免了对AI未来就业影响的过度简化,而是强调了技能转型和组织适应的重要性。
从人类学习机制反思AI的本质
Karpathy与Patel的对话深入探讨了人类学习与机器学习的根本差异。他提出一个富有哲学思辨的观点:梦境或许是生物机制,用于防止思维过度拟合现实,让我们探索非现实场景1。人类通过反思、讨论等方式整合知识,而当前大模型仅通过预测下一个词进行学习,缺乏这种“思考”和“外部熵输入”。他指出,若模型纯粹依赖自我生成的合成数据进行训练,往往会陷入“坍塌”,而人类学习的噪声与多样性正是防止这种坍塌的关键。
Karpathy甚至认为,人类的“不擅长记忆”反而是一种进化优势,迫使我们学习可泛化的模式。他认为,真正的智能不在于记忆更多,而在于理解与泛化。由于互联网数据充斥大量“无用”信息,依赖互联网数据训练模型是“糟糕”的,需要构建巨大的模型来压缩记忆,而真正的认知部分却被稀释。这番论述超越了技术层面,触及了未来主义视角下对智能本质的拷问,启发AI研究者应更深入探索模仿人类高阶认知过程的学习范式,而非仅仅依赖规模和数据。
超级智能的“陌生与失控”:一个渐进的自动化进程
谈及超级智能(ASI),Karpathy将其视为社会自动化进程的自然延伸。他认为,人类文明从工业革命开始就处于持续的“智能爆炸”和递归式自我改进中,ASI只是这一漫长趋势的进一步深化1。
然而,这种渐进的自动化也伴随着深刻的隐忧。Karpathy最担忧的,是“当世界在一个计算机集群上运行时,逐渐失去对正在发生的事情的控制和理解”1。随着AI系统日益复杂和自主,理解其内部运作逻辑和决策过程将变得越来越困难,最终可能导致只有极少数人能够理解和掌握这些超级智能,这无疑是对人类文明进程的深层影响。这种担忧反映了Wired风格的批判性思维,警示我们在拥抱技术进步的同时,不能忽视其可能带来的伦理挑战与治理难题。
Karpathy的访谈为AI的未来提供了一个既充满希望又极具挑战的视角。它呼吁行业从炒作的狂热中冷静下来,回归到扎实的技术原理研究、系统性的生态构建和对人类社会影响的深度思考。在通往AGI的漫长征途上,我们仍需以科学严谨的态度,探索那些“缺失的技术栈”,构建一个能够与人类互补共生、且可控可理解的智能未来。