TL;DR:
下一代AI训练范式正从单一的“可验证奖励强化学习”(RLVR)向“持续学习”演进,核心在于将模型在真实世界交互中的经验通过自蒸馏和模拟梦境(Dreaming)写入权重,从而打破AI的能力增长瓶颈。
技术突破的本质:从RLVR到持续进化的“经验闭环”
当前,以DeepSeek R1、Kimi K1.5等为代表的推理模型,标志着人工智能已经进入“RLVR(可验证奖励强化学习)”时代12。这种范式的核心逻辑在于:利用数学、代码等具备“可验证性”的任务,通过大规模并行试错,让模型习得深度推理、规划与纠错能力。然而,如科技播客主持人Dwarkesh Patel所言,RLVR的局限性在于其对任务环境的“可刷性”要求极高13。
当AI试图跨越代码与数学的围墙,进入商业管理、法律诉讼或复杂组织协作等“真实世界任务”时,环境的不可重置性、反馈的滞后性以及变量的高度不确定性,使得传统的并行强化学习失效。我们正站在技术变革的十字路口:下一代AI训练的核心,不再仅仅是堆叠参数,而是如何让模型在“真实工作中学习”,并将这些瞬间的经验转化为永久的权重更新14。
经验的沉淀:从“上下文窗口”到“权重重塑”
长期以来,大模型依靠“上下文学习(In-Context Learning)”来适应特定用户或业务需求。然而,这种学习具有极强的挥发性,会话结束后经验往往随缓存消散。Dwarkesh Patel提出的“Learning back to the weights(把学习写回权重)”概念,本质上是要求AI从“短期记忆”向“长期直觉”跨越13。
为了实现这一目标,两个关键方向正在浮现:
- 策略自蒸馏(On-policy Self-distillation, OPSD):通过让模型在长时间会话中沉淀出的“高阶判断力”充当教师,将这种经验以概率分布差异的形式蒸馏回基础模型。这不仅仅是模仿,而是将模型在复杂任务中摸索出的决策逻辑“压缩”进神经元连接之中14。
- 模拟梦境(Dreaming)与测试时训练:类比人类在工作之余的“反思”过程,AI在完成任务后,基于自身观察构造虚拟模拟环境,进行反复的“博弈演练”。这种被称为“测试时训练(Test-time Training)”的新维度,使模型能够摆脱初始预训练数据的束缚,在部署阶段获得独立于人类数据之外的二次生长能力13。
产业格局与商业版图的重构
这一范式的切换将彻底重塑AI的商业价值评估体系。如果AI能够通过在客户企业内部的真实运行中持续优化,那么产品的壁垒将不再仅仅是预训练时的算力投入,而是其在特定生态中沉淀的“经验数据”和“持续学习效率”15。
| 训练维度 | 核心范式 | 经验来源 | 能力提升逻辑 |
|---|---|---|---|
| 第一阶段 | 静态预训练 | 互联网海量数据 | 通用语言能力 |
| 第二阶段 | RLVR (可刷任务) | 数学/代码环境 | 推理与规划 |
| 第三阶段 | 持续学习 (OPSD/Dreaming) | 真实部署环境 | 行业洞察与执行决策 |
风险与伦理:通往通用智能的挑战
将学习过程开放给真实世界的反馈,虽然能带来能力的指数级跃迁,但也伴随着巨大的风险。当模型开始在部署中不断自我修改权重,如何保证系统的稳定性、防止错误经验的“恶性循环”,以及如何确保在不断更新的过程中不产生意外的行为偏差,将成为未来三至五年AI治理的核心课题15。
从人类文明进程的角度看,AI正在完成从“阅读型知识习得”到“实践型智慧积淀”的演进。当智能体不再只是被动的答案机器,而是能够通过参与生产活动来自我迭代的“数字化劳动力”时,我们所面对的将不仅仅是工具的升级,而是一个能够与人类共同进化、共同解决复杂现实问题的智能生态系统12。
引用
-
Dwarkesh Patel:下一代AI,可能是干活干出来的·机器之心·作者:关注AI训练(2026/6/28)·检索日期2026/6/29 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
程序员必藏!大模型训练革命:从RLHF到RLVR的范式转换与未来突破!·智能体开发者社区(2026/6/29)·检索日期2026/6/29 ↩︎ ↩︎
-
Dwarkesh Patel:下一代AI,可能是干活干出来的·虎嗅网(2026/6/28)·检索日期2026/6/29 ↩︎ ↩︎ ↩︎
-
RLVR 的極限與持續學習:下一代訓練範式的核心賭注·HackMD(2026/6/29)·检索日期2026/6/29 ↩︎ ↩︎
-
别死磕RL了,10篇论文解析低成本后训练神器OPD·知乎专栏(2026/6/29)·检索日期2026/6/29 ↩︎ ↩︎