超越刷题的智能：当AI训练范式从“静态预训练”走向“部署后持续经验进化”

TL;DR：

下一代AI训练范式正从单一的“可验证奖励强化学习”（RLVR）向“持续学习”演进，核心在于将模型在真实世界交互中的经验通过自蒸馏和模拟梦境（Dreaming）写入权重，从而打破AI的能力增长瓶颈。

技术突破的本质：从RLVR到持续进化的“经验闭环”

当前，以DeepSeek R1、Kimi K1.5等为代表的推理模型，标志着人工智能已经进入“RLVR（可验证奖励强化学习）”时代¹²。这种范式的核心逻辑在于：利用数学、代码等具备“可验证性”的任务，通过大规模并行试错，让模型习得深度推理、规划与纠错能力。然而，如科技播客主持人Dwarkesh Patel所言，RLVR的局限性在于其对任务环境的“可刷性”要求极高¹³。

当AI试图跨越代码与数学的围墙，进入商业管理、法律诉讼或复杂组织协作等“真实世界任务”时，环境的不可重置性、反馈的滞后性以及变量的高度不确定性，使得传统的并行强化学习失效。我们正站在技术变革的十字路口：下一代AI训练的核心，不再仅仅是堆叠参数，而是如何让模型在“真实工作中学习”，并将这些瞬间的经验转化为永久的权重更新¹⁴。

经验的沉淀：从“上下文窗口”到“权重重塑”

长期以来，大模型依靠“上下文学习（In-Context Learning）”来适应特定用户或业务需求。然而，这种学习具有极强的挥发性，会话结束后经验往往随缓存消散。Dwarkesh Patel提出的“Learning back to the weights（把学习写回权重）”概念，本质上是要求AI从“短期记忆”向“长期直觉”跨越¹³。

为了实现这一目标，两个关键方向正在浮现：

策略自蒸馏（On-policy Self-distillation, OPSD）：通过让模型在长时间会话中沉淀出的“高阶判断力”充当教师，将这种经验以概率分布差异的形式蒸馏回基础模型。这不仅仅是模仿，而是将模型在复杂任务中摸索出的决策逻辑“压缩”进神经元连接之中¹⁴。
模拟梦境（Dreaming）与测试时训练：类比人类在工作之余的“反思”过程，AI在完成任务后，基于自身观察构造虚拟模拟环境，进行反复的“博弈演练”。这种被称为“测试时训练（Test-time Training）”的新维度，使模型能够摆脱初始预训练数据的束缚，在部署阶段获得独立于人类数据之外的二次生长能力¹³。

产业格局与商业版图的重构

这一范式的切换将彻底重塑AI的商业价值评估体系。如果AI能够通过在客户企业内部的真实运行中持续优化，那么产品的壁垒将不再仅仅是预训练时的算力投入，而是其在特定生态中沉淀的“经验数据”和“持续学习效率”¹⁵。

训练维度	核心范式	经验来源	能力提升逻辑
第一阶段	静态预训练	互联网海量数据	通用语言能力
第二阶段	RLVR (可刷任务)	数学/代码环境	推理与规划
第三阶段	持续学习 (OPSD/Dreaming)	真实部署环境	行业洞察与执行决策

风险与伦理：通往通用智能的挑战

将学习过程开放给真实世界的反馈，虽然能带来能力的指数级跃迁，但也伴随着巨大的风险。当模型开始在部署中不断自我修改权重，如何保证系统的稳定性、防止错误经验的“恶性循环”，以及如何确保在不断更新的过程中不产生意外的行为偏差，将成为未来三至五年AI治理的核心课题¹⁵。

从人类文明进程的角度看，AI正在完成从“阅读型知识习得”到“实践型智慧积淀”的演进。当智能体不再只是被动的答案机器，而是能够通过参与生产活动来自我迭代的“数字化劳动力”时，我们所面对的将不仅仅是工具的升级，而是一个能够与人类共同进化、共同解决复杂现实问题的智能生态系统¹²。

引用

Dwarkesh Patel：下一代AI，可能是干活干出来的·机器之心·作者：关注AI训练（2026/6/28）·检索日期2026/6/29 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
程序员必藏！大模型训练革命：从RLHF到RLVR的范式转换与未来突破！·智能体开发者社区（2026/6/29）·检索日期2026/6/29 ↩︎ ↩︎
Dwarkesh Patel：下一代AI，可能是干活干出来的·虎嗅网（2026/6/28）·检索日期2026/6/29 ↩︎ ↩︎ ↩︎
RLVR 的極限與持續學習：下一代訓練範式的核心賭注·HackMD（2026/6/29）·检索日期2026/6/29 ↩︎ ↩︎
别死磕RL了，10篇论文解析低成本后训练神器OPD·知乎专栏（2026/6/29）·检索日期2026/6/29 ↩︎ ↩︎