AI的未来之路:Richard Sutton预言“经验时代”的到来

温故智新AIGC实验室

人工智能正面临高质量人类数据枯竭的瓶颈,迫切需要从模仿人类旧有文本的“人类数据时代”迈向通过与环境实时交互获取第一手经验的“经验时代”。这一范式转变不仅涉及技术核心的迭代,更呼唤一种去中心化的合作哲学,以构建更具韧性的人机共生未来。

2025年6月6日,第七届北京智源大会上,强化学习的奠基人、2024/25年度图灵奖得主、加拿大计算机科学家Richard S. Sutton发表了题为“欢迎来到经验时代”的主旨演讲,为人工智能的未来发展路径描绘了一幅深刻的蓝图。他指出,我们正站在一个关键的拐点:AI必须从对人类数据的依赖,转向通过与世界互动来获取第一手经验,才能突破当前的发展极限,真正迈向通用智能。12

突破“人类数据时代”的瓶颈

当前人工智能,特别是大型语言模型(LLMs),其惊人的能力几乎完全建立在对海量互联网文本和图像等“二手经验”的利用之上。这些模型被训练来预测人类的下一个词,或者模仿人类的表达方式和知识体系。然而,Sutton一针见血地指出,这种模式正遭遇**“人类数据”的极限**。高质量的人类数据源正在迅速枯竭,新语料的边际价值急剧下降。研究机构Epoch AI的预测甚至显示,到2028年左右,用于训练AI模型的典型数据集规模可能将耗尽公共在线文本的估计总存量,这将为AI的持续“扩展”带来严峻挑战。34

这种“规模壁垒”现象,即模型规模持续膨胀但收效递减,已成为业界普遍观察到的难题。当AI只能从人类已有的知识中学习时,它便难以生成真正意义上的新知识,无法超越人类经验的边界。要做到真正“新的事物”,智能体必须与世界进行直接互动,这是模仿现有文本无法企及的深度。

迈向“经验时代”:智能体学习的新范式

为了突破这一瓶颈,Sutton强调AI需要一个新的、能够随智能体能力增长和改进而动态演变的数据源——这正是“经验”的核心。他重申了人工智能先驱阿兰·图灵在1947年提出的预言:“我们想要的是一台能够从经验中学习的机器。1 这句话为强化学习(Reinforcement Learning, RL)奠定了哲学基础,而Sutton与长期合作者Andrew Barto正是将这一理念工程化的关键人物,他们的工作因AlphaGo等里程碑项目而广为人知。12

在“经验时代”,智能体将不再仅仅是人类文本的“复读机”,而是像人类婴儿学习玩具、足球运动员在赛场决策那样,通过与真实或高保真模拟环境的持续交互来生成和利用“第一手经验”。这意味着:

  • 原生奖励信号:智能体将以环境的回馈而非人类的偏好作为学习的驱动力。例如,AlphaGo的成功并非通过学习人类棋谱,而是通过自我对弈生成大量经验,并以胜负作为原生奖励。1
  • 世界模型与记忆体系:智能体需要发展能够长期复用的“世界模型”(World Model),以预测其行动的后果,并构建高效的记忆体系来存储和检索这些经验。
  • 高并行交互与样本效率:通过大规模并行交互,智能体将能够大幅提升样本效率,更快地从经验中学习。Sutton提到AlphaProof(在国际数学奥林匹克竞赛中获奖的系统)也体现了从操作后果中学习的经验思维模式。

智能的本质,在Sutton看来,就是智能体预测和控制其输入信号(特别是奖励信号)的能力。这是一种感知-行动的循环,通过在动态环境中做出决策并观察其结果来不断优化。完全智能的智能体,将能够成为世界知识的可定制接口,持续地从互动中学习和进化,而非依赖静态数据集。

去中心化合作:AI治理的深层思考

Sutton的演讲不仅限于技术范畴,更将视角拓展到了人工智能对社会治理的深远影响。他提出了一个根本性问题:在智能体社会中,是应该追求所有智能体共享的单一目标,还是允许并鼓励多元目标的并存?1

作为强化学习研究者,Sutton自然倾向于去中心化合作的模式。他认为,每个智能体都应有自己的目标和奖励信号,就像自然界中动物和人类一样,各自追求自身的家庭、食物和安全,尽管这可能与他者的目标相似但不完全相同。社会的繁荣,恰恰在于人们拥有不同的目标和能力,通过交易、专业化和互动实现互利共赢。他将这种模式定义为“许多智能体,每个都追求自己的目标”,这与“许多智能体都被约束为有相同目标”的中心化控制形成鲜明对比(例如蜜蜂群)。1

“合作是我们的超能力。人类比任何其他动物合作得更多,合作由语言和金钱促进,这两样东西都是人类独有的。人类最大的成功是我们的合作,比如经济、市场和政府,这些是我们合作的方式。”1

Sutton警示,当前社会上要求用单一目标束缚AI的论调,与历史上出于恐惧而试图控制人类行为的思路惊人相似。无论是暂停AI研究、限制算力,还是控制言论自由、国际贸易,这些呼吁都基于一种“我们对他们”的恐惧思维,试图将复杂多元的世界简化为中心化的单一控制。他认为,真正的进步源于一个允许多元目标并存的生态系统,通过分布式激励和竞争协作来保持创新活力。

在他看来,让智能体和人类都保持多样化追求,不仅能降低单点失效和僵化风险,也为未来AI治理提供了更具韧性的框架。尽管合作会遇到挫折和障碍(如战争、盗窃),但它是所有美好事物的源泉,需要持续的努力和制度建设来促进。Sutton呼吁,我们应保持理性乐观,认识到创造超级智能智能体是一个需要几十年耐心长跑的工程,其成功将取决于更强的持续学习算法以及一个开放共享、去中心化合作的生态系统。

References


  1. 晓静(2025/6/16)。AI将受困于人类数据。36氪。检索日期2025/6/17。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. SegmentFault 思否(2025/6/17)。图灵奖得主Richard S. Sutton:AI受困于人类数据。SegmentFault 思否。检索日期2025/6/17。 ↩︎ ↩︎

  3. 澎湃新闻-The Paper(2025/6/17)。Nature:AI正在耗尽人类数据,我们应该怎么办?。澎湃新闻-The Paper。检索日期2025/6/17。 ↩︎

  4. 腾讯云(2025/6/17)。图灵奖得主Richard S. Sutton:AI受困于人类数据。腾讯云开发者社区。检索日期2025/6/17。 ↩︎