22岁北大本科生带队开源世界模型？这届AI终于开始“懂物理”了

TL;DR

智源大会扔出了一枚重磅炸弹：一个正在训练的通用世界基座模型“悟界·Physis”即将开源。更炸的是，项目负责人竟然是一位22岁的北大本科生。这玩意儿不学“预测下一个词”，改学“预测下一个物理状态”了，AI终于要从“键盘侠”进化成“物理课代表”了？

当全世界的大模型还在卷谁更会“写诗、画画、编代码”的时候，有一群人突然拍桌子说：“格局小了！我们得让AI看懂这个世界是怎么转的。”

这个“我们”，就包括智源研究院，以及一位22岁的本科生——陈博远。

别人家的22岁：当北大本科生带队搞“世界模型”

在刚刚结束的2026智源大会上，最让科技圈“瞳孔地震”的，可能不是那些图灵奖得主的高深理论，而是一个稚嫩的面孔，以及他背后那个听起来就很“硬核”的项目：悟界·Physis。

别看他今年才22岁，这位来自北京大学的本科生，身份是智源研究院行为世界模型创新中心的负责人，同时也是逆矩阵科技Physis的创始人之一。[^1]

是的，你没看错。当大多数人22岁还在纠结是考研还是找工作的时候，陈博远已经在带队搞“下一代AI基座模型”了。

他带来的悟界·Physis-v0.1，号称是全球首个通用世界基座模型。这个名字取得很妙，“Physis”是古希腊语中“自然/物理”的概念，后缀“v0.1”也很诚实——智源研究院院长王仲远说了，这只是迈出了一小步，距离真正成熟的世界模型还差着十万八千里。[^2] 但这一小步，方向却可能是一个巨大的拐弯。

这玩意儿到底有啥牛的？简单说，它想让AI从“赛博世界”穿越到“物理世界”。

从“预测下一个词”到“预测下一个物理状态”，AI的“成人礼”

你可能听过一个段子：大模型跟你解释“如果往天上扔一个苹果，它会掉下来”，但你要让它亲眼看着苹果飞出去，它大概率会懵圈。因为传统的大模型本质上是个“文科生”，它的核心技能是“预测下一个词”（Next Token Prediction）。它学的是语言，是文本，是像素，但不懂物理规则。

但世界模型想当个“理科生”。它的核心能力变成了“预测下一个物理状态”（Next Physical State Prediction）。[^3]

什么意思？

你扔一个球，它不仅要“看到”球在飞，还要根据重力、空气阻力“算出来”球会在哪落地。
你推一个杯子，它要“理解”杯子会因为摩擦力而停下，而不是像幽灵一样无限滑行。
你让机器人去抓一个鸡蛋，它要知道“轻拿轻放”，不然鸡蛋会碎。

智源研究院把现在市面上五花八门的“世界模型”技术路线分成了四类，并犀利地点评了各自的毛病：[^4]

语言为中心（VLM/VLA）：学到的是“描述世界的文字”，本质上还是个“键盘侠”，不懂物理后果。
像素为中心（Sora等视频生成模型）：只会“画”这个世界，画面再精美也是“像素片”，不懂背后的物理因果。
三维结构为中心（3D重建）：搞了个精美的3D模型，但“几何结构≠物理状态”，房子盖得再漂亮，一碰就塌也不行。
视觉表征为中心（JEPA系列）：在玩“视觉信息的压缩游戏”，但“视觉嵌入的演变≠物理规律的演变”。

所以，智源给出的答案是走一条新路：在物理隐空间里搞事情。悟界·Physis不走“逐帧预测”的老路，而是把所有信息（视频、深度、触觉、3D点云）压缩成一个叫“Latent State（隐状态）”的小抄，然后在这个小抄空间里直接玩“物理规律强化学习”。[^4]

说白了，它给自己造了一个开满物理外挂的“练习场”，在里面反复推演，从而掌握了“物理一致性”、“动作因果性”这些硬核技能。这就像把AI送进了蓝翔技校，让它实操起来，而不是光看书。

具身大脑Orca：让机器人“想、看、动”一条龙

光有“大脑”还不行，还得有“身体”去实践。智源同步发布了一款正在研发中的具身大脑——悟界·RoboBrain Orca。[^1]

这玩意儿就更直接了，它就是给机器人（如物流搬运、酒店服务机器人）定制的“小脑+大脑”合体。它可以同时做三件事：语言思考、视觉预测、动作决策。官方说法叫“想、看、动”三位一体。[^3]

这意味着，未来的机器人不再是一个只会执行“走到A点，拿起B物”的死板程序。它看到桌子上的水杯，大脑会先“想”一下：“这是个杯子，里面可能有水，很滑，我得这么抓才不会打翻”，然后眼睛“看”一下最佳路径，最后“动”起来。这套流程行云流水，从“下一个Token”直接升级到“下一个物理状态”的预测。

不止于“世界模型”：智源的大礼包里还有啥？

这次智源大会干货确实不少，除了“世界模型”这个C位大咖，还有很多有意思的黑科技：

心脏诊断智能体（BAAI Cardiac Agent）：这哥们能跟安贞医院的顶尖医生比划一下心脏磁共振诊断，AUC超0.93。以后拍完片子，AI先给你来个“专家会诊”预判，这效率直接拉满。[^3]
科研智能体（AREX）：一个“科研牛马”的终极形态。从文献调研、设计实验到写论文，它都能帮你干，被官方称为比肩万亿参数旗舰模型的“自进化AI”。[^1]
专属智能体（SoulAgent）：主打一个“私人定制”。它能记住你的习惯，而且Token成本还省了30%。想象一下，你有一个永远不撂挑子、不用发工资、越用越懂你的数字助理，这谁顶得住？
FlagOS 2.1：一个“万能插头”。它能适配18家芯片厂商的32款芯片，包括华为昇腾、英伟达等，号称“发布即多芯适配”。[^5] 这波操作，完美解决了“多模型×多芯片”的适配难题。

结语：年轻人，不讲武德？

这次智源大会，除了技术本身的硬核，另一个信号也异常明显：新一代的“后浪”正在接管AI的C位。

除了陈博远，还有95后的小米MiMo负责人罗福莉，00后的香港博士生任旭滨，甚至还有初中生带着自己的Agent项目登台展示。[^3] 正如中国工程院院士王坚所说，中国和美国看到的已经是“同一片大海”。[^3] 那么，推动这片大海起波澜的，可能就是这些年轻到“不讲武德”的00后们。

当大家都在追风口、卷参数的时候，智源和陈博远们选择了一条更难但更根本的路——让AI真正理解物理世界。悟界·Physis即将开源的消息，无疑是给整个开源社区打了一针强心剂。 让我们拭目以待，看看这位22岁的“少年队长”，能否带我们闯进一个全新的物理AI时代。