吴翼:从奶茶爱好者到具身智能布道者,用强化学习“智”造未来

温故智新AIGC实验室

TL;DR:

吴翼,这位自称“高能量I人”的清华AI助理教授,以其独特的“奶茶哲思”和“强化学习式”人生,在AI“无人区”中深耕智能体与具身智能。他坚信AI创新源于深度思考和快速试错,并以极简主义重塑团队形态,旨在构建能真正理解人类、服务长程任务的未来智能。

在杭州机器人学术会IROS的间隙,一张照片捕捉到了吴翼轻松的笑容——他手捧一杯奶茶,这与他在学术演讲台上谈及具身智能与强化学习时的严谨形象形成了鲜明对比。这位清华大学交叉信息学院的助理教授,不仅是AI前沿的探索者,更是一位充满人文色彩的“高能量I人博导”,用他独有的方式,诠释着技术与人性的交织。

深入“无人区”的拓荒者:理念与行动

吴翼的职业生涯,本身就是一场“强化学习”的实验,充满了探索与迭代。他坚信,“创新就是要到无人区去”,这不仅是他的科研信条,更是他人生选择的底色。

2018年,当许多人还在犹豫时,吴翼在结束了字节跳动的实习后,果断决定回国。他敏锐地捕捉到了中国科技发展的巨大机遇,同时也清醒地认识到华人在美国职业发展的“天花板”。面对抉择,他有一套独特的“抛硬币”哲学:“硬币落地之前,其实心理就已经知道答案了。”1 这份直觉与果决,不仅促成了他回清华任教的决定,更像是一颗火种,点燃了“伯克利四子”其他三位学者的归国热情,共同投身于AI这片热土。

“我最不喜欢听的借口就是‘没有资源,所以工作没法做’,因为从0到1的本质,正是创造资源。” 吴翼如此强调。这份创业者特有的锐气,源于他亲身创办AI Agent公司边塞科技的经历。尽管早期团队在选人上“踩了不少坑”,但他从未停止在试错中成长的步伐。他观察到,真正的AI创新不能寄希望于“多点布局‘赌一把’”,而是需要对方向有“坚信”,源于“深度的思考与长期的坚持”。2 这也是他在外滩大会上阐述的产品观:做出来就赶紧发布,快速获取市场反馈,哪怕失败,也能从中汲取教训,实现快速迭代。这种对“从0到1”的极致追求,使得他坦言,即使要隐姓埋名,只要能建立一个伟大的公司,他亦心甘情愿。

智能涌现的架构师:具身智能与强化学习

在吴翼的视野中,AI的未来并非止步于大模型的强大语言能力,而是将走向更为广阔的“智能体”时代。

他描绘了一个引人入胜的未来图景:智能体不仅能理解人类模糊的意图,完成长程任务,更将最终从数字世界走向物理世界,成为具身智能的“大脑”。在今年WAIC的演讲中,他举例说,未来只需对机器人说“整理一下房间”,它便能自主规划,妥善完成数小时的任务。2

而实现这一宏伟愿景的核心,吴翼指向了强化学习

“强化学习的训练特点是让AI自己在实践中学习,这更能训练出很聪明的人工智能。”

与传统的监督学习不同,强化学习让AI在与环境的交互中自主探索,培养出自我迭代的能力,这对于执行长时间、复杂任务的智能体至关重要。他将强化学习的要素比作“老师辅导高中生做数学题”:Prompt是“老师出的题”,搜索和探索是“学生解题的能力和过程”,而Reward Model则是“老师给的反馈”。这其中,“如何出恰到好处的题”,即创造高质量的Prompt,是最大的挑战。

对于具身智能体,吴翼提出了一种分层融合的设想:一方面是传统的强化学习擅长的运动控制(Locomotion),它能让机器人在物理世界中灵活运动;另一方面,则是与预训练大模型结合的、用于长程推理和规划的强化学习技术,这部分将作为“大脑”为具身智能体提供常识和决策能力。他认为,当前物理世界的硬件挑战虽多,但终有一天,当底层物理世界实现高度数字化后,具身智能的核心技术挑战将与数字世界趋同。

“高能量I人”的极简主义:个人与团队哲学

在专业领域深度钻研的吴翼,在社交媒体上却展现出意想不到的一面。他会在小红书上分享科研进展,积极回复AI求职者的问题,甚至会认真评选“Top5奶茶口味”,并为喜欢的奶茶品牌拍照打卡。他自称“高能量I人博导”,这种幽默而真实的自我定位,折射出他鲜活的生命力和对生活的洞察。

这份对极简和高效的追求,也体现在他的团队管理哲学中。在AReaL团队中,吴翼倡导一种全新的、极简的组织形态。他认为,在AI时代,许多过去需要多人协作的工作,现在可能“是一个人和AI就可以的”。

“我认为如果组织内可以做到大量AI化,那能力一定是可以溢出的。”

他的团队将算法和基础设施(Infra)团队紧密组合,形成“全栈团队”,打破传统组织中算法与工程的分界。他指出,OpenAI的成功并非源于惊天算法,而是“把很多细节做到很强”,这需要算法工程师亲身投入到基础设施和数据处理的“脏活累活”中,从而获得最底层的洞察和创新所需的自驱力。这种“小而有战斗力”的团队理念,是他应对AI时代快速变化和激烈竞争的独特策略。

从一个在伯克利深造的优秀学者,到回国成为清华的年轻博导,再到亲身参与AI创业,吴翼的人生轨迹完美诠释了“强化学习”的精髓——在不断探索、试错和反馈中迭代成长。他不仅是一位硬核的AI科学家,更是一位对未来充满坚定信念的布道者,用他独特的方式,引领着我们走向一个更懂人类、更智能涌现的时代。他那杯不离手的奶茶,或许正是他内心深处,对生活和科研保持热情与好奇心的最佳注脚。

引用


  1. 一堂「强化学习」大师课|对谈清华叉院助理教授吴翼·Apple Podcasts·(2025/11/24)·检索日期2025/11/24 ↩︎

  2. 最爱喝奶茶的AI科学家,要做最能懂你的“智能体”·36氪·富充,苏建勋(2025/11/24)·检索日期2025/11/24 ↩︎ ↩︎