TL;DR:
作为字节跳动视频生成模型Seedance 2.0的预训练负责人,1997年出生的曾妍在五年内实现了从校招生到L7级高级研究员的惊人跨越。她通过在模型底层构建“多粒度对齐”与“音画同步”的基石,不仅解决了视频生成的动态性冲突,更在AI重塑内容产业的巨浪中,为中国女性AI科学家立起了一座新的坐标。
在字节跳动位于北三环的工位里,1997年出生的曾妍并不显眼,她年轻得像是个刚转正的管培生。但在字节的核心战略版图上,她的名字与年包超过500万的4-2职级(L7级别)紧紧绑定在一起。如果说Seedance 2.0是一个能让全球短视频创作者颤抖的“超级导演”,那么曾妍就是那个为这位导演注入灵魂、搭建世界观的人。
在AI圈,女性科学家往往被视为稀有的点缀。前有小米的“天才少女”罗福莉,后有在字节深耕五年的曾妍。但与罗福莉穿梭于大厂与创业公司的灵动不同,曾妍在字节跳动内部走出了一条极简且极速的直线——从算法工程师到Seedance 2.0的预训练负责人,她用了不到五年的时间,教会了AI如何让像素在光影与旋律中优雅地“跳舞”。
既见森林,又见树木:预训练的“世界观”
在大多数人眼中,大模型的预训练就像是“喂数据”,是一项枯燥的体力活。但在曾妍的认知里,预训练是模型“基石”的铸造,它决定了AI理解这个物理世界的上限。
2021年,刚从加拿大蒙特利尔大学计算机硕士毕业的曾妍进入字节AI Lab。入职仅两个月,她便作为第一作者发表了关于X-VLM模型的论文。当时,视觉语言模型正处于两个极端:要么只能看懂海滩这种“大场面”,要么只能死磕局部物体。曾妍提出的“多粒度对齐”理论,打破了这种僵局。
“她有一种极其罕见的直觉,”一位曾与她合作过的研究员回忆道,“她能在海量杂乱的数据中,找到让AI‘既见森林,又见树木’的平衡点。”这种从整体到局部、从粗糙到精细的对齐思想,成为了她后来执掌视频模型预训练的底层逻辑。
视频生成本质上是个多维度的噩梦。要在每一帧画面的变幻中保持人物面容不崩坏、动作符合物理规律,还要在跨越一分钟的时序里让叙事逻辑连贯,这需要极其精密的预训练策略。曾妍不仅在喂数据,她是在制定规则。
“舞者”的平衡术:从PixelDance到Seedance
2023年是字节技术战略的转折点,Seed部门成立,曾妍随之转型。那年年底,她的一篇名为《如何让像素跳舞》的论文引起了业内轰动。这正是Seedance的前身——PixelDance。
当时的视频生成模型大多面临一个致命伤:动态性与稳定性的互斥。动作幅度大了,画面就会像灵异电影一样崩坏;为了稳定,生成的视频又僵硬如幻灯片。曾妍团队的突破在于,他们在预训练阶段就引入了“首帧+末帧”的双图像指令约束。
这就像是训练一个舞者,传统的做法是让她走一步看一步,而曾妍则是从一开始就告诉她:你的起点在这,终点在那,无论你如何旋转跳跃,中心位永远不能偏离。这种从源头锚定状态的技术,让Seedance 2.0在2026年发布时,凭借电影级画质和多镜头叙事能力直接引爆全网,甚至一度引发了海外派拉蒙、迪士尼等巨头的版权警觉 1。
更让人惊叹的是Seedance 2.0的“原生音画协同”。在曾妍主持设计的双分支扩散变换器架构下,模型不再是先生成画面再配音,而是在生成画面的那一秒,就同步“想”好了对应的音效与情绪。这种“音画同频”的直觉,正是她在海量抖音短视频数据中,通过精细调优后的成果。
不同的路径,相同的“平衡点”
业界常将曾妍与小米的罗福莉相提并论。
罗福莉在DeepSeek和小米展现的是一种极致的“性价比之王”风范。她能在性能与成本之间找到那个让大厂老板心动的平衡点,通过MoE架构和资源管理系统,让昂贵的算力变得平易近人。
而曾妍的平衡点,则在于技术与产品的转化。在字节跳动这个讲究“敏捷迭代”的赛场上,曾妍不仅仅是个学者,她更像是一个开餐厅的厨师。她主导的项目,从研究原型到即梦、豆包等产品的上线,转化效率高得惊人。Seedance 2.0生成一分钟高清视频仅需60秒,比前代快了30%,每一个百分点的提速,背后都是她在预训练阶段对计算冗余的近乎偏执的剔除 2。
罗福莉选择了在大厂与创业潮中跃迁,而曾妍则选择了在字节这个庞大的生态位上,像一棵树一样向下扎根,向上生长。五年时间,一年两跳,29岁即登顶核心技术骨干职级,这背后不仅是个人的天赋,更是她对视频生成这条赛道爆发式红利的精准捕捉 3。
争议与未来:在浪尖上的Gen Z科学家
当Seedance 2.0因为生成的画面过于逼真而遭遇版权风波,甚至导致字节暂停全球推广计划时,曾妍的名字也随之出现在了商业评论的浪尖。这位1997年出生的科学家,必须开始面对技术之外的复杂世界——版权、治理、以及AI对人类创作边界的侵蚀。
但在曾妍的世界里,那些像素的跳动或许依然是纯粹的物理方程。从西安交通大学的本科生到如今年薪数百万的行业旗手,她的故事缩影了这一代中国AI人才的特征:极早的学术视野、极强的工程实现能力,以及在资源高度集中的巨头体系内,用算法改变现实的野心。
她曾说,预训练是给模型一个世界观。而现在,她正用自己亲手调优的模型,试图给全球内容产业重新定义一种可能:当AI学会了“导演直觉”,人类的创造力该往何处安放?
她的故事才刚刚开始,而那场像素的舞蹈,早已停不下来。
引用
-
传Seedance 2.0预训练负责人曾妍晋升字节4-2,一年内完成二连跳 · ChooseAI工具导航 · 苗正 (2026/3/24) · 检索日期2026/3/24 ↩︎
-
Seedance 2.0 正式发布 · ByteDance Seed · Seed团队 (2026/3/24) · 检索日期2026/3/24 ↩︎
-
字節的「羅福莉」,撐起了Seedance的半邊天 · 富途资讯 · 苗正 (2026/3/24) · 检索日期2026/3/24 ↩︎