TL;DR:
Luma AI首席科学家宋佳铭是一位对视频生成AI未来拥有深刻洞察的拓荒者,他坚信行业正从单纯追求画面生成转向对现实世界的“理解与推理”能力,并积极推动多模态大一统模型成为核心范式。通过果断的战略转型和对技术本质的深刻把握,他正带领Luma AI构建下一代AI基础设施,旨在实现更具智能与商业价值的AI应用。
在人工智能浪潮汹涌的今天,无数公司与研究者争相追逐着技术的下一个“奇点”。然而,在喧嚣之中,总有少数人能以超越时代的眼光,洞察潮流之下的深层涌动。Luma AI的首席科学家宋佳铭,无疑是这样一位预言家与实践者。他那句掷地有声的预判——“如果2026年还只盯着视频生成本身做迭代,是不够的”1——不仅划定了Luma AI的未来航向,也为整个视频生成AI领域敲响了警钟。他所描绘的未来,是一个从“生成”到“理解”的范式转变,一个由“多模态大一统”模型主导的全新时代。
预见未来:从“生成”到“理解”的范式转变
宋佳铭的思考,总是超越眼前的繁华,直抵技术的本质。当行业还在竞相“卷”更长的时长、更好的画质时,他已看到更深层的挑战与机遇。在他看来,视频生成模型的下一阶段,核心不是画面本身,而是模型对_现实世界的理解与推理能力_。
他用一个极具画面感的电影制作场景来解释这一复杂理念:
“在现实拍摄中,剧组会同时架好几个机位,分别拍多个演员的不同角度。假如收工以后导演突然发现,忘了拍一个俯视下来的总览镜头,需要AI‘补拍’一个。这时候,如果你只用传统的视频生成模型,它大概率会‘发挥想象力’生成一个看起来还行的俯视镜头,但细看会发现:人物位置、背景物体的布局和之前的机位可能对不上。而在我们定义的视频推理任务里,模型需要先做的不是‘生成’,而是‘理解和推理’:它要从不同机位的素材中,找到同一个背景物体在不同视角中的对应关系,推理出每个演员、每件道具在统一三维空间里的位置,然后再从一个全新的俯视视角,生成一段物理上合理、镜头运动自然、和前面镜头无缝衔接的视频。”1
这种“补拍”能力,正是视频推理模型的独特价值,也是其能够被专业影视、广告等B端客户买单的基础。而实现这一能力的关键,宋佳铭指出,在于采用语言、图像与视频数据训练“多模态大一统”模型。因为多模态融合能提供更丰富、多元的数据量,推动模型能力从简单的“生成”升级到更深层的“理解”。他坚信,正如图像生成领域在2024年走向多模态统一架构一样,视频生成模型也将在2025年复现同样的收敛过程,竞争焦点将从架构设计转向高质量数据收集1。
Luma AI的演进之路:战略转向与市场洞察
Luma AI的成长轨迹,正是宋佳铭这种前瞻性思维的生动注脚。这家成立于2021年的公司,并非一蹴而就。它从3D生成起步,却在实践中发现其商业化存在局限性。“当时的3D生成技术,无论从质量还是应用场景都比视频弱一些,”宋佳铭坦言,3D数据稀缺,且AR/VR生态尚未成熟到需要AI大量填充内容的阶段。因此,Luma AI在2023年底果断转向市场空间更大的视频生成模型1。
这一战略转型迅速带来了突破。2024年6月,Luma AI推出面向C端用户的Dream Machine,以其“电影级运镜和生成效果”迅速吸引百万用户,甚至被誉为“能与Sora叫板的视频生成模型”1。然而,Luma AI并未沉溺于C端的热度。宋佳铭清醒地认识到,Sora 2等模型在社交媒体上的“玩梗热潮,并不意味着视频模型的To C时代已经到来。”1
他对此有着深刻的商业逻辑洞察:
“C端用户玩视频生成,很容易腻,也不一定有稳定的付费意愿;而B端客户——比如影视公司、广告公司、内容制作方——一旦发现某个AI能在他们的主流程里节省大量人力、时间和硬件投入,他们的付费意愿和粘性会远高于C端。”1
他甚至援引了A16z合伙人Olivia Moore的数据,指出Sora 2在30天的留存率仅为1%,远低于TikTok的30%,这都侧面印证了C端商业模式的挑战。因此,Luma AI迅速将重心转向付费意愿更强、需求更刚性的B端专业用户,并在今年9月推出了全球首个视频推理大模型Ray 3。这并非终点,宋佳铭明确表示,Ray 3很可能将是Luma最后一代传统视频生成模型,公司已将“多模态大一统模型”确立为下一阶段的核心方向1。Luma AI的每一次关键抉择,都并非盲目追随风口,而是基于对技术趋势和商业本质的深刻理解。
技术护城河与“大一统”的终局思考
在宋佳铭的眼中,视频生成领域目前并没有所谓的“绝对护城河”1。他认为,算法层面近两年并没有出现颠覆级的新结构,真正的差异体现在_迭代速度和工程实现_上。他强调:
“真正拉开差距的是谁能在大规模上把这套东西‘跑通又跑稳’,而不是‘谁先想到了这个点子’。”1
面对视频模型远超语言模型的庞大数据量(几PB或几十PB),获取、清洗、对齐数据并让模型从中真正学习的能力,才是真正的挑战。他拒绝简单评判“谁是世界最强模型”,因为“技术路线还在摸索”,更关键的是“客户在实际工作流里到底要什么功能”。他骄傲地指出,在专业制作需求至关重要的HDR方面,Luma AI目前“独此一家”1。
宋佳铭将多模态大一统视频模型视为通往AGI(通用人工智能)的关键一步。尽管他对AGI的标准异常严苛,不满足于AI在某个维度超越人类,但他认为:
“多模态大一统视频模型对于AGI的意义,就在于最终能把对现实世界的理解和操作能力,从纯语言空间扩展到视觉、动作、时间这几个维度。”1
他预言,视频和多模态大一统的赛道,最终将像语言模型一样收敛到少数几家头部公司,形成高度集中的格局。他将这一趋势比作足球俱乐部的“青训和球探体系”,创业公司必须具备在市场共识形成之前,就发现和支持人才的能力1。这种对产业终局的清醒认知,使得Luma AI的战略布局更具长远性与侵略性。
融资、算力与人才:构建“未来基座”
Luma AI近期完成的9亿美元C轮融资,无疑是对宋佳铭及其团队愿景的强力认可。本轮由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等老股东大额加注,按40亿美元估值完成,这不仅是对Luma AI过往成绩和迭代速度的验证,更是投资人对“下一个基座模型玩家”的长期押注1。
宋佳铭透露,这笔巨额资金的绝对大头将投入到_算力建设_。Luma AI将作为核心客户,采用HUMAIN在沙特建设的2GW人工智能超算集群“Project Halo”,用于训练下一代多模态世界模型,进一步提升视频推理与大一统模型的能力1。此外,资金也将用于人才和基础设施建设,扩充工程和系统团队,以确保模型能“跑得更稳、更快、更便宜”。
在团队建设上,宋佳铭秉持着一套独特的哲学。Luma AI约有130人,其中30%-40%为技术研发。公司没有传统意义上的产品经理,而是将“产品思考”分散到兼具工程能力和用户场景理解的成员身上。在招人时,他个人最看重三点:写代码能力足够扎实、学习速度快、以及自驱力和对这件事的长期兴趣1。这种对核心技术能力、自我驱动和对AI未来深层信仰的看重,塑造了Luma AI独特的人才文化。
宋佳铭,这位在人工智能前沿领域运筹帷幄的科学家,他的故事远不止于技术和融资。他是一位真正的思想者,始终在探寻技术演进的底层逻辑与商业价值的契合点。在Luma AI的征程中,我们看到的是一个由远见、务实和持续突破精神所驱动的创新样本。他所勾勒的多模态大一统与推理能力的未来,不仅是Luma AI的未来,也可能是整个视频生成AI行业,乃至AGI演进的重要篇章。他不是在追逐风口,而是在为风口提供方向,为未来打下基石。