像素的炼金术:AI视频的商业化,一场关于耐心与算力的豪赌

温故智新AIGC实验室

TL;DR:

全球AI视频生成领域正经历一场技术与商业的激烈角逐,尽管中国头部企业如快手可灵和字节即梦已初步实现营收,但核心技术瓶颈(如一致性、运动性)和高昂的试错成本,使大规模商业化盈利仍遥不可及。资本市场趋于谨慎,行业焦点正从纯粹的技术突破转向深度的生态融合与应用优化,预示着未来竞争将是平台与创作者生态的全面较量。

“黄金时代”的曙光似乎近在咫尺,但现实却泼来一盆冰水。在过去一年里,全球科技界对AI视频生成的狂热追捧,让无数投资者和创业者相信,我们正站在一个价值数万亿美元新市场的边缘。从OpenAI那惊鸿一瞥的Sora,到国内各路诸侯的群雄逐鹿,视频生成赛道的热闹程度,堪比上世纪末硅谷的互联网泡沫。然而,当镜头拉近,仔细审视那些光鲜亮丽的宣传片背后,真正的商业变现之路,却远比想象中要曲折与泥泞。

谁在淘金,谁在掘金?

这是一场没有硝烟的军备竞赛。年初至今,快手的可灵、字节的即梦、阿里的万相、腾讯的混元,以及初创企业如生数科技的Vidu和MiniMax旗下的Hailuo 02,纷纷亮出底牌,迭代速度令人目不暇接。这些模型在语义响应、画面质量乃至美感上都实现了“质的飞跃”,让“肉眼可见的商业前景”成为了各家财报发布会上最动听的旋律。

快手在此轮竞争中抢得了先机。其可灵AI事业部直接向CEO程一笑汇报,并于第一季度财报中被重点提及,贡献了超过_1.5亿元_的营收,股价也应声上扬,涨幅一度超过30%1这得益于其惊人的产品化速度与先发优势。据全球大模型整合应用平台Poe数据显示,今年1月至5月,可灵系列大模型的使用份额已超过30%,超越了行业先驱Runway和谷歌的Veo-2。1彼时,其能生成1080P清晰度的视频,效果稳定,让诸多竞争者望尘莫及。

然而,在这个技术日新月异的领域,“独领风骚”不过是片刻的光景。很快,腾讯混元、阿里通义万相和MiniMax旗下的海螺视频App便加入战局。更引人注目的是,即便是那些在大模型混战中一度“掉队”的巨头,也总能在某个关键节点重新定义游戏规则。今年5月,谷歌凭借Veo 3模型,首次实现了AI视频的音画同步,一举打破了“无声尴尬”,划定了行业新标准,也让它重回了技术突破的“头号玩家”宝座。

但快手真正的“宿敌”始终是字节跳动。去年可灵的“断崖式领先”曾让字节颇为被动,但即梦AI凭借其在苹果应用商店免费App下载榜上的短暂登顶,以及对创作者社区的大力投入,正在悄然追赶。据QuestMobile数据显示,截至2025年3月,即梦AI月活用户数达到893万,远超可灵AI的180万1这种用户规模与商业营收上的策略差异,正勾勒出两巨头不同的商业化路径:字节更倾向于通过规模效应和生态捆绑,吸引更广泛的用户;而快手则将重心放在专业用户渗透和营收增长上。

梦想为何迟迟未至?

尽管舞台上锣鼓喧天,幕后的创作者们却有着清醒的认识。他们普遍认为,AI视频模型距离真正“解放”生产力,还有很长的路要走。尽管量子位智库的数据显示,AI生成视频的成本(每分钟约300美元)远低于传统顶级动画电影(每分钟约200万美元),1但这种“便宜”往往是幻觉。

症结在于AI视频生成实用性差且成本不可控。正如从事AI视频广告导演的六六所言:“AI视频按使用次数付费,但输出效果不够稳定,想要达到理想效果要不断试,其实成本并不可控。”1这意味着,用户看似支付了低廉的单次生成费用,却可能因反复试错而付出高昂的“隐性成本”。

更深层次的问题在于核心技术瓶颈。从事AI视频软件研发的陈典指出,“一致性”是当前最大的难题。在一个连贯的视频片段中,场景、人物特征需要保持统一,但AI在多次生成时却常出现南辕北辙的情况。这并非AI“健忘”,而是因为视频生成除了要处理静态图像的空间一致性,还必须在时间维度上维持连贯性,其复杂度呈几何级数增长。此外,生成电影级、具备强交互感的运动镜头,对AI而言仍是“难上加难”。正如陈典所观察到的,目前市面上绝大多数AI视频,无非是“动态PPT”——镜头固定不动,仅靠AI生成一些炫酷特效。1

即使在当下火热的短剧市场,AI的效用也大打折扣。短剧导演郭璞算了一笔账:传统真人拍摄一集1分钟的短剧成本约1万-2万元,而使用AI,即使算力支出也需数千元,还不包括反复试错的人力与时间成本。更重要的是,目前成功的AI短剧项目更多停留在“引发讨论”的层面,票房收益表现平平,导致投资方普遍采取“小步试水”的谨慎策略,单笔投资控制在20万元左右。1

这些困境的核心在于技术升级已进入瓶颈期。某算法从业人员王蒙指出,去年各大厂商还在集中提升模型生成能力,如今却遭遇明显瓶颈。这背后有“三座大山”:

  • 架构局限:视频模型与文本模型类似,存在长度限制。随着生成帧数的增加,模型会逐渐“遗忘”前面生成的历史帧信息,导致“记忆错乱”,目前市面模型最多只能生成5-10秒片段。1
  • 算力限制:保持视频一致性需要追踪海量信息,这让视频模型成为各大厂商的“算力黑洞”。以1920x1080分辨率为例,每帧都包含数百万像素点及其复杂的物理属性数据,数据量呈指数级增长,现有计算资源难以满足。1
  • 训练数据稀缺:高质量、长时长的视频训练数据获取难度极大,而短视频平台充斥的“垃圾信息”进一步加剧了这一问题。

下一个战场何在?

当技术突破的号角逐渐变得微弱,行业重心便悄然转向了应用落地。厂商们开始将更多资源投入到多模态支持、产品易用性、工作流优化等环节,力求将现有技术能力更好地赋能创作者。快手可灵3.0和字节即梦3.0的最新版本,都将重心放在了拓展多模态支持能力上。

未来AI视频“新王”的加冕,将不再是纯粹技术实力的比拼,而是生态融合能力的较量。字节跳动凭借其庞大的内容生态系统——抖音、TikTok两大流量平台,以及红果短剧这一分发渠道,无疑拥有得天独厚的优势。加之火山引擎大模型在剧本创作、声音克隆、视频渲染等方面的全面赋能,其内容生产与分发能力有望形成强大的“商业飞轮”。1

快手则另辟蹊径,选择在创作者生态方面深耕。近期,可灵通过举办全国性创作大赛,辅以奖金激励和资源扶持,筛选并培养优质创作者,甚至投资S级短剧项目,旨在激发创作者活力,构建稳固的“护城河”。1

这不仅仅是技术竞赛,更是一场关于谁能更高效地烧掉算力、谁能更巧妙地赢得人心的商业策略之战。在当前阶段,AI在视频制作领域,目前更像是那位充满抱负但手艺不精的学徒:它能快速地勾勒出宏伟的蓝图,但要完成精雕细琢的传世杰作,仍需漫长的时间,以及难以估量的资本投入。视频大模型的商业化,仍是一个等待被耐心浇灌的梦。

引用


  1. 靠视频大模型赚钱,还是个梦·财经天下WEEKLY·豆蔻(2025/7/15)·检索日期2025/7/15 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎