TL;DR:
AI圈突现神秘黑马HappyHorse(快乐小马),不仅在AA榜单上暴力反超字节Seedance 2.0,还玩了一手“身份失踪”的悬疑营销。虽然被质疑是精心设计的“刷榜局”,但其背后的单流架构确实让视频生成的音画同步达到了新高度。
一则“折叠聊天记录”突然在各大AI群疯传,主角不是哪位互联网大佬,而是一个名字略显草率的模型——HappyHorse-1.0(快乐小马)。
它在Artificial Analysis(AA)排行榜上直接空降第一,顺手把刚坐稳王座没几天的字节跳动Seedance 2.0给“顶”了包。这种“屠榜”姿态让不少围观群众惊呼:“我原以为吕布已经天下无敌了,没想到有人比他还勇猛!这到底是哪位大厂的部将?” [^1]
这匹“马”到底有多野?
作为横空出世的“打脸”专业户,HappyHorse-1.0不仅名字听起来像是在度假,跑起来更是快得飞起。
- 小快灵: 参数仅有15B,走的是“浓缩就是精华”路线。
- 速度惊人: 8步推理,256p生成只要2秒,1080p也只需38秒左右。比起那些动辄需要“排队排到明年”的模型,这速度简直是AI界的快递员。[^1]
- 音画一体: 这是它最硬核的地方。以往视频模型生成的场景是“静默片”加“后期配音”,经常出现脚踩冰面却没声、投篮入筐却寂静的尴尬。
而HappyHorse主打一个**“音随画动”**。咖啡师倒牛奶的流水声、篮球撞击篮筐的闷响,这些声音不是后期生硬贴上去的背景音乐,而是像从画面里“长”出来的一样,具有极强的因果逻辑。[^5]
技术大揭秘:声音不是“配角”,是画面的“亲兄弟”
为什么它能做到音画神同步?这里涉及到一个技术范式的降维打击。
传统的视频生成模型大多采用**“双流(two-stream)”**方案:左手画画,右手配音,最后再用胶水(对齐机制)粘在一起。结果往往是“嘴型对不上”或者“动作慢半拍”。
HappyHorse则更像是一个“全能导演”,采用的是**“单流(single-stream)”架构。它把文本、视频和音频的token全都塞进同一个序列里处理。[^5] 简单来说,它不是在“给视频配音”,而是在“生成一个带有声音的现实世界”**。这种结构更统一、推理更激进,也是目前Sora、Seedance 2.0等顶流玩家都在猛攻的高地。
营销还是实力?这场“局”设计得有点深
虽然HappyHorse在榜单上风光无限,但也有不少“纯路人”看出了猫腻。
首先是“刷榜”嫌疑。 有业内人士爆料,AA榜单的排名其实是可以“操作”的,只要提前拿到题目并针对性优化,高分并不难。[^1] 巧合的是,HappyHorse在登顶后又火速撤下,现在全网流传的几乎都是截图,这种“快闪式”夺冠,颇具话题性。
其次是素材单一。 全网吹捧它的视频,翻来覆去就官号那几个,甚至连对比友商的文案都整齐划一。甚至有硬核网友发现,虽然画面不错,但物理模拟依然有“AI味”,条纹物体的运动伪影清晰可见。[^5]
调侃点评: 这种“藏头露尾”的神秘感,配合上直接对标字节即梦的折叠聊天记录,简直是教科书级别的公关操作。如果你说这没经过精心策划,我第一个不信。
破案了!“马甲”背后的真身是谁?
关于这匹马的身世,全网掀起了一场“大型剧本杀”。从名字里带“马”的腾讯、阿里,到喜欢用动物命名的MiniMax,甚至快手(因为官网代码残留了快手关联公司的商标名)都被列为嫌疑人。[^1][^3]
但随着“列文虎克”网友们的深入挖掘,真相终于浮出水面:
通过比对HappyHorse-1.0的公开基准数据,发现它与今年3月在GitHub开源的**daVinci-MagiHuman(达芬奇魔法人类)**完全一致!视觉质量、物理一致性、语音字错率,甚至是官网结构都像是一个模子里刻出来的。[^5]
它的真正幕后推手,大概率是**上海创智学院(SII)生成式人工智能研究实验室(GAIR)与北京的Sand.ai(三呆科技)**联合研发。
下一个风口:开源模型要“偷家”了?
HappyHorse的出现,其实释放了一个信号:开源视频模型已经有实力和闭源大厂硬刚了。
虽然它现在可能还只是在某些垂直场景(如人像口播)里占便宜,虽然它对显卡的要求依然高到离谱(跑起来需要H100,普通人家里只能看看),但只要“开源也能出神片”的共识达成,闭源大厂们的定价权就要受到挑战了。
不管这是一场有预谋的营销,还是技术界的一次暴力输出,HappyHorse这匹“快乐小马”都已经成功在字节的后花园里撒了个欢。至于下一届AA榜单又是谁的天下?咱们这群“吃瓜群众”坐稳扶好就行了。