Midjourney V1：从AI生图到“开放世界”视频模拟的跃迁与挑战

AI图像生成巨头Midjourney正式发布其首款视频生成模型V1，标志着其业务从静态图像创作向动态多媒体内容生成的重大战略转型。V1支持用户通过图像生成最长20秒的流畅视频，以其在动作连贯性和视觉逼真度上的表现，迅速引起业界关注，同时也揭示了当前AI视频领域激烈竞争和未来“开放世界”模拟的宏大愿景。

全球领先的AI图像生成平台Midjourney，近日迈出了其发展史上意义深远的一步，正式推出了备受期待的首款AI视频生成模型V1。这一发布不仅让Midjourney从“AI生图之王”的宝座延伸至动态内容领域，更预示着一场从单一媒介创作走向全多媒体内容生态的深刻变革。在生成式AI浪潮席卷全球的当下，Midjourney V1的登场，无疑为方兴未艾的AI视频赛道注入了新的活力，也对其长期以来秉持的“易用性”理念进行了全新的诠释。

技术跃进：从静态到动态的范式转变

Midjourney V1的核心能力在于将用户上传的图像（无论是Midjourney自产还是外部导入）转化为动态视频。用户在Midjourney界面中选择“Animate Image”即可体验这项新功能，最长可生成20秒的视频内容。这并非简单的静态图像拉伸或模糊处理，而是实现了画面主体动作的连贯性与流畅度，甚至能够逼真地呈现凭空创造的怪物或科幻形象的运动，正如Perplexity AI设计师Phi Hoang在X上评价的那样：“它超出了我所有的预期。”¹

V1提供了“手动”和“自动”两种动作提示词生成选项，并引入了“高速运动”和“低速运动”的概念，以适应不同的创作需求。_低速运动_更适合相机基本静止、主体缓慢移动的场景，如人物眨眼或微风拂过；而_高速运动_则适用于所有物体（包括相机）都活跃起来的场景。这种灵活的运动控制机制，赋予了创作者更大的想象空间。值得注意的是，用户还可以选择对满意的视频片段进行延长，每次约4秒，总共可延展4次，直至达到20秒的上限。

尽管V1在动作连贯性上表现出色，但作为其首个视频模型，Midjourney V1仍有其局限性。目前，它无法生成对应音频，配乐需要用户后期手动添加；同时，尚不支持编辑时间线、场景转换或片段之间的连续性。这意味着，在生成复杂叙事性视频方面，用户仍需借助外部工具进行后期处理，或通过分段生成、拼接的方式来弥补。从技术层面看，这意味着模型目前更多专注于单镜头内的物理运动模拟，而非跨镜头或时间维度上的叙事逻辑理解。

竞争格局与市场演变

Midjourney V1的发布，无疑是AI视频生成领域日益白热化竞争的最新注脚。在此之前，谷歌、字节跳动、MiniMax等巨头及一众新兴力量早已纷纷布局。例如，今年5月谷歌发布了能实现音画同步的Veo 3；6月字节跳动推出了豆包视频生成模型Seedance 1.0 pro；紧随其后，MiniMax更新了海螺02，旨在打破全球视频模型效果和成本纪录；快手也在去年6月推出了基于DiT架构的可灵AI，支持最长3分钟的“文生视频”和“图生视频”双模式²。甚至微软的Bing团队也推出了由OpenAI Sora模型支持的Bing Video Creator，可生成5秒竖屏视频[^4]。

在与这些“老玩家”的比较中，Midjourney V1展现出其独特的优势与不足。有网友将V1与Runway的生成效果进行对比，发现V1在人物动作流畅度上表现更佳，有时甚至更具“大片感”，而Runway则在整体画面和谐度上略胜一筹，例如对背景中细微元素（如蝴蝶）的处理。与Veo 3相比，尽管有网友称V1的视觉效果“惊人”，但认为其在某些方面仍有差距。这些对比表明，当前的AI视频模型各有所长，尚未出现能够全面碾压所有维度的“终极解决方案”。

在商业模式上，Midjourney V1延续了其图像生成服务的订阅制。所有订阅者均可体验V1，会员起订费为10美元/月。视频生成采用“按次消耗额度”的机制，每个视频任务将消耗信用点数。Midjourney官方透露，视频制作的收费大约是图片制作的8倍，但“每秒的成本大致相当于生成一张静态图像”¹，这意味着其在成本控制上做出了努力，以期降低用户尝试门槛。此外，Midjourney还在测试为每月60美元及更高订阅费的“专业版”会员开放“无限制轻松模式”，这或将进一步满足专业内容创作者的需求。

走向“开放世界”的愿景与潜在挑战

Midjourney将V1的发布视为其探索构建能够实时模拟开放世界模型的第一步¹。这一宏大目标旨在创建一个AI系统，能够实时生成图像，并允许用户在3D空间中自由移动，环境和角色随之互动。简而言之，图像模型负责静态视觉，视频模型负责动态，3D模型实现空间移动，而实时模型则确保所有这些过程能够快速高效地完成。Midjourney计划在未来一年内分别构建并发布这些独立模型，最终逐步整合为一个统一的、能够实时模拟交互式虚拟世界的系统。

这一愿景的实现，将彻底颠覆我们对数字内容创作、游戏、虚拟现实乃至元宇宙的理解。如果AI能够实时、流畅、逼真地模拟一个可交互的开放世界，那么内容创作的门槛将大大降低，个性化、沉浸式的数字体验将变得触手可及。它不仅仅是生产视频片段，更是构建一个能够响应用户指令并自主演化的数字环境。这种能力将带来前所未有的创作自由，但也引发了关于数字版权、内容真实性、算法偏见以及潜在滥用等一系列深层伦理和社会问题。

其中最紧迫的挑战之一便是版权问题。目前，Midjourney正面临来自迪士尼和环球影业等全球娱乐巨头的严峻法律挑战，它们指控Midjourney未经授权使用受版权保护的角色来训练其模型，并继续允许用户生成衍生内容¹。这一指控不仅关系到Midjourney自身的未来发展，也触及了整个生成式AI行业的核心合法性问题：在模型训练阶段如何获取数据？生成内容如何界定版权归属？在追求技术前沿的同时，如何构建一个公平、负责任的生态系统，成为所有AI公司必须正视的课题。

Midjourney V1的亮相，无疑是AI视频生成技术发展道路上的一个重要里程碑。它展示了从图像到视频转换的巨大潜力，也清晰地勾勒出其构建“开放世界”的雄心。然而，在激动人心的技术进步背后，行业正面临着激烈的市场竞争、不断演进的用户需求以及日益复杂的法律和伦理挑战。作为“技术垫脚石”的V1，承载着Midjourney的愿景，也映射出通用人工智能未来图景中光明与阴影并存的复杂现实。

References

智东西（2025/6/19）。AI生图之王首发视频大模型，每月10刀，最长20秒，效果超逼真。36氪。检索日期2025/6/19。 ↩︎ ↩︎ ↩︎ ↩︎
AI工具集（未知）。每日AI资讯、热点、动态、融资、产品发布。AI工具集。检索日期2025/6/19。 ↩︎