MiniMax 进化论:一群「偏执者」的破浪前行

温故智新AIGC实验室

在AI大模型领域,创新已成为企业生存的唯一法则。MiniMax凭借其对前沿模型架构与训练算法的“偏执”探索,不仅在视频生成和长上下文大模型领域取得突破性进展,更通过打造多模态Agent将技术创新高效转化为商业价值,展现了创业公司在新范式下挣脱巨头引力、引领行业发展的能力。

在数字时代的急速演进中,AI大模型犹如一场不断加速的工业革命,其变革速度之快,已让传统互联网时代的竞争逻辑——资金壁垒、规模效应、生态护城河——变得脆弱甚至失效。在这个“常规技术乘十的速度进化”的竞技场中,市场格局瞬息万变,曾经的“百模大战”转瞬偃旗息鼓,唯有那些能持续挖掘新“Alpha”的创新者,方能留在牌桌之上。而近期MiniMax Week的发布,正是我们审视这一严酷现实与新兴生存法则的最佳切入点1

技术创新:构建AI新高地

MiniMax的每一次亮相,都伴随着其在底层技术上的深度突破。最引人注目的莫过于其最新发布的视频模型——Hailuo 02,以及刷新多项纪录的旗舰大模型M1。

Hailuo 02的“Aha时刻”并非实验室的自我陶醉,而是通过全球社交媒体上病毒式传播的“猫咪跳水”视频,实现了对公众心智的震撼。这些视频中,无论是猫咪精确的肢体动作、水花飞溅的物理模拟,还是跳板的震动细节,都达到了令人难以置信的真实度。这超越了视频AI长期以来面临的“图灵测试”——即精确控制多帧画面并严格遵循物理规律的复杂动作生成。Hailuo 02参数量是上一代的3倍,分辨率提升至原生1080P,可生成10秒高清内容,并在Artificial Analysis Video Arena的Image-to-Video榜单中位列全球第二,同时API成本仅为Google Veo3的1/9。其高逼真度与低成本的背后,是Scaling Law的持续助推,以及创新的噪声感知计算资源重分配(NCR)架构。NCR架构能够智能识别信息密度,将计算资源高效分配,显著减少内存读写量并提升训练与推理效率,这正是MiniMax将“精力放在对的事情上”的集中体现1

而在语言大模型领域,MiniMax M1则展现了其作为基础智能体的强大实力。这款拥有4560亿参数的模型不仅在主流评测集上名列前茅,更以原生支持100万token输入长度和8万个输出token,成为全球上下文最长的推理模型。这在深度搜索、科研、内容创作乃至Agent场景中,都是至关重要的核心能力,尤其在多Agent混合系统中,长上下文能力直接决定了整个系统的协作效率与智能上限1

M1的卓越性能并非偶然,它源于MiniMax在模型架构和训练方法上的前瞻性押注。早在2023年,当业界普遍采用Transformer架构时,MiniMax已率先探索并应用混合专家结构(MoE),成为国内最早推出MoE大模型的公司之一。更深层的创新在于其混合注意力机制,M1的1/8采用传统自注意力,而7/8则使用MiniMax自创的Lightning Attention(线性注意力)。通过“分块计算”与线性注意力进行块间信息传递,Lightning Attention有效避免了累积求和操作带来的速度瓶颈,成为长上下文窗口的底层技术支撑1

在训练方法上,MiniMax M1创新性地采用了**Clipped IS-weight Policy Optimization(CISPO)**替代传统的PPO/GRPO算法。CISPO算法能够根据token的重要性进行采样和加权,有效解决了传统算法在处理MoE架构时,可能忽略低频但高重要性token(如“However”、“Aha”)的问题,从而提升复杂推理的逻辑性和长响应的质量。技术报告显示,基于CISPO,MiniMax团队仅用3周时间、512块H800 GPU就完成了强化学习训练,算力租用成本仅53万美元,并且在推理侧,生成10万token时M1的算力需求仅为DeepSeek R1的25%12。这充分证明了MiniMax在“通过技术创新省钱”方面的能力,这不仅让技术更加普惠,也为模型上限拓展了更大的空间。

从基座到应用:Agent的商业化桥梁

如果说底层大模型的能力创新是AI浪潮的第一个“Aha时刻”,那么基于大模型的Agent应用创新,则是将技术从实验室推向产业加速的第二个关键转折点。MiniMax深谙此道,并推出了令人惊艳的Hailuo Video Agent和通用MiniMax Agent。

Hailuo Video Agent的出现,不仅简化了视频生成流程,更实现了对效果的精准掌控。它能够一键生成涵盖创意构思、分镜设计、素材生成到剪辑的完整视频链路,无论是小猫跳水还是复杂体操动作,都能轻松驾驭。其用户只需一句自然语言输入,系统便能自动调度多种工具,并提供清晰的思维链路,确保创作的质量与可控性。据AI产品榜数据显示,海螺AI已连续6个月在全球视频生成AI产品榜单中位居第一,超越Sora、Runway等国内外竞争者1

而MiniMax Agent,则更进一步,定位为一个具备长期任务规划与执行闭环能力的AI专家。它能够完成长程(Long Horizon)复杂任务,灵活拆解需求,并自主执行多个子任务以交付最终结果。这标志着AI从简单的“Chatbot”向“专业生产力引擎”的质变升级。例如,在MiniMax内部,该通用Agent已成为超过50%员工日常工作(如PPT制作、网页搭建、代码辅助)的核心工具。它不仅能生成包含复杂逻辑的无bug网页,还支持多模态(视频、音频、图片)理解与生成,并通过“MCP扩展”完成动画、广告片等任务1。可以说,MiniMax通用Agent是其大模型基础智能与跨模态能力结合的巅峰工程化落地,也使其成为少数能提供完整全模态能力的厂商之一。

大模型公司在开发通用Agent上拥有天然优势:对底层架构的深入把控,使其Agent能在性能优化、成本控制和生态构建上形成闭环优势。大模型的创新打开了Agent的能力天花板,而Agent的快速增长反过来又让大模型的演进方向更加清晰明确。两者相互借力,形成“滚雪球”效应,推动着整个生态的快速扩张。

MiniMax的这段“破浪前行”之路,充满了“偏执”的基因。早在2022年初ChatGPT引爆全球之前,MiniMax就已经悄然成立。在技术路径选择上,它也屡屡敢为人先——在MoE尚未成为行业共识时,MiniMax已将80%以上的算力投入其中;在Transformer架构普适之时,又大胆“爆改”推出了Lightning Attention。这种近乎偏执的创新驱动,本质上是对AI大模型竞赛终局的预判——伟大商业模式的诞生,往往是源于对技术创新的坚定投入与不懈执行。

引用


  1. MiniMax 进化论:一群「偏执者」的破浪前行·36氪·(2025/7/1)·检索日期2025/7/1 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎

  2. cnBeta.COM中文业界资讯站·Telegram·(2024/1/20)·检索日期2025/7/1 ↩︎