MiniMax近日开源了其首个大规模混合架构推理模型MiniMax-M1,以其4560亿参数规模、高效的“闪电注意力”机制和创新的强化学习算法CISPO,在软件工程、工具使用及百万级上下文处理能力上超越DeepSeek-R1等竞品,标志着中国大模型公司在开放生态和长上下文推理领域迈出了关键一步,预示着复杂多Agent协作场景的未来。
AI领域的技术迭代速度令人目不暇接,而中国市场作为这一全球竞赛的核心战场,其动态尤为引人注目。近日,被称为“大模型六小虎”之一的MiniMax正式开源了其首个大规模混合架构推理模型MiniMax-M1,并公布了详尽的技术报告1。此举不仅是MiniMax自身发展的一个里程碑,更深刻反映了当前大模型技术演进的关键趋势:对极致效率、超长上下文处理能力以及复杂任务执行的追求。
MiniMax-M1以其4560亿参数规模亮相,更值得关注的是其每次推理仅激活459亿参数的稀疏性,这得益于其混合专家(MoE)架构。这一设计理念与DeepMind的GLaM模型、Google的Switch Transformer以及Meta的LLaMA系列后续版本中采用的MoE不谋而合,旨在通过激活更少参数来降低推理成本,同时保持甚至提升模型性能。M1原生支持100万上下文输入和8万token推理输出,与谷歌Gemini 2.5 Pro等闭源模型在输入长度上达到相同水平,并远超DeepSeek-R1的8倍。
技术突破与架构革新
MiniMax-M1的核心技术创新在于其对混合专家(MoE)架构的深度应用与“闪电注意力机制”(Lightning Attention)的融合。传统的Transformer模型在处理长序列时,注意力机制的计算成本呈平方增长,这成为上下文窗口扩展的瓶颈。而M1采用的闪电注意力机制,被MiniMax描述为能够高效扩展测试时计算资源,显著降低了长上下文推理的FLOPs消耗。例如,在10万token的生成长度下,M1仅需消耗DeepSeek-R1约25%的FLOPs2。这种效率上的巨大提升,对于需要处理海量信息、进行复杂思考的任务至关重要。
除了架构上的优化,MiniMax在模型训练阶段也实现了突破。M1的开发大量采用了大规模强化学习(RL),并引入了一种名为CISPO的全新算法。这项算法通过裁剪重要性采样权重而非token更新来提升性能,在AIME 2024任务上的实验表明,CISPO的收敛速度比字节跳动近期提出的DAPO快一倍,并显著优于DeepSeek早期使用的GRPO1。这种在强化学习算法上的创新,使得模型在从传统数学推理到基于沙盒的真实软件工程环境等复杂应用场景中,能够更高效地学习和适应。值得注意的是,MiniMax在仅仅三周内使用512块H800 GPU完成了M1的强化学习阶段训练,成本仅为53.74万美元,远低于其最初的成本预期,这无疑证明了其技术栈在效率上的卓越表现。
市场定位与竞争格局
MiniMax-M1的发布,无疑对当前的开源大模型市场带来了新的冲击。在标准基准测试中,M1在复杂的软件工程、工具使用和长上下文任务方面的表现,超越了DeepSeek-R1和Qwen3-235B等主流开源模型。特别是在OpenAI的MRCR测试集中,M1的表现仅略逊于闭源的Gemini 2.5 Pro,但在长文本中区分复杂信息的能力上表现出色。其在航空业测试集TAU-bench(airline)中的Agent工具使用能力更是“一骑绝尘”,优于所有其他开源及闭源模型。然而,M1在数学和编程能力方面仍有提升空间,其得分低于Qwen3-235B-A22B、DeepSeek-R1和Claude 4 Opus1。
在商业策略上,MiniMax选择将M1开放免费使用,并提供了阶梯式的API定价。尽管在0-32k和32k-128k的输入长度区间,M1的价格优势并不总是明显,甚至在某些情况下高于DeepSeek-R1的优惠时段价格,但在其独有的128k-1M输入长度档位,M1展现了绝对的竞争力,因为DeepSeek-R1目前并不支持如此长的上下文输入1。这表明MiniMax旨在通过其在超长上下文处理上的技术领先性,抢占对高强度信息处理能力有需求的市场。
值得注意的是,几乎与MiniMax同时,另一家“大模型六小虎”月之暗面也开源了其编程模型Kimi-Dev,其编程能力被宣称强于DeepSeek-R1。这凸显了中国AI公司在开源生态建设上的积极姿态和日益激烈的竞争,它们正试图通过开放核心技术来扩大开发者社区,加速应用创新,并最终争夺更大的市场份额。
大模型演进的未来图景
MiniMax在技术报告中指出,为了支持日益复杂的应用场景,未来的大模型尤其需要充当“Language-Rich Mediator”(富语言中介),与环境、工具、计算机或其他Agent进行交互。这要求模型能够进行数十到数百轮的推理,并同时集成来自不同来源的长上下文信息1。MiniMax-M1的发布,正是MiniMax应对这一行业发展趋势在算法创新上的探索。
从更广阔的视角来看,M1所展现的超长上下文处理能力和强大的Agent工具使用潜力,预示着AI将能够承担更复杂、更需要连续推理和多模态协作的任务。这可能包括:
- 智能软件开发助手: 能够理解整个代码库,进行跨文件、跨模块的复杂调试和重构。
- 企业知识管理: 处理海量的文档、报告和内部数据,为决策者提供深度洞察和建议。
- 人机交互新范式: 实现更自然、更连贯的多轮对话,甚至参与到复杂的多Agent协作任务中。
然而,伴随这些进步而来的是新的挑战。超长上下文的处理能力虽然强大,但也可能带来新的伦理和社会问题,例如:如何确保模型在处理海量敏感信息时的隐私保护和数据安全?当AI能够进行数百轮推理并影响真实世界时,如何对其行为进行有效监管和责任界定?这些问题需要技术、政策和社会各界的共同思考和协作。
MiniMax-M1的开源,不仅是一次技术实力的展示,更是对大模型未来发展方向的一次深刻押注。它不仅降低了高性能大模型的应用门槛,也为开发者提供了构建更强大、更智能AI应用的基石,推动着人工智能从“语言理解”向“复杂推理与协作”的新范式迈进。这场竞赛才刚刚开始,我们期待看到这些技术创新如何真正改变我们的世界。
References
-
智东西(2025/6/17)。MiniMax开源首个推理模型,456B参数,性能超DeepSeek-R1,技术报告公开。36氪。检索日期2025/6/17。 ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
-
fromgeek(2025/06/17)。MiniMax开源M1模型:打破性能界限,456B参数引领混合架构推理新时代。fromgeek。检索日期2025/6/17。 ↩︎