好久不露面的MiniMax,终于又给开源社区带来一次惊喜。
就在昨天半夜,MiniMax 开源了 MiniMax-M1。
这次终于等到,他们发布了推理大模型——MiniMax M1。
而且一次性把上下文窗口撑到 1 M,直接和当前的上下文之王Gemini拉平。
是不是风格有点似曾相识?是的,几个月前他们发布的是400万上下文的基模——MiniMax-01 ,想详细了解的小伙伴可以看一下我们之前的报道。
老规矩,先放传送门——
GitHub: https://github.com/MiniMax-AI/MiniMax-M1Hugging
HuggingFace:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1
大家也可以直接从Chat端体验:https://chat.minimaxi.com/
我仔细研读了M1的技术报告,用一句话总结就是——
MiniMax-M1是开源界真正能「干重活」的长推理底座。
在大模型语境里,“干重活”你可以理解为:
-
吃得下超长输入(合同、代码基仓、长论文等);
-
自己能写出成千上万 token 的思考过程,并且推理链条稳定,可以把任务一步步拆解、验证、反思,最终给出高质量答案。
「干重活」≠ 单纯 token 很长,还得具备一个特别重要的特性——“长推理”。
这背后真正的瓶颈是推理长度 (reasoning length)——模型在一次生成里允许的 “思考预算”。如果没有足够的预算,复杂任务(竞赛数学、真实软件修 Bug、长链检索推理)就会被截断,模型只能“浅尝辄止”。
怎么算长推理?
尽管社区中没有硬性门槛,但大多数公开模型的“Extended Thinking”上限停在 32 K-64 K,比如大家爱用我也爱用的Gemini 2.5 Pro是64K,deepseek R1也是64K,这次MiniMax-M1 把这一数字推到 80 K,而且是开源的,远高于同类开源模型,仅次于closeAI的o3。
我愿称它是新的“长推理底座”。
开源阵营里Agentic tool use 最强
不只是因为它 1M 的输入、 80K输出的顶配上下文,还有它还是目前开源阵营里Agentic tool use 最强的选择。
在TAU-Bench 上体现得非常明显。
TAU-Bench ((Tool-Agent-User Benchmark))是目前学界用来衡量「会使用工具」最主流最严格的基准之一,包括airline(航空客服)和 retail(电商客服)两个赛道。
它把一个客服场景拆解成可调用的 真实 API + 仿真数据库 + 多轮对话,要求模型自己规划、调用、校验并最终达成用户目标。具体包括:是否遵守平台规则、是否正确使用 API、是否在正确的时间做出合适判断,等等。
在这项评测中,MiniMax-M1 的表现极为突出——在 40K 输出上就已经超过 Gemini 2.5 Pro;在 80K 输出窗版本中,更是稳定拉高了 2-3 个百分点,稳坐 开源第一、整体第二。
为什么 M1 在这类任务里这么强?核心在于两点:
第一,思考预算充裕。
这可能是很多人低估 M1 的地方。80K 输出 token 意味着模型可以在回答一个问题时,写出非常详细的思考过程:比如“读取文档→找关键词→调用 API→拿到中间结果→判断是否满足条件→重新调用→总结并报告”这整套链条都可以逐步铺开,写成一整份几千行的工作日志。
报告里提到的一个关键术语就是“思考预算(thinking budget)”——你给模型多少输出长度,决定了它有多少空间进行链式推理。MiniMax-M1 正是目前开源里思考预算最高的模型之一。
第二,RL on Real Tools。
这里是 MiniMax-M1 的另一个杀手锏:它不是单靠语言学习做出来的工具使用能力,而是真的在训练阶段就“手把手练习过”。
根据技术报告,MiniMax 团队为 RL 阶段专门构建了一个rule-based可验证环境+真实容器沙盒环境。
比如,把 GitHub 上的 bug、PR 任务、代码修复问题,包装成一个个真实的软件开发任务,并搭建了可执行、可验证、可打回的真实环境。
模型必须在这里完成:
-
找出代码 bug;
-
修改出正确代码;
-
运行测试用例,确保没有 regression;
-
有时甚至要自己写出测试用例。
实际训练日志显示RL step中约等于27%都在和工具环境交互,同类模型只有不到10%。
所以,M1 在 RL 阶段就像是参加了一个工程师训练营,而不是坐在办公室里刷阅读理解题。
Agent 不是靠生成答案,而是靠逐步完成任务。
RL 成本只要 53 万美元
说到底,大模型最贵的不是算力,而是时间。
M1是一个MoE架构的模型,总参数 456 B、激活参数 45.9 B,同样是千亿参数,但是MiniMax只用了 512 张 H800,3 周时间,53.47 万美元,完成了完整 RL 流程。
能把这个成本压到几乎不可思议的地步,靠的可不只是架构本身。
MiniMax 背后还有一个不太显眼、但非常关键的角色:CISPO。
全称 Clipped IS-weight Policy Optimization,是 MiniMax 自研的强化学习优化算法。它的特别之处在于引入了“重要性采样权重裁剪”,听着很拗口,实质上是一种非常聪明的做法:在传统 RL 的基础上,把那些“贡献低、梯度大”的样本裁剪掉,避免无效训练扰乱模型学习路径。
这在技术报告里表现得非常直观。
作者在 Qwen2.5-32B 模型上实测表明,使用 CISPO 后,强化学习收敛速度显著提升:原本由字节与清华联合提出、在多个实验中已优于 DeepSeek 提出 GRPO 的 DAPO 方法,需要 800 步才能达到 33 分,而 CISPO 在 400 步内即可实现相同效果,实现 2 倍加速。
而且,现在MiniMax 已经把 CISPO 训练逻辑打包成可重复流程,技术文档也明说:
你如果在做 RLHF 或 RLAIF,完全可以直接复刻这一套,吞吐翻倍,预算可控,工程师不用熬夜。
点赞!
除了之外,还忘了一个重要的指标——
你可以看到——MiniMax-M1 的推理 FLOPs 几乎是线性增长。
64K生成长度,推理算力只有 DeepSeek R1 的一半; 100K,已经压到了 25%。
为什么能这么省?归根到底是算子下了狠功夫。背后还是 Lightning Attention的功劳。
M1 所用的 Lightning Attention,其实不是首次提出的新概念,在我们上一篇文章里有提到和介绍。
但它一直难落地,因为标准线性 attention 机制里的 cumsum 操作(累加)是递归式的,GPU 上并行性差,工程上代价极高。
MiniMax 的工程团队从底层重构 attention kernel,把计算流程拆成“块内”和“块间”,分别用左乘积、右乘积进行近似,彻底绕过 cumsum,实现了真正可部署的线性计算流程。
最终, 注意力FLOPs 从 O(L²) 真正下降到接近 O(L) 的级别,才敢把上限窗口撑到 1M。
你如果只看参数,可能觉得这只是又一个技术升级;但如果你做过部署,就知道这个差距有多大。
举个例子:同样跑 10 万 token 生成,DeepSeek-R1 需要将近 3 倍的 GPU 资源才跑完一个输出;而 M1 在同等负载下只需要三分之一的显存消耗,冷启动速度更快,响应时延更低,能把高复杂度任务塞进边缘设备甚至单机部署。
这就不仅是实验室参数优化的问题了,而是实实在在的能用和能省。
以前这是一条只有大厂才能走的路线,现在你也能试着上路。
看一些case
来看一些实测的结果:
我们试着扔给它一个生活中最常见但又最没人愿意手动分析的任务——读财报。
我们拿了一份最近很火的一个港股上市公司的年度业绩公告,泡泡玛特 2024 年年报,整整几十页,数据密集,段落分散,除了营收利润这些基础指标,还穿插着门店扩张、区域表现、战略规划,甚至还藏着不少信息不一致的地方,比如门店总数统计方式变了、区域口径模糊等等。
我们对 M1 下了一个完整的任务链指令,没有把内容拆小、也没预处理结构,就是直接扔进去一句话:
“你是一名资深证券分析师,请基于以下年度财务公告文件,完成以下五项任务……”
MiniMax-M1 做得非常利落,不但列出四个指标的双年数据,还直接算好了同比增幅,这些数,很多时候在 PDF 中是分散的——门店数一个在正文段落,一个藏在脚注里,一个根本没说 2023 年的海外门店,只能靠 2024 年总数减去大陆数反推。M1 能把这些连起来,并主动写下“需原文验证”这种审慎提示,说明它不是一拍脑门地凑表,而是真的搞明白了再写。
这点就比gpt-o3好很多,直接给我瞎编了一个2023 年的海外门店数量。。
剩余的部分也完成的不错。
再来看看编程能力。
M1思考了707秒之后,生成了这样的结果:
虽然有点丑,但是效果还是不错的。
写在最后
我们常说,Agent 是未来的大模型方向。但现实是,大家口中的 Agent 真正落地的少之又少。不是没人试过,而是绝大多数模型一旦进入真实多步任务链,就原形毕露。
而 MiniMax-M1,某种意义上是我们第一次看到一个够格的底座雏形。
为什么这么说?因为 M1 把我们一直苦苦追求的几件事,一次性做到了:长、快、开源、可训。
这四个能力加起来,构成的就是一个面向 Agent 系统的底座雏形。
当 token 不再是硬上限,真正决定生产力的只有两件事:
把真工具接给模型,让它能直接操作世界。
给它足够长的思考空间,让它把复杂问题一次想透。