MiniMax 又憋了个大的,M2.1 直接改写大模型玩法
今天,MiniMax团队将 MiniMax-M2.1 交给开源社区。这次发布不仅仅是参数更新,而是向顶级智能代理能力迈出的重要一步。
认识 MiniMax-M2.1
今天,MiniMax团队将 MiniMax-M2.1 交给开源社区。这次发布不仅仅是参数更新,而是向顶级智能代理能力迈出的重要一步。
M2.1 的构建旨在打破高性能代理必须封闭模型的刻板印象。专门优化了该模型,以增强其在编码、工具使用、指令遵循和长远规划方面的稳健性。从自动化多语言软件开发到执行复杂的多步骤办公流程,MiniMax-M2.1 赋予开发者构建下一代自主应用的能力——同时保持完全透明、可控和可访问。
MiniMax团队相信,真正的智能应该触手可及。M2.1 是MiniMax团队对未来的承诺,也是您手中的一款强大新工具。
如何使用
- • MiniMax-M2.1 API 已在 MiniMax 开放平台上线: https://platform.minimax.io/docs/guides/text-generation
- • MiniMax团队的产品 MiniMax Agent,基于 MiniMax-M2.1,现在已公开可用: https://agent.minimax.io/
- • MiniMax-M2.1 模型权重现已开源,允许本地部署和使用: https://huggingface.co/MiniMaxAI/MiniMax-M2.1
性能指标

MiniMax-M2.1 在核心软件工程排行榜上实现了显著的飞跃。尤其在多语言场景中表现出色,超越了 Claude Sonnet 4.5,并接近 Claude Opus 4.5。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 74.0 | 69.4 | 77.2 | 80.9 | 78.0 | 80.0 | 73.1 |
| Multi-SWE-bench | 49.4 | 36.2 | 44.3 | 50.0 | 42.7 | x | 37.4 |
| SWE-bench Multilingual | 72.5 | 56.5 | 68 | 77.5 | 65.0 | 72.0 | 70.2 |
| Terminal-bench 2.0 | 47.9 | 30.0 | 50.0 | 57.8 | 54.2 | 54.0 | 46.4 |
MiniMax-M2.1 在 SWE-bench Verified 上的表现突出,展示了其在不同框架下的卓越泛化能力和稳健性。
此外,在特定基准测试中,包括测试用例生成、代码性能优化、代码审查和指令遵循,MiniMax-M2.1 相较于 M2 展现了全面的改进。在这些专业领域中,它的表现始终与 Claude Sonnet 4.5 相当或更优。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified (Droid) | 71.3 | 68.1 | 72.3 | 75.2 | x | x | 67.0 |
| SWE-bench Verified (mini-swe-agent) | 67.0 | 61.0 | 70.6 | 74.4 | 71.8 | 74.2 | 60.0 |
| SWT-bench | 69.3 | 32.8 | 69.5 | 80.2 | 79.7 | 80.7 | 62.0 |
| SWE-Perf | 3.1 | 1.4 | 3.0 | 4.7 | 6.5 | 3.6 | 0.9 |
| SWE-Review | 8.9 | 3.4 | 10.5 | 16.2 | x | x | 6.4 |
| OctoCodingbench | 26.1 | 13.3 | 22.8 | 36.2 | 22.9 | x | 26.0 |
为了评估模型从零到一构建完整、功能性应用的全栈能力,MiniMax团队建立了一个新的基准: VIBE (Visual & Interactive Benchmark for Execution in Application Development)。该套件包含五个核心子集:Web、Simulation、Android、iOS 和 Backend。与传统基准不同,VIBE 利用创新的 Agent-as-a-Verifier (AaaV) 范式,在真实运行环境中自动评估生成应用的交互逻辑和视觉美学。
MiniMax-M2.1 在 VIBE 综合基准上表现出色,平均得分为 88.6,展示了强大的全栈开发能力。特别是在 VIBE-Web (91.5) 和 VIBE-Android (89.7) 子集上表现优异。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| VIBE (平均) | 88.6 | 67.5 | 85.2 | 90.7 | 82.4 |
| VIBE-Web | 91.5 | 80.4 | 87.3 | 89.1 | 89.5 |
| VIBE-Simulation | 87.1 | 77.0 | 79.1 | 84.0 | 89.2 |
| VIBE-Android | 89.7 | 69.2 | 87.5 | 92.2 | 78.7 |
| VIBE-iOS | 88.0 | 39.5 | 81.2 | 90.0 | 75.8 |
| VIBE-Backend | 86.7 | 67.8 | 90.8 | 98.0 | 78.7 |
MiniMax-M2.1 在长远工具使用和综合智能指标上也表现出稳步提升。
| 基准测试 | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| Toolathlon | 43.5 | 16.7 | 38.9 | 43.5 | 36.4 | 41.7 | 35.2 |
| BrowseComp | 47.4 | 44.0 | 19.6 | 37.0 | 37.8 | 65.8 | 51.4 |
| BrowseComp (context management) | 62.0 | 56.9 | 26.1 | 57.8 | 59.2 | 70.0 | 67.6 |
| AIME25 | 83.0 | 78.0 | 88.0 | 91.0 | 96.0 | 98.0 | 92.0 |
| MMLU-Pro | 88.0 | 82.0 | 88.0 | 90.0 | 90.0 | 87.0 | 86.0 |
| GPQA-D | 83.0 | 78.0 | 83.0 | 87.0 | 91.0 | 90.0 | 84.0 |
| HLE w/o tools | 22.2 | 12.5 | 17.3 | 28.4 | 37.2 | 31.4 | 22.2 |
| LCB | 81.0 | 83.0 | 71.0 | 87.0 | 92.0 | 89.0 | 86.0 |
| SciCode | 41.0 | 36.0 | 45.0 | 50.0 | 56.0 | 52.0 | 39.0 |
| IFBench | 70.0 | 72.0 | 57.0 | 58.0 | 70.0 | 75.0 | 61.0 |
| AA-LCR | 62.0 | 61.0 | 66.0 | 74.0 | 71.0 | 73.0 | 65.0 |
| 𝜏²-Bench Telecom | 87.0 | 87.0 | 78.0 | 90.0 | 87.0 | 85.0 | 91.0 |
本地部署指南
环境要求
- • OS:Linux
- • Python:3.9 - 3.12
- • GPU:
- • compute capability 7.0 or higher
- • 显存需求:权重需要 220 GB,每 1M 上下文 token 需要 240 GB
以下为推荐配置,实际需求请根据业务场景调整:
- • 96G x4 GPU:支持 40 万 token 的总上下文。
- • 144G x8 GPU:支持长达 300 万 token 的总上下文。
MiniMax团队推荐使用以下推理框架(按字母顺序排列)来服务模型:
SGLang
MiniMax团队推荐使用 SGLang 来服务 MiniMax-M2.1。
建议在全新的 Python 环境中安装 SGLang:
uv venvsource .venv/bin/activategit clone https://github.com/sgl-project/sglangcd sglanguv pip install -e "python" --prerelease=allow
运行如下命令启动 SGLang 服务器,SGLang 会自动从 Huggingface 下载并缓存 MiniMax-M2.1 模型。
4 卡部署命令:
python -m sglang.launch_server \ --model-path MiniMaxAI/MiniMax-M2.1 \ --tp-size 4 \ --tool-call-parser minimax-m2 \ --reasoning-parser minimax-append-think \ --host 0.0.0.0 \ --trust-remote-code \ --port 8000 \ --mem-fraction-static 0.85
8 卡部署命令:
python -m sglang.launch_server \ --model-path MiniMaxAI/MiniMax-M2.1 \ --tp-size 8 \ --ep-size 8 \ --tool-call-parser minimax-m2 \ --trust-remote-code \ --host 0.0.0.0 \ --reasoning-parser minimax-append-think \ --port 8000 \ --mem-fraction-static 0.85
vLLM
MiniMax团队推荐使用 [vLLM] https://github.com/vllm-project/vllm 来服务 MiniMax-M2.1。
使用 Python 部署
建议使用虚拟环境(如 venv、conda、uv)以避免依赖冲突。
建议在全新的 Python 环境中安装 vLLM:
uv venvsource .venv/bin/activateuv pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly
运行如下命令启动 vLLM 服务器,vLLM 会自动从 Huggingface 下载并缓存 MiniMax-M2.1 模型。
4 卡部署命令:
SAFETENSORS_FAST_GPU=1 vllm serve \ MiniMaxAI/MiniMax-M2.1 --trust-remote-code \ --tensor-parallel-size 4 \ --enable-auto-tool-choice --tool-call-parser minimax_m2 \ --reasoning-parser minimax_m2_append_think
8 卡部署命令:
SAFETENSORS_FAST_GPU=1 vllm serve \ MiniMaxAI/MiniMax-M2.1 --trust-remote-code \ --enable_expert_parallel --tensor-parallel-size 8 \ --enable-auto-tool-choice --tool-call-parser minimax_m2 \ --reasoning-parser minimax_m2_append_think
Transformers
MiniMax团队也支持使用 Transformers 来服务 MiniMax-M2.1。
建议在全新的 Python 环境中安装 Transformers:
uv pip install transformers==4.57.1 torch accelerate --torch-backend=auto
运行如下 Python 命令运行模型,Transformers 会自动从 Huggingface 下载并缓存 MiniMax-M2.1 模型。
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfigimport torchMODEL_PATH = "MiniMaxAI/MiniMax-M2.1"model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, device_map="auto", trust_remote_code=True,)tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)messages = [ {"role": "user", "content": [{"type": "text", "text": "What is your favourite condiment?"}]}, {"role": "assistant", "content": [{"type": "text", "text": "Well, I'm quite partial to a good squeeze of fresh lemon juice. It adds just the right amount of zesty flavour to whatever I'm cooking up in the kitchen!"}]}, {"role": "user", "content": [{"type": "text", "text": "Do you have mayonnaise recipes?"}]}]model_inputs = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to("cuda")generated_ids = model.generate(model_inputs, max_new_tokens=100, generation_config=model.generation_config)response = tokenizer.batch_decode(generated_ids)[0]print(response)
测试部署
启动后,可以通过如下命令测试 vLLM OpenAI 兼容接口:
curl http://localhost:8000/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "MiniMaxAI/MiniMax-M2.1", "messages": [ {"role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."}]}, {"role": "user", "content": [{"type": "text", "text": "Who won the world series in 2020?"}]} ] }'
推理参数
MiniMax团队推荐使用以下参数以获得最佳性能:temperature=1.0,top_p = 0.95,top_k = 40。默认系统提示:
You are a helpful assistant. Your name is MiniMax-M2.1 and is built by MiniMax.
如果你看到这里,说明你已经意识到:
大模型真正的差距,早就不只在参数和榜单上了。
像 MiniMax M2.1 这样的变化,其实只是一个开始。
如果你不想被信息洪流淹没,也不想每天被“标题党新闻”割注意力,欢迎订阅!
下一篇,会更关键。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:

2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!
更多推荐

所有评论(0)