MiniMax M2.1 ：10B 激活参数，拿下多语言 Coding 全球 SOTA | 云启伙伴

云启资本·2025年12月25日·7·0

用硬核技术说话

在顺利通过港交所聆讯、上市进程取得新进展的关键时点，云启天使轮项目「MiniMax」的模型研发也交出亮眼的新成绩。

近日，MiniMax 发布最新旗舰级 Coding & Agent 模型 M2.1，在衡量多语言软件工程能力的 Multi-SWE-bench 榜单中，以仅 10B 激活参数跑出 49.4% 成绩，超越多款国际顶尖模型，拿下全球 SOTA。

持续用硬核技术说话，M2.1 也成为 MiniMax 工程化能力与研发效率的最新注脚。和本期「云启伙伴」一起了解详情。

以下内容摘编自"量子位"

原标题：《AI Coding新王登场！MiniMax M2.1拿下多语言编程SOTA》

MiniMax 最新旗舰级 Coding & Agent 模型 M2.1对外发布了。

一边是港交所聆讯通过新进展，另一边新模型还在嗖嗖嗖上新——而且还 SOTA了。

它试图解决的，就是此前模型身上严重的"学科偏科"问题。

所谓偏科，指的是过去的模型，写写 Python 脚本或 Web 前端页面表现还可以，可一旦涉及到后端架构，亦或底层逻辑，表现往往会出现断崖式下跌。

M2.1 的核心进化，就在于它终于突破了这个难题，掌握了后端的开发规范。

M2.1 的发布，也证明了 MiniMax 在推进上市流程的同时，仍保持着高频的研发节奏。

更懂底层，10B 激活参数拿下 SOTA

M2.1 将对工程上下文的理解，转化为了对开发工具链的深度适配。它不仅能生成代码，更能熟练配合 Cursor、Claude Code 等主流编程工具，在存量代码库中执行精准的修复（Fix）或重构（Refactor）。

这意味着它不再是一个只会写新功能的菜鸟，而是一个能遵循既有架构规范、进行工程级操作的熟手。

具体来说，M2.1系统性提升了 Rust / Java / Golang / C++ / Kotlin / Objective-C / TypeScript / JavaScript 等语言的能力。

在WebDev与 AppDev 上，M2.1 针对业界普遍存在的移动端开发短板，显著加强了原生 Android / iOS 开发能力。

另外，M2.1作为率先引入 Interleaved Thinking 的模型系列，不仅能关注代码执行是否正确，还能同时关注模型对"复合指令约束"的整合执行能力。

使用过程中，M2.1 表现出了出色的泛化性，在 Claude Code、Droid（Factory AI）、Cline 等各类编程工具与 Agent 框架中均有出色表现。

为了验证上述能力在真实环境中的表现，MiniMax 还构建并开源了全新的测试基准VIBE（Visual & Interactive Benchmark for Execution in Application Development），将考核维度从纯文本扩展到了 Web、仿真、Android、iOS 及后端五个领域。

M2.1 最终取得了 88.6 的平均分，综合水准逼近 Claude Opus 4.5。特别是在开发环境最为复杂的 Android 子项上，它跑出了 89.7 分，这为那些试图用 AI 解决原生客户端难题的开发者提供了一个具备说服力的数据参考。

特点说了这么多，MiniMax M2.1 面对真实的编程任务表现究竟如何，接下来就真刀真枪地试上一试。

实测MiniMax M2.1

先看第一个案例——H5 小游戏开发。

为了更真实地模拟实际开发过程中的场景，我们没有一次性提完所有需求，而是将开发过程分成了三个阶段逐步进行。

我们要写的是一个"星际弹弓"游戏，第一轮的目标是搭建出最基本的游戏界面和功能。

只用不到一分钟，MiniMax M2.1 就完成了 HTML 架构、CSS 性和 JS 脚本的搭建。

实际运行结果也证明，M2.1 设计的代码满足了 prompt 当中的所有要求。

当然，这样设计出来的游戏没什么难度，我们需要在这个基础之上增加一些额外设定，这便是第二轮的任务。

M2.1 会读取已有代码和新的指令，在原有基础之上进行多轮次的修改。

结果页面当中也如期出现了"黑洞"，并且通过不断刷新可以发现，黑洞的大小和位置的确都是随机产生的。

接着进行试玩检验，球的确会受到黑洞的引力吸引，并且被吸入之后游戏自动结束。

这下难度确实上来了，但是好像又太难了，这种水多加面、面多加水的需求，也是实际开发当中经常遇到的情况，所以第三个阶段就是再引入一些新机制，降低一下难度，顺便再加一下视觉特效。

对照运行结果，逐一核对提示中的三点需求，确实都满足了。

这样这个"星际弹弓"游戏的开发过程就基本完成了，不过接下来还有一道加试题，用 Python 把这个程序重写一遍。

M2.1 理解了网页版的程序逻辑之后，抓住了所要表达的内容，并最终成功实现了从前端到 Python 的代码迁移。

接下来我们换一种语言，测试一下最新模型的后端开发能力。

过去的模型一直按照前端思路在写后端代码，造成的结果就是实际跑不通或者并不实用，但实测 M2.1 之后，感觉后端这块硬骨头确确实实被啃下来了。

正好最近量子位官网后台需要更新升级，我们就选择了主流开发语言 Java，实现的功能是权限设计体系。这是每个系统必不可少的体系，也是面向 Agent 大规模落地，从业者认为需要重新设计的关键部件。

因为这是一项系统任务，而非小修小补，所以我们没有选择直接用提示词去生成代码，而是先让模型根据需求输出了一份设计文档，接着再根据设计文档去实现代码。

模型很快就输出了一份 Markdown 文档，内容非常详细，包括了权限设计需要实现哪些类。

类都包含什么方法和属性，属性的类型、方法的参数、返回值和注释……都写得很清晰。

同时还根据我的需求，把类之间的关系也写清楚了，在设计之初很好地利用了Java语言的继承特性。

最后也给出了几个数据库表设计的建议，定义好了需要哪些字段和对应属性，看下来有没有感觉比你那个不写文档的同事还好用（Doge）？

接下来我们回到和模型的对话，让它根据它自己写的设计文档，生成代码（doge）。

模型生成的速度依然很快，输出的项目包结构很清晰，分好了实体类、枚举和实现逻辑等，代码中也写清楚了注释。IDE 的代码行数统计插件显示，这个小项目一共有1700多行代码，而我只花了不到一分钟时间，输入了两句话**。

接下来，我们又让 M2.1 给它配上一套UI界面。

结果非常惊喜，前面阶段所需的全部功能全都实现了。

再切换到低权限账号，能够进行的操作也匹配了一开始的设定。

总结下来呢，M2.1 确实是在后端逻辑的设计上有两把刷子，能够完成一个项目从后端到前台的完整交付。

当然它在多语言支持上修炼的本领还不止如此，像 Rust 这样的小众语言，M2.1 也进行了专门学习。

比如官方展示的案例当中，M2.1 用 Rust 打造了 CLI + TUI 双模式的 Linux 安全审计利器，支持一键对进程、网络和SSH等关键项的底层扫描与智能风险评级。

而且针对业界普遍存在的移动端开发短板，M2.1 显著加强了原生 Android / iOS 开发能力。

比如这个 iOS 桌面交互小组件，设计了"沉睡圣诞老人"点击唤醒机制，逻辑完整且具备原生级的交互动画效果。

MiniMax 选择在此时发新模型，背后又有怎样的目的呢？

IPO前夕的硬核进展

在刚刚通过港交所聆讯这一微妙的时间节点，MiniMax 选择发布 M2.1，是一种无声的战略宣言。

外界往往因 Talkie、海螺等爆款产品给这家公司贴上感性的标签，认为其长板在于语音和视频等多模态交互。

但 MiniMax 今年在 M2、M2.1 上接连发力，证明了文本模型的 coding、Agent 实力。

长期以来，行业内默认 AI 仅擅长 Web 前端或 Python 脚本等容错率高的任务，而 M2.1 通过对齐岗位上下文——比如真正理解 Go 语言的并发模型或 C++ 的内存管理机制——打破了这一天花板。

M2.1 同时也是 MiniMax 研发效率的一种具象化解释。招股书披露，公司成立至今仅消耗约 5 亿美元，便构建了全模态能力。

支撑这一效能的关键，在于其内部极高的"含AI量"——超过 80% 的代码已由 AI 完成。M2.1 本质上就是这位在内部长期服役的" AI 实习生"的能力外溢。

这种"内用转外售"的路径，意味着该模型在推向市场前，已经作为生产力工具支撑了 385 人团队的高强度迭代。

在流程高度 AI 化的背景下，MiniMax 对 AI 原生组织产生了独特的理解——AI 需要在更多岗位工种、更真实的生产场景中创造价值。

正是基于这种理解，才有了这个模型的诞生。

对于开发者而言，这或许比单纯的参数指标更具参考价值。

新模型展现的能力和价值，就是 MiniMax 最好的路演。

Talk is cheap，Show you Model～