MiniMax M2.5 在 SWE-Bench Verified 拿到 80.2%,连续工作 1 小时仅需 1 美元——用真实世界的 Bug 训练出来的 AI 编程搭档。
一个反直觉的事实:AI 编程能力不是靠「刷题」练出来的
如果你关注 AI 编程领域的竞赛榜单,可能会注意到一个有趣的现象:很多模型在标准化测试中表现优异,但真正用起来却经常让人摇头。原因很简单——大多数模型的训练数据来自整理好的代码题库,而真实的软件开发环境完全是另一回事。
真实项目里,你面对的是几十万行代码的历史包袱,是文档过时三个版本的 API,是前任同事留下的「临时方案」(已经稳定运行两年)。这些混乱、真实、充满上下文依赖的场景,正是 MiniMax M2.5 选择的训练场。
MiniMax 团队做了一件很「笨」但很有效的事:他们搭建了数十万个真实的生产级开发环境,让模型在这些环境中用强化学习(Reinforcement Learning)反复试错、学习。不是精心编排的题目,而是原汁原味的项目代码、真实的 issue、真实的 CI/CD 流程。
SWE-Bench 80.2%:这个数字意味着什么?
SWE-Bench Verified 是目前业界公认最接近真实软件工程的 AI 编程评测。它从 GitHub 上的热门开源项目中提取真实的 Bug 报告和对应的修复方案,要求 AI 模型理解问题、定位代码、给出正确的补丁。
M2.5 拿到了 80.2% 的通过率。作为参考,这意味着每 10 个真实的 GitHub issue,它能独立解决 8 个。而且这不是那种「改个拼写错误」的简单 issue——SWE-Bench 里的问题往往涉及多文件修改、复杂的依赖关系和深层的逻辑缺陷。
更值得关注的是成本。M2.5 连续工作 1 小时仅需 1 美元。对比市面上其他同级别的 AI 编程工具,这个价格基本是「白菜价」。对于个人开发者和小团队来说,这意味着你可以让 AI 全天候帮你巡检代码、处理 Bug,而不必担心账单。
从「编程助手」到「编程搭档」的距离
市面上大多数 AI 编程工具扮演的是「助手」角色——你问一个问题,它给你一段代码。但 M2.5 瞄准的是更高的目标:成为能独立处理完整任务的「搭档」。
这个区别体现在哪里?举个例子:传统的 AI 编程助手能帮你写一个排序函数,但如果你说「生产环境的用户列表偶尔出现排序异常,可能跟分页逻辑有关」,助手往往无从下手。而 M2.5 经过真实环境训练后,它更擅长这种模糊的、需要上下文理解的问题定位。
这也解释了为什么 MiniMax 选择用真实环境做 RL 训练而不是走常见的监督学习路线。监督学习是「看答案学解题」,RL 是「自己反复尝试直到做对」。后者的学习效率看起来更低,但学到的能力更扎实、更泛化。
编辑点评
M2.5 的策略很清晰:不追求在各种通用评测上样样都好,而是在编程这个垂直领域做到极致的性价比。80.2% 的 SWE-Bench 成绩证明了能力,1 美元/小时的定价则打掉了使用门槛。对于 MiniMax 来说,这也是一种聪明的市场策略——在大模型的通用能力竞赛里很难跟资源更雄厚的公司硬碰硬,但在「编程」这个开发者强需求的细分领域建立口碑,反而可能走出差异化的路径。值得观察的是,这种「真实环境 RL」的训练方法是否会成为行业新范式。
🔗 原文链接:MiniMax 官网