MiniMax M2.5：1 美元 1 小时的 AI 编程搭档，用真实世界训练出来的硬实力

MiniMax M2.5 在 SWE-Bench Verified 拿到 80.2%，连续工作 1 小时仅需 1 美元——用真实世界的 Bug 训练出来的 AI 编程搭档。

一个反直觉的事实：AI 编程能力不是靠「刷题」练出来的

如果你关注 AI 编程领域的竞赛榜单，可能会注意到一个有趣的现象：很多模型在标准化测试中表现优异，但真正用起来却经常让人摇头。原因很简单——大多数模型的训练数据来自整理好的代码题库，而真实的软件开发环境完全是另一回事。

真实项目里，你面对的是几十万行代码的历史包袱，是文档过时三个版本的 API，是前任同事留下的「临时方案」（已经稳定运行两年）。这些混乱、真实、充满上下文依赖的场景，正是 MiniMax M2.5 选择的训练场。

MiniMax 团队做了一件很「笨」但很有效的事：他们搭建了数十万个真实的生产级开发环境，让模型在这些环境中用强化学习（Reinforcement Learning）反复试错、学习。不是精心编排的题目，而是原汁原味的项目代码、真实的 issue、真实的 CI/CD 流程。

SWE-Bench 80.2%：这个数字意味着什么？

SWE-Bench Verified 是目前业界公认最接近真实软件工程的 AI 编程评测。它从 GitHub 上的热门开源项目中提取真实的 Bug 报告和对应的修复方案，要求 AI 模型理解问题、定位代码、给出正确的补丁。

M2.5 拿到了 80.2% 的通过率。作为参考，这意味着每 10 个真实的 GitHub issue，它能独立解决 8 个。而且这不是那种「改个拼写错误」的简单 issue——SWE-Bench 里的问题往往涉及多文件修改、复杂的依赖关系和深层的逻辑缺陷。

更值得关注的是成本。M2.5 连续工作 1 小时仅需 1 美元。对比市面上其他同级别的 AI 编程工具，这个价格基本是「白菜价」。对于个人开发者和小团队来说，这意味着你可以让 AI 全天候帮你巡检代码、处理 Bug，而不必担心账单。

从「编程助手」到「编程搭档」的距离

市面上大多数 AI 编程工具扮演的是「助手」角色——你问一个问题，它给你一段代码。但 M2.5 瞄准的是更高的目标：成为能独立处理完整任务的「搭档」。

这个区别体现在哪里？举个例子：传统的 AI 编程助手能帮你写一个排序函数，但如果你说「生产环境的用户列表偶尔出现排序异常，可能跟分页逻辑有关」，助手往往无从下手。而 M2.5 经过真实环境训练后，它更擅长这种模糊的、需要上下文理解的问题定位。

这也解释了为什么 MiniMax 选择用真实环境做 RL 训练而不是走常见的监督学习路线。监督学习是「看答案学解题」，RL 是「自己反复尝试直到做对」。后者的学习效率看起来更低，但学到的能力更扎实、更泛化。

编辑点评

M2.5 的策略很清晰：不追求在各种通用评测上样样都好，而是在编程这个垂直领域做到极致的性价比。80.2% 的 SWE-Bench 成绩证明了能力，1 美元/小时的定价则打掉了使用门槛。对于 MiniMax 来说，这也是一种聪明的市场策略——在大模型的通用能力竞赛里很难跟资源更雄厚的公司硬碰硬，但在「编程」这个开发者强需求的细分领域建立口碑，反而可能走出差异化的路径。值得观察的是，这种「真实环境 RL」的训练方法是否会成为行业新范式。

🔗 原文链接：MiniMax 官网

MiniMax M2.5：1 美元 1 小时的 AI 编程搭档，用真实世界训练出来的硬实力

一个反直觉的事实：AI 编程能力不是靠「刷题」练出来的

SWE-Bench 80.2%：这个数字意味着什么？

从「编程助手」到「编程搭档」的距离

编辑点评

相关推荐

AutoGLM 深度拆解：AI 是怎么学会自己点外卖、订机票的？

Kimi 智能体平台：人人都能创建 AI 助手的时代，真的来了吗？

MiniMax Agent：50% 的员工每天都在用的 AI 智能体，到底好在哪？