一个模型既能流畅聊天又能写出高质量代码——听起来简单,实现起来远比想象的困难。
「两个模型」变「一个模型」的背后逻辑
在 V2.5 之前,DeepSeek 有一个有趣的产品矩阵:DeepSeek Chat 负责通用对话,DeepSeek Coder 负责代码生成。两个模型各有所长,但用户面临一个尴尬的选择——聊天的时候用 Chat,写代码的时候切到 Coder。
这个设计在实际使用中问题不小。因为现实中的任务很少是纯对话或纯代码的:你可能需要 AI 先理解一个业务需求(对话能力),然后生成实现方案(代码能力),再解释代码的工作原理(又回到对话能力)。两个模型来回切换既麻烦又割裂。
V2.5 的核心决策就是把两种能力合并到一个模型里。这不是简单地把两个模型的训练数据混在一起——那样很容易导致「什么都会一点,什么都不精通」。DeepSeek 通过精心设计的多阶段训练策略,让 V2.5 在两个方向上都保持了高水准。
128K 上下文:能看完一整个代码库
V2.5 支持 128K Token 的上下文窗口——大约相当于一本 300 页的书,或者一个中等规模的代码仓库。
这个能力在代码场景中特别有价值。现实中的编程任务几乎不可能在一个文件里完成:你需要理解项目的整体架构、多个文件之间的依赖关系、接口定义和实现细节。如果 AI 一次只能看几千行代码,它给出的建议往往是「局部正确但全局不对」的。
128K 上下文让 V2.5 可以一次性「看到」足够多的代码上下文,给出更全面、更准确的建议。比如当你要重构一个函数时,V2.5 能同时看到这个函数的所有调用者,确保重构不会破坏其他地方的逻辑。
AlpacaEval 前三意味着什么?
AlpacaEval 是一个广泛使用的大模型对话能力评测排行榜,衡量的是模型在真实用户对话场景中的表现质量。V2.5 在这个排行榜上进入前三,这个成绩值得仔细看。
AlpacaEval 的评测方式是让 AI 模型和基准模型(通常是 GPT-4)分别回答同一组问题,然后由评判模型来判断哪个回答更好。这意味着 V2.5 的对话质量在很多场景中和 GPT-4 不相上下。
更重要的是,V2.5 是在统一了代码能力之后取得这个成绩的。这说明「统一」并没有牺牲对话质量——DeepSeek 找到了两种能力共存的正确方法。
对开发者生态的意义
V2.5 的统一模型策略对开发者来说有直接的好处:
简化技术栈:不需要维护两套模型接口,一个 API 端点解决对话和代码两种需求,降低了集成复杂度。
上下文连贯性:在同一个对话中,可以自然地从讨论需求过渡到写代码再回到讨论,模型能保持全程的上下文理解。
成本优化:维护一个模型比维护两个模型便宜得多,无论是 API 调用成本还是本地部署的资源消耗。
编辑点评
V2.5 的意义在于它验证了一个重要假设:对话能力和代码能力不是互斥的,统一模型可以在两个方向上同时做到顶级水平。这个结论看似显而易见,但在 V2.5 之前,行业里很多人还在争论「通用模型和专用模型哪个更好」。DeepSeek 用 V2.5 给出了自己的答案:通用模型,只要训练方法得当,完全可以兼具多种专业能力。