CogView 与 CogVideo：智谱如何用开源策略切入 AI 视觉生成赛道？

当 Midjourney 和 Sora 用「封闭+付费」的方式攻城略地时，智谱选择了另一条路：开源。

AI 生图不只有 Midjourney：CogView 的技术路线

提到 AI 生成图像，大多数人首先想到的是 Midjourney 或 Stable Diffusion。但在中国市场，CogView 是最早的玩家之一——事实上，CogView 的第一个版本发布于 2021 年，比 Midjourney 的爆红还要早。

CogView 的技术路线和 Stable Diffusion 有所不同。它最初基于 Transformer 架构的自回归生成方式，后续版本逐步引入了扩散模型（Diffusion Model）的思路。CogView-3 采用了级联扩散模型，先生成低分辨率图像再逐步提升细节，在生成质量和效率之间取得了不错的平衡。

对于普通用户来说，CogView 最大的吸引力在于对中文提示词的理解。你不需要像用 Midjourney 一样绞尽脑汁写英文 prompt，直接用中文描述你想要的画面，CogView 就能理解。比如「一幅水墨山水画，远处有云雾缭绕的山峰，近处有一叶扁舟」——这种描述在英文模型上很难获得理想的效果，因为模型对中国传统美学的理解有限。

CogVideo：从静态图到动态视频

如果说 CogView 是智谱在图像生成领域的布局，CogVideo 则是更具野心的尝试——AI 视频生成。

CogVideo 是学术界最早的开源文本生成视频模型之一。它能够根据文本描述生成短视频片段，虽然在生成质量上还不能和 Sora 的演示效果相比，但它的开源属性使得全球研究者都可以在其基础上进行改进和创新。

CogVideoX 是最新的版本，在视频质量、长度和一致性上都有显著提升。它支持多种分辨率和时长的视频生成，并且提供了文本到视频、图片到视频等多种生成模式。

视频生成比图像生成难得多——不仅要保证每一帧的画质，还要保证帧与帧之间的时间一致性（一个人走路，不能这一帧穿红衣服下一帧变蓝衣服）。CogVideo 在时间一致性方面的处理是其技术亮点之一。

开源策略：为什么免费送出去反而更值钱？

智谱选择将 CogView 和 CogVideo 开源，这个决策背后有深层的战略考量。

在 AI 视觉生成领域，竞争格局是「封闭产品 vs 开源生态」。Midjourney 和 Sora 走的是封闭路线——你只能通过他们的平台使用，无法自己部署。Stable Diffusion 走的是开源路线，结果催生了一个庞大的社区生态。

智谱选择开源，本质上是选择了和 Stable Diffusion 类似的生态战略。开源的好处是多方面的。首先，开源项目能吸引全球开发者贡献代码和改进方案，相当于免费获得了一个大型研发团队。其次，当开发者基于你的开源模型构建产品，他们就成了你生态的一部分——未来他们需要更强的模型、更好的服务时，智谱的商业产品就是自然的选择。

从数据来看，CogView 和 CogVideo 在 GitHub 上的关注度持续增长，社区贡献者来自全球各地。这种全球化的开源影响力，是智谱品牌价值的重要组成部分。

应用场景：谁在用 AI 生成的图像和视频？

AI 视觉生成不是玩具，它已经在多个行业产生了实际价值。电商领域，商家用 AI 生成产品展示图，成本只有传统拍摄的十分之一。广告行业，创意团队用 AI 快速生成概念图，大大缩短了提案周期。游戏和影视行业，美术团队用 AI 生成概念设计，作为创作的起点。教育领域，老师用 AI 生成教学插图，让抽象概念变得可视化。

编辑点评

CogView 和 CogVideo 是智谱技术布局中容易被忽略的一环。大家关注智谱，往往聚焦于文本大模型，但视觉生成才是 AI 应用最具商业价值的方向之一。智谱选择开源策略是明智的——在 Midjourney 和 Sora 的封闭壁垒面前，硬碰硬做产品很难突围，但通过开源建立生态、培养开发者，反而能走出一条差异化的路。对于中国的内容创作者来说，一个原生支持中文的 AI 视觉生成工具，需求是真实存在的。

原文链接

CogView 与 CogVideo：智谱如何用开源策略切入 AI 视觉生成赛道？

AI 生图不只有 Midjourney：CogView 的技术路线

CogVideo：从静态图到动态视频

开源策略：为什么免费送出去反而更值钱？

应用场景：谁在用 AI 生成的图像和视频？

编辑点评

相关推荐

AutoGLM 深度拆解：AI 是怎么学会自己点外卖、订机票的？

Kimi 智能体平台：人人都能创建 AI 助手的时代，真的来了吗？

MiniMax M2.5：1 美元 1 小时的 AI 编程搭档，用真实世界训练出来的硬实力