资讯预计阅读 4 分钟

CogView 与 CogVideo:智谱如何用开源策略切入 AI 视觉生成赛道?

智谱旗下的 CogView 和 CogVideo 分别是 AI 图像生成和视频生成模型,均采用开源策略。在 Midjourney 和 Sora 主导的视觉生成赛道上,智谱选择了用开源来建立差异化优势。

#智谱AI#CogView#CogVideo#图像生成#视频生成#开源
CogView 与 CogVideo:智谱如何用开源策略切入 AI 视觉生成赛道?

当 Midjourney 和 Sora 用「封闭+付费」的方式攻城略地时,智谱选择了另一条路:开源。

AI 生图不只有 Midjourney:CogView 的技术路线

提到 AI 生成图像,大多数人首先想到的是 Midjourney 或 Stable Diffusion。但在中国市场,CogView 是最早的玩家之一——事实上,CogView 的第一个版本发布于 2021 年,比 Midjourney 的爆红还要早。

CogView 的技术路线和 Stable Diffusion 有所不同。它最初基于 Transformer 架构的自回归生成方式,后续版本逐步引入了扩散模型(Diffusion Model)的思路。CogView-3 采用了级联扩散模型,先生成低分辨率图像再逐步提升细节,在生成质量和效率之间取得了不错的平衡。

对于普通用户来说,CogView 最大的吸引力在于对中文提示词的理解。你不需要像用 Midjourney 一样绞尽脑汁写英文 prompt,直接用中文描述你想要的画面,CogView 就能理解。比如「一幅水墨山水画,远处有云雾缭绕的山峰,近处有一叶扁舟」——这种描述在英文模型上很难获得理想的效果,因为模型对中国传统美学的理解有限。

CogVideo:从静态图到动态视频

如果说 CogView 是智谱在图像生成领域的布局,CogVideo 则是更具野心的尝试——AI 视频生成。

CogVideo 是学术界最早的开源文本生成视频模型之一。它能够根据文本描述生成短视频片段,虽然在生成质量上还不能和 Sora 的演示效果相比,但它的开源属性使得全球研究者都可以在其基础上进行改进和创新。

CogVideoX 是最新的版本,在视频质量、长度和一致性上都有显著提升。它支持多种分辨率和时长的视频生成,并且提供了文本到视频、图片到视频等多种生成模式。

视频生成比图像生成难得多——不仅要保证每一帧的画质,还要保证帧与帧之间的时间一致性(一个人走路,不能这一帧穿红衣服下一帧变蓝衣服)。CogVideo 在时间一致性方面的处理是其技术亮点之一。

开源策略:为什么免费送出去反而更值钱?

智谱选择将 CogView 和 CogVideo 开源,这个决策背后有深层的战略考量。

在 AI 视觉生成领域,竞争格局是「封闭产品 vs 开源生态」。Midjourney 和 Sora 走的是封闭路线——你只能通过他们的平台使用,无法自己部署。Stable Diffusion 走的是开源路线,结果催生了一个庞大的社区生态。

智谱选择开源,本质上是选择了和 Stable Diffusion 类似的生态战略。开源的好处是多方面的。首先,开源项目能吸引全球开发者贡献代码和改进方案,相当于免费获得了一个大型研发团队。其次,当开发者基于你的开源模型构建产品,他们就成了你生态的一部分——未来他们需要更强的模型、更好的服务时,智谱的商业产品就是自然的选择。

从数据来看,CogView 和 CogVideo 在 GitHub 上的关注度持续增长,社区贡献者来自全球各地。这种全球化的开源影响力,是智谱品牌价值的重要组成部分。

应用场景:谁在用 AI 生成的图像和视频?

AI 视觉生成不是玩具,它已经在多个行业产生了实际价值。电商领域,商家用 AI 生成产品展示图,成本只有传统拍摄的十分之一。广告行业,创意团队用 AI 快速生成概念图,大大缩短了提案周期。游戏和影视行业,美术团队用 AI 生成概念设计,作为创作的起点。教育领域,老师用 AI 生成教学插图,让抽象概念变得可视化。

编辑点评

CogView 和 CogVideo 是智谱技术布局中容易被忽略的一环。大家关注智谱,往往聚焦于文本大模型,但视觉生成才是 AI 应用最具商业价值的方向之一。智谱选择开源策略是明智的——在 Midjourney 和 Sora 的封闭壁垒面前,硬碰硬做产品很难突围,但通过开源建立生态、培养开发者,反而能走出一条差异化的路。对于中国的内容创作者来说,一个原生支持中文的 AI 视觉生成工具,需求是真实存在的。

原文链接


相关推荐