海螺 AI Hailuo 02：3.7 亿视频喂出来的下一代视频生成模型

Hailuo 02：全新 NCR 架构，3 倍参数、4 倍数据、1080p 原生输出——3.7 亿视频训练出来的下一代 AI 视频生成。

视频生成的「分辨率困境」

如果你用过 AI 视频生成工具，可能会发现一个普遍的问题：生成的视频看起来总是「糊」的。很多工具号称支持高清输出，但实际上是先生成低分辨率视频，再用超分辨率算法放大——就像把一张小图拉大，清晰度不可能真的好。

Hailuo 02 选择了一条更难但更正确的路：原生 1080p 输出。模型在生成阶段就直接输出 1080p 分辨率的视频，而不是先生成 480p 再放大。这意味着画面中的每一个像素都是模型「想好了」才生成的，细节保留度和画面一致性都远超放大方案。

当然，原生 1080p 的计算成本是巨大的——这也是为什么大多数竞品选择走「放大」路线的原因。MiniMax 能做到这一点，靠的是他们在模型架构上的创新。

NCR 架构：从头设计的新引擎

Hailuo 02 采用了全新的 NCR（Next-generation Continuous Representation）架构。相比上一代，参数量扩大了 3 倍，训练数据扩大了 4 倍。

参数量和数据量的提升不是简单的「堆料」。更大的参数量意味着模型能捕捉更复杂的视觉模式——比如水面的反光如何随波浪变化、头发丝在风中的飘动轨迹、远处建筑物在不同光线下的色彩渐变。这些细节是区分「AI 生成感」和「真实感」的关键。

而 4 倍的训练数据则确保模型见过足够多样的视觉场景。3.7 亿条视频——这个数字意味着什么？如果你每天 24 小时不间断地看视频，按每条平均 10 秒计算，你需要大约 117 年才能看完这些训练数据。模型从这个天文数字的视频库中学到了各种场景、光线、运动模式的知识。

从「生成视频」到「理解视频」

Hailuo 02 的一个重要进步是对物理规律的理解更加准确。

早期的视频生成模型经常出现违反物理的画面：水往上流、物体穿过墙壁、人走路时腿的运动不符合力学规律。这些「穿帮」对于短视频来说或许可以忍受，但对于需要真实感的商业应用（比如产品展示、建筑漫游、虚拟试穿）来说是致命的。

Hailuo 02 在这方面有了质的提升。它不只是在「画」视频，而是在某种程度上「理解」了画面中的物理关系——重力的方向、物体的质量感、光影的投射规律。虽然离完美还有距离，但已经让 AI 生成的视频第一次具备了在商业场景中直接使用的潜力。

这对内容创作行业的影响是深远的。一个电商卖家以前需要请摄影团队拍产品视频，现在可能只需要几张产品照片就能生成专业级的展示视频。一个独立游戏开发者以前做不起过场动画，现在可以用 Hailuo 02 生成高质量的游戏预告片。

编辑点评

Hailuo 02 的 3.7 亿视频训练集是一个很难被复制的壁垒。在 AI 领域，数据的质量和规模往往比算法本身更重要——你可以论文公开算法，但数据是搬不走的。MiniMax 依托海螺 AI 的用户生态积累了这个规模的视频数据，这不是短时间内能追赶的。NCR 架构和原生 1080p 的技术选择则表明 MiniMax 在视频生成领域的投入是长期的、系统性的。在 Sora、Runway、Pika 群雄逐鹿的赛道上，Hailuo 02 是一个不可忽视的中国选手。

🔗 原文链接：MiniMax 官网

海螺 AI Hailuo 02：3.7 亿视频喂出来的下一代视频生成模型

视频生成的「分辨率困境」

NCR 架构：从头设计的新引擎

从「生成视频」到「理解视频」

编辑点评

相关推荐

AutoGLM 深度拆解：AI 是怎么学会自己点外卖、订机票的？

Kimi 智能体平台：人人都能创建 AI 助手的时代，真的来了吗？

MiniMax M2.5：1 美元 1 小时的 AI 编程搭档，用真实世界训练出来的硬实力