Hailuo 02:全新 NCR 架构,3 倍参数、4 倍数据、1080p 原生输出——3.7 亿视频训练出来的下一代 AI 视频生成。
视频生成的「分辨率困境」
如果你用过 AI 视频生成工具,可能会发现一个普遍的问题:生成的视频看起来总是「糊」的。很多工具号称支持高清输出,但实际上是先生成低分辨率视频,再用超分辨率算法放大——就像把一张小图拉大,清晰度不可能真的好。
Hailuo 02 选择了一条更难但更正确的路:原生 1080p 输出。模型在生成阶段就直接输出 1080p 分辨率的视频,而不是先生成 480p 再放大。这意味着画面中的每一个像素都是模型「想好了」才生成的,细节保留度和画面一致性都远超放大方案。
当然,原生 1080p 的计算成本是巨大的——这也是为什么大多数竞品选择走「放大」路线的原因。MiniMax 能做到这一点,靠的是他们在模型架构上的创新。
NCR 架构:从头设计的新引擎
Hailuo 02 采用了全新的 NCR(Next-generation Continuous Representation)架构。相比上一代,参数量扩大了 3 倍,训练数据扩大了 4 倍。
参数量和数据量的提升不是简单的「堆料」。更大的参数量意味着模型能捕捉更复杂的视觉模式——比如水面的反光如何随波浪变化、头发丝在风中的飘动轨迹、远处建筑物在不同光线下的色彩渐变。这些细节是区分「AI 生成感」和「真实感」的关键。
而 4 倍的训练数据则确保模型见过足够多样的视觉场景。3.7 亿条视频——这个数字意味着什么?如果你每天 24 小时不间断地看视频,按每条平均 10 秒计算,你需要大约 117 年才能看完这些训练数据。模型从这个天文数字的视频库中学到了各种场景、光线、运动模式的知识。
从「生成视频」到「理解视频」
Hailuo 02 的一个重要进步是对物理规律的理解更加准确。
早期的视频生成模型经常出现违反物理的画面:水往上流、物体穿过墙壁、人走路时腿的运动不符合力学规律。这些「穿帮」对于短视频来说或许可以忍受,但对于需要真实感的商业应用(比如产品展示、建筑漫游、虚拟试穿)来说是致命的。
Hailuo 02 在这方面有了质的提升。它不只是在「画」视频,而是在某种程度上「理解」了画面中的物理关系——重力的方向、物体的质量感、光影的投射规律。虽然离完美还有距离,但已经让 AI 生成的视频第一次具备了在商业场景中直接使用的潜力。
这对内容创作行业的影响是深远的。一个电商卖家以前需要请摄影团队拍产品视频,现在可能只需要几张产品照片就能生成专业级的展示视频。一个独立游戏开发者以前做不起过场动画,现在可以用 Hailuo 02 生成高质量的游戏预告片。
编辑点评
Hailuo 02 的 3.7 亿视频训练集是一个很难被复制的壁垒。在 AI 领域,数据的质量和规模往往比算法本身更重要——你可以论文公开算法,但数据是搬不走的。MiniMax 依托海螺 AI 的用户生态积累了这个规模的视频数据,这不是短时间内能追赶的。NCR 架构和原生 1080p 的技术选择则表明 MiniMax 在视频生成领域的投入是长期的、系统性的。在 Sora、Runway、Pika 群雄逐鹿的赛道上,Hailuo 02 是一个不可忽视的中国选手。
🔗 原文链接:MiniMax 官网