听说过壕无人性的 OpenAI Sora 吧?动辄几百万美元的训练成本,简直就是视频生成界的“劳斯莱斯”。现在,潞晨科技宣布开源视频生成模型 Open-Sora2.0!
仅仅花费了区区20万美元(相当于224张 GPU 的投入),就成功训练出了一个拥有 110亿参数的商业级视频生成大模型。
性能直追“OpenAI Sora ”
别看 Open-Sora2.0成本不高,实力可一点都不含糊。它可是敢于叫板行业标杆 HunyuanVideo 和拥有300亿参数的 Step-Video 的狠角色。在权威评测 VBench 和用户偏好测试中,Open-Sora2.0的表现都令人刮目相看,多项关键指标上都能够媲美那些动辄花费数百万美元训练的闭源模型。
更令人激动的是,Open-Sora2.0在 VBench 的评测中,与 OpenAI Sora 之间的性能差距竟然从之前的4.52% 大幅缩小至仅仅0.69%!这几乎可以说是性能上的全面追平了!
而且,Open-Sora2.0在 VBench 中的得分甚至超过了腾讯的 HunyuanVideo,真可谓是“长江后浪推前浪”,以更低的成本实现了更高的性能,为开源视频生成技术树立了新的标杆!
在用户偏好评测中,Open Sora 在视觉表现、文本一致性和动作表现这三个关键维度上,至少有两个指标都超越了开源 SOTA 模型 HunyuanVideo 以及商业模型 Runway Gen-3Alpha 等。
低成本高效能的秘密武器
大家肯定好奇,Open-Sora2.0是如何做到以如此低的成本实现如此高性能的?这背后可有不少秘密武器。首先,Open Sora 团队在模型架构上延续了 Open-Sora1.2的设计思路,继续采用 3D 自编码器和 Flow Matching 训练框架。同时,他们还引入了 3D 全注意力机制,进一步提升了视频生成质量。
为了追求极致的成本优化,Open-Sora2.0从多个方面入手:
- 严格的数据筛选,确保高质量的训练数据输入,从源头提升效率。
- 优先进行低分辨率训练,高效学习运动信息,降低计算成本。要知道,高分辨率训练的成本可是低分辨率的几十倍呢!
- 优先训练图生视频任务,加速模型收敛,进一步降低训练成本。而且,在推理阶段,还可以通过文本生图再生视频(T2I2V),以获得更精细的视觉效果。
- 采用了 高效的并行训练方案,结合 ColossalAI 和系统级优化,大幅提升计算资源利用率。各种诸如高效的序列并行和 ZeroDP、细粒度控制的 Gradient Checkpointing、训练自动恢复机制等等“黑科技”加持,让训练效率大大提升。
据估计,市面上10B 以上的开源视频模型,单次训练成本动辄上百万美元,而 Open Sora2.0将这个成本降低了5-10倍。这简直是视频生成领域的福音,让更多人有机会参与到高质量视频生成的研发中来。
开源共享,共建繁荣生态
更令人称赞的是,Open-Sora 不仅开源了模型代码和权重,还开源了全流程训练代码,这无疑将极大地促进整个开源生态的发展。正如第三方技术平台统计,Open-Sora 的学术论文引用量在半年内就获得了近百引用,在全球开源影响力排名中稳居首位,成为全球影响力最大的开源视频生成项目之一。
Open-Sora 团队还积极探索高压缩比视频自编码器的应用,以大幅降低推理成本。他们训练了一款高压缩比(4×32×32)的视频自编码器,将单卡生成768px、5秒视频的推理时间从近30分钟缩短至3分钟以内,速度提升了10倍! 这意味着未来我们能够更快地生成高质量的视频内容。
潞晨科技推出的开源视频生成模型 Open-Sora2.0,以其低成本、高性能、全面开源的特性,无疑给视频生成领域带来了一股强劲的“平价”风。它的出现,不仅缩小了与顶级闭源模型之间的差距,更降低了高质量视频生成的门槛,让更多开发者能够参与其中,共同推动视频生成技术的发展。