还没看到OpenAI,就看到了Open-Sora的全面开源。

2024-03-18 热点资讯 关注公众号

机器之心发布

机器之心部

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。

先睹为快,我们先看一段由 Colossal-AI 团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频。

Open-Sora 1.0 生成的都市繁华掠影

这仅仅是 Sora 复现技术冰山的一角,关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo 展示和详细的上手教程,Colossal-AI 团队已经全面免费开源在 GitHub,同时笔者第一时间联系了该团队,了解到他们将不断更新 Open-Sora 的相关解决方案和最新动态,感兴趣的朋友可以持续关注 Open-Sora 的开源社区。

Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora

全面解读 Sora 复现方案

接下来,我们将深入解读 Sora 复现方案的多个关键维度,包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

模型架构设计

模型采用了目前火热的 Diffusion Transformer (DiT) [1] 架构。团队以同样使用 DiT 架构的高质量开源文生图模型 PixArt-α [2] 为基座,在此基础上引入时间注意力层,将其扩展到了视频数据上。具体来说,整个架构包括一个预训练好的 VAE,一个文本编码器,和一个利用空间 - 时间注意力机制的 STDiT (Spatial Temporal Diffusion Transformer) 模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间 - 时间注意力机制的 Latte [3] 模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。

STDiT 结构示意图

整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的 Variational Autoencoder (VAE) 的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入 (text embedding) 一起训练 STDiT 扩散模型。在推理阶段,从 VAE 的潜在空间中随机采样出一个高斯噪声,与提示词嵌入 (prompt embedding) 一起输入到 STDiT 中,得到去噪之后的特征,最后输入到 VAE 的解码器,解码得到视频。

模型的训练流程

训练复现方案

我们向该团队了解到,Open-Sora 的复现方案参考了 Stable Video Diffusion (SVD)[3] 工作,共包括三个阶段,分别是:

1) 大规模图像预训练;

2) 大规模视频预训练;

3) 高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。

训练方案三阶段

第一阶段:大规模图像预训练

第一阶段通过大规模图像预训练,借助成熟的文生图模型,有效降低视频预训练成本。

团队向我们透露,通过互联网上丰富的大规模图像数据和先进的文生图技术,我们可以训练一个高质量的文生图模型,该模型将作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空 VAE,他们采用了 Stable Diffusion [5] 模型预训练好的图像 VAE。该策略不仅保障了初始模型的优越性能,还显著降低了视频预训练的整体成本。

第二阶段:大规模视频预训练

第二阶段执行大规模视频预训练,增加模型泛化能力,有效掌握视频的时间序列关联。

我们了解到,这个阶段需要使用大量视频数据训练,保证视频题材的多样性,从而增加模型的泛化能力。第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI 团队使用了 PixArt-alpha [2] 的开源权重作为第二阶段 STDiT 模型的初始化,以及采用了 T5 [6] 模型作为文本编码器。同时他们采用了 256x256 的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。

第三阶段:高质量视频数据微调

第三阶段对高质量视频数据进行微调,显著提升视频生成的质量。

团队提及第三阶段用到的视频数据规模比第二阶段要少一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,他们实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

团队表示,在 Open-Sora 的复现流程中,他们使用了 64 块 H800 进行训练。第二阶段的训练量一共是 2808 GPU hours,约合 7000 美元,第三阶段的训练量是 1920 GPU hours,大约 4500 美元。经过初步估算,整个训练方案成功把 Open-Sora 复现流程控制在了 1 万美元左右。

数据预处理

为了进一步降低 Sora 复现的门槛和复杂度,Colossal-AI 团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动 Sora 复现预训练,包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型 LLaVA [7] 生成精细的提示词。团队提到他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频 / 文本对可直接用于训练。借助他们在 GitHub 上提供的开源代码,我们可以轻松地在自己的数据集上快速生成训练所需的视频 / 文本对,显著降低了启动 Sora 复现项目的技术门槛和前期准备。

基于数据预处理脚本自动生成的视频 / 文本对

模型生成效果展示

下面我们来看一下 Open-Sora 实际视频生成效果。比如让 Open-Sora 生成一段在悬崖海岸边,海水拍打着岩石的航拍画面。

再让 Open-Sora 去捕捉山川瀑布从悬崖上澎湃而下,最终汇入湖泊的宏伟鸟瞰画面。

除了上天还能入海,简单输入 prompt,让 Open-Sora 生成了一段水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋。

Open-Sora 还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。

如果你还有更多视频生成的有趣想法,可以访问 Open-Sora 开源社区获取模型权重进行免费的体验。链接:https://github.com/hpcaitech/Open-Sora

值得注意的是,团队在 Github 上提到目前版本仅使用了 400K 的训练数据,模型的生成质量和遵循文本的能力都有待提升。例如在上面的乌龟视频中,生成的乌龟多了一只脚。Open-Sora 1.0 也并不擅长生成人像和复杂画面。团队在 Github 上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。

高效训练加持

除了大幅降低 Sora 复现的技术门槛,提升视频生成在时长、分辨率、等多个维度的质量,团队还提供了 Colossal-AI 加速系统进行 Sora 复现的高效训练加持。通过算子优化和混合并行等高效训练策略,在处理 64 帧、512x512 分辨率视频的训练中,实现了 1.55 倍的加速效果。同时,得益于 Colossal-AI 的异构内存管理系统,在单台服务器上(8*H800)可以无阻碍地进行 1 分钟的 1080p 高清视频训练任务。

此外,在团队的报告中,我们也发现 STDiT 模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的 DiT 相比,随着帧数的增加,STDiT 实现了高达 5 倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

一览 Open-Sora 模型视频生成效果

最后,让我们一睹Open-Sora模型在视频生成上的精彩表现。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650911307&idx=1&sn=a7f96f7af740a62e862db62230c05fc6&chksm=84e47635b393ff23a9046643078eae23a3170a4c8d34c6248ba2df795f2e10388527c0086a47&token=1135948699&lang=zh_CN#rd

欢迎持续关注 Open-Sora 开源项目:https://github.com/hpcaitech/Open-Sora

团队表示,他们将会继续维护和优化 Open-Sora 项目,预计将使用更多的视频训练数据,以生成更高质量、更长时长的视频,并支持多分辨率特性,切实推进 AI 技术在电影、游戏、广告等领域的落地。

参考链接:

[1] https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers

[2] https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

[3] https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

[4] https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation

[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original

[6] https://github.com/google-research/text-to-text-transfer-transformer

[7] https://github.com/haotian-liu/LLaVA

[8] https://hpc-ai.com/blog/open-sora-v1.0


结论与建议:
经过深思熟虑,我们建议大家关注Open-Sora开源项目的开放状态。Colossal-AI团队发布了一款完全开源的Sora模型——Open-Sora 1.0,这是一个值得投入时间和资源的项目。该模型采用了Diffusion Transformer架构,并融入了时序注意力模块,使得模型能够在不同场景中取得良好的视觉效果。此外,Open-Sora还具备高效的训练和推理方法,能够支持大量的数据集训练,并且已经在社交媒体平台上获得了广泛的关注。
然而,虽然Open-Sora的模型架构非常强大,但研究人员需要进一步研究如何提高其质量和效率。因此,建议用户关注Open-Sora的开发者团队,并在GitHub上了解他们的工作进度和未来的计划。Colossal-AI团队希望进一步优化模型,包括计算效率和训练效果,以便更好地服务于AI产业的发展。
最后,考虑到Open-Sora作为一个开源项目,团队将持续进行优化和改进,以确保模型的质量和效率。他们提供了一个便捷的视频数据预处理脚本,可以帮助用户快速实现Sora模型的初稿。建议用户关注Open-Sora社区,以获取更多信息。
值得注意的是,尽管Open-Sora已经有了一定的基础,但仍有许多潜力有待挖掘。团队希望继续收集更多的数据,用于构建更加高级和复杂的模型,以满足行业的需求。同时,他们也计划开发更多的高效工具和技术来加速模型的训练,提高训练效率。

上一篇:存储芯片涨价+增产,三星一季度利润将暴涨669%?
下一篇:南方基金|A股微调之际,有色金属逆势上涨
更多更酷的内容分享
猜你感兴趣
Open-Sora全面升级:16s视频生成及720p分辨率的开放源代码解决方案

Open-Sora全面升级:16s视频生成及720p分辨率的开放源代码解决方案

DIT-2架构优化了模型的稳定性和性能,提升了训练效率。同时,它还支持长视频生成和单模态文本到多种格式的输出。这个版本被称为Open-Sora 1.0,包含了全新的开源库和报告,可以帮助开发者更好地实现他们的项目。

热点资讯 04.28
我们成功实现OpenAI的没有Open技术的开源成果:OpenRLHF让大模型对接变得更简单

我们成功实现OpenAI的没有Open技术的开源成果:OpenRLHF让大模型对接变得更简单

机器之心报道编辑:Panda随着大型语言模型(LLM)规模不断增大,其性能也在不断提升。尽管如此,LLM 依然面临着一个关键难题:与人类的价值和意图对齐。在解决...

热点资讯 06.09
孩子没有的夫妻:看看梁朝伟与刘嘉玲的生活,你就懂了

孩子没有的夫妻:看看梁朝伟与刘嘉玲的生活,你就懂了

梁朝伟与刘嘉玲两人感情破裂多年,最终选择在日本独立生活。原因可能是他们缺乏有效沟通,甚至互相排斥对方的存在。他们不愿意面对没有孩子所带来的问题,害怕失去伴侣的支持。如今,他们的关系已经到了形同陌路的地步,分手已成为必然。梁朝伟选择日本独立生活的原因是不想暴露自身疑虑,防止财产纠纷。同时,他的愿望也是为了能真正摆脱过去,开始新的生活。

热点资讯 05.15
马斯克与OpenAI分道扬镳,大模型开源还是闭源,你怎么看?

马斯克与OpenAI分道扬镳,大模型开源还是闭源,你怎么看?

马斯克起诉OpenAI事件引发关注,争议焦点在于马斯克对OpenAI的开源要求。纽约大学副教授Julian Togelius认为开源是大势所趋,可防止权力集中。马萨诸塞大学教授Jie Wang则表示未来各主要参与者可能会部分开源,但不会包括最重要的部分。此次纠纷反映出AI浪潮下科学界的长期争论话题——开源还是闭源。

热点资讯 03.09
神级剧情展开:斗罗大陆全新蛇女王程惜上线,山寨美杜莎惨遭重击!霍雨浩激烈对决魂导炮爆头

神级剧情展开:斗罗大陆全新蛇女王程惜上线,山寨美杜莎惨遭重击!霍雨浩激烈对决魂导炮爆头

徐三石的“美杜莎幻影”连续打败新晋蛇女王程惜,令敌人大为惊讶。她不仅级别低只有52集,还与曾击败唐门第一战的徐三石战斗,结果遭到裁判徐三石的性别批判。大赛仍在继续,唐门球员们将前往酒店探望贝贝,并称赞她的表现。贝贝表扬霍雨浩的表现,但承诺明天的比赛中必须保持警惕,以免再次遭遇强大的对手。比赛即将开始,霍雨浩制定详细计划,而徐三石则是第一个出场。他无法赢得比赛,因此必须主动认输。第二天比赛开始时,徐三石自我介绍并撩妹,而美女则反击,声称要见识一下这位老色批。这场比赛充满了剑与盾的对抗,两人一出手就是近身肉搏。最终,女性利用特殊技能成功抵挡住了男子的攻击,这使得她获得了胜利。然而,在激战结束后,美女被迫释放了自己的武魂,并击败了徐三石。最终,在决赛中,唐门玩家来到了酒店,准备去看望表现出色的贝贝。贝贝赞扬霍雨浩表现优秀,但她承诺无论明天的比赛如何,都不能放松警惕,以免再遇到强大的对手。最终,游戏进入了尾声,美丽的蛇女终于战胜了强大的男子,赢得了比赛的胜利。

热点资讯 11.22
貂蝉皮肤即将更新:仅一天时间却引发巨大争议与变化?

貂蝉皮肤即将更新:仅一天时间却引发巨大争议与变化?

“王者荣耀”官方宣布正式服将于1天内更新,新版本引入澜、明世隐、王昭君三大版本之子,但已有一段时间的游戏时间为玩家提供了阅读资源。其中,王昭君的表现仍然稳定,在辅助玩法上略有削弱,未来输出玩法可能会加强。此外,游戏中的法师角色数据也在发生变化,以应对最新情况。这一消息引发了玩家对法师分路变化的关注,部分玩家认为法师的整体实力将得到提升。但同时,也有玩家对此表示担忧,认为数值变动有限。

热点资讯 11.22
华为将公开出售其部分业务以换取大量现金,业界震惊:尊界公司有危吗?

华为将公开出售其部分业务以换取大量现金,业界震惊:尊界公司有危吗?

华为将在广州车展上推出的尊界S800备受关注,成为备受瞩目的两款车型之一。自尊界S9销量不佳后,华为已经连续注册多个商标,显示即将推出新款车型的决心。此外,除了尊界外,华为还推出了其他新产品,但在与小米、极氪等企业的竞争中逐渐失去了领先地位。从目前看来,华为在试图通过不断的创新和拓展来提高品牌力,但也在消耗自己的品牌力。

热点资讯 11.22
小米SU7集体故障:官方回应

小米SU7集体故障:官方回应

小米SU7自动泊车撞墙撞柱事件引发热议。多地车主反映车辆在自动泊车功能出现故障,造成不同程度的撞击及刮蹭损伤。其中一名车主表示,车辆在去年购买的MIUI 11系统中启用此功能,但从未遇到过此类问题,但在今年4月的首次使用过程中就出现了碰撞。对于此事,小米汽车官方已承认存在系统Bug,并愿意承担全部维修费用并提供免费维修车辆和代步出行补贴。不少网友对此表示认可,但也有人担心自动泊车功能会成为新的安全隐患。目前已有媒体报道了多起此类事故的发生,提醒用户在使用自动泊车功能时要格外小心。对于此事,业界人士也发表看法,认为自动泊车虽然便捷,但对于驾驶员来说仍需保持专注,注意识别停车位置,以防事故发生。

热点资讯 11.22
小鹏的未来:蔚来的挑战与机遇

小鹏的未来:蔚来的挑战与机遇

蔚来发布2024年第三季度财报,数据显示蔚来共交付61855台车辆,创单季交付历史最高纪录。然而,整体来看,蔚来的亏损仍然严重,达到50.597亿元,亏损额同比增长8.1%。由于蔚来推出的新势力产品乐道L60逐渐走红,蔚来本季度交付指引和营收指引均创下了历史新高。然而,蔚来并未能保持目前的增长势头,今年蔚来已经亏掉超过150亿元,处于新势力榜后五的位置。因此,李斌在财报会议中强调了蔚来要将更多精力集中在两个品牌乐道和萤火虫上,并期待在未来实现全面盈利。值得注意的是,随着乐道的销量逐渐提升,蔚来卖车单价将进一步下降。尽管如此,蔚来的成绩仍未稳定,排名仍处于下风。在此背景下,李斌提出蔚来应继续保持对未来的规划与挑战。

热点资讯 11.22
10月豪华品牌销量盘点: BBA与理想问界齐升!双雄争艳的豪华车市场:一个月度销量排名更新

10月豪华品牌销量盘点: BBA与理想问界齐升!双雄争艳的豪华车市场:一个月度销量排名更新

"金九银十"结束,豪华车市场竞争激烈,奔驰、宝马、奥迪仍是主流,但自主新势力异军突起;销量前三分别为奔驰、宝马、奥迪,其中奔驰以40.8万元单车利润高居首位,其余两强依次排在第三、第四位;自主品牌中,理想、问界两款车型表现优异,理想售价30.9万元,问界售价37.6万元;腾势车型主打科技感和体验,但高端价位也达60万。一线豪华品牌面临考验,市场份额下滑;雷克萨斯、沃尔沃仍处于领先地位。

热点资讯 11.22
平安银行市值跌超2600亿:行业格局变迁引关注

平安银行市值跌超2600亿:行业格局变迁引关注

平安银行自2012年成立以来股价经历多次下滑,尤其在高管失联、频繁被处罚等负面新闻曝光后更是雪上加霜。股价由最高时期的2166.71元/股跌至目前的4258.03元/股,仅上涨了50%左右。由于股份有限公司以高股息著称,其股价调整幅度也较大。可以看出,平安银行的股价波动与工商银行的股价走势形成了鲜明对比。过去三年,平安银行的股价一路下跌,累计跌幅超过60%,导致总市值缩水近2600亿元,这也反映了行业整体的疲软态势。同时,平安银行过去的高管失联事件,以及近年来频发的高管被处罚情况,进一步加剧了投资者对平安银行未来前景的担忧。因此,投资者应谨慎对待平安银行的股价变动,并考虑是否适合购买该公司的股票。

热点资讯 11.22
杉杉股份 控权权摇摆:嫡子落败,200亿市值背后的故事

杉杉股份 控权权摇摆:嫡子落败,200亿市值背后的故事

过遗赠),那么公司所有股东就有权利分享创始人遗产。这样,企业的控制权就会按照一定的规则过渡到下一代。这种制度对于保护弱势群体和企业稳定发展具有重要意义。 尽管如此,关于代际传承是否存在狭隘的问题,以及职业经理人或亲属传承是否会带来积极作用等,仍然是值得深入探讨的问题。随着社会的发展和科技的进步,我们需要不断探索和发展更适合现代企业的传承方式。

热点资讯 11.22
欧元创两年新低!经济数据严峻,欧央会议或升息应对疲软情况

欧元创两年新低!经济数据严峻,欧央会议或升息应对疲软情况

周五下午,欧盟经历了一次两年来最低的欧元水平。交易员预计特朗普的全球关税计划将破坏欧洲经济增长并迫使欧洲央行采取更加激进的降息措施。欧元区PMI数据恶化导致欧元跌至今年最低水平。欧央行在下月进一步降息50个基点的可能性高达50%。此外,市场担心特朗普总统可能会对欧元区依赖出口的经济体实施严厉的关税打击。荷兰国际集团预测明年欧元将继续贬值。市场正担忧天然气价格和乌克兰地缘政治关系等因素对欧元的影响。高盛则认为,如果应对关税冲击的政策措施出现问题,欧元可能会继续贬值。未来是否会大幅降息还是未知数。然而,鉴于欧元区陷入衰退的局面,决策者需要权衡,以便做出是否应该加快宽松步伐的决定。

热点资讯 11.22
亿万富翁之路:一次重要的机遇与挑战 - 从普通到百万富翁的转变过程

亿万富翁之路:一次重要的机遇与挑战 - 从普通到百万富翁的转变过程

比特币价格接近十万美元,但作者错过成为亿万富翁的机会。他与瑞波币擦肩而过,认为两者技术都不佳。

热点资讯 11.22