国内高校研发出类似Sora模型的VDT，通用视频扩散Transformer已被ICLR 2024接受。

2024-02-25 热点资讯关注公众号

2月16日，OpenAI发布Sora标志着视频生成技术的重大突破。不同于市面上基于2D Stable Diffusion拓展的主流方法，Sora采用了Diffusion Transformer架构。中国人民大学的研究团队在ICLR 2024上发表的一篇论文《VDT: General-purpose Video Diffusion Transformers via Mask Modeling》揭示了这一选择背后的深层原因。
国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

这篇论文展示了研究者提出的Video Diffusion Transformer (VDT)模型，它利用Transformer强大的token化和注意力机制捕捉长时序或非规则的时间依赖性，在处理视频数据时展现出优越性能。VDT不仅能够生成时间连贯的视频帧，还能模拟三维对象随时间的物理动态。
国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

VDT创新性的时空掩码建模机制使其具备统一处理多种视频生成任务的能力，包括无条件生成、视频预测、插值以及文本到图像生成等。通过简单的token空间拼接，VDT能够灵活处理不同长度和模态的条件信息，并且在不改变模型结构的前提下应用于多种任务。
国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

深入探究VDT的网络架构，其与Sora的设计有诸多相似之处。两者均采用将原始像素投影至潜在空间以减少计算量的策略，并在Transformer Block中融入时间注意力层以实现对时间维度的有效建模。尽管如此，VDT与Sora在实现细节上存在差异：VDT选择分离处理时空注意力，而Sora则倾向于合并时空维度进行单一注意力处理。此外，Sora还考虑了文本条件融合的可能性，这可能是其强大视频动态能力的来源之一。
国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

实验结果显示，VDT在不同视频生成任务上的表现优异，同时展现出了高度的可扩展性和灵活性。研究者通过消融实验验证了Transformer架构在视频扩散任务中的有效性，并指出模型性能与其参数规模（GFlops）强相关，暗示着更大的模型可能带来更好的结果。
国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

值得注意的是，VDT还在Physion数据集上成功模拟了一些简单物理规律，进一步证明了Transformer架构的学习潜力。然而，目前VDT仅在小型学术数据集上进行了测试，期待未来能在中国公司的支持下，发展出国产版Sora，并在更多实际应用场景中发挥更大作用。随着GPT模型的成功及自回归模型的普及，Transformer在视频生成领域的深度应用有望为视觉智能提供新的途径和发展方向。
国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

上一篇:我们为何会在闹钟响起前就醒来
下一篇:身体虚，不会调理？中医教你几个常用方法，从此虚证不用愁

更多更酷的内容分享

猜你感兴趣

解密可灵：探索将扩散模型和Transformer相结合的原理与应用

快手发布首个文本到视频模型“可灵”，并公布具有30帧/秒清晰度的达1080p分辨率，但尚无公开版本供公众免费试用。通过参与快手用户反馈小组填写表格后即可开始使用。模型可以处理部分英文提示但需手动添加中文以解决格式问题。值得注意的是，模型生成时间较长且不包含动态性和复杂性高的内容。相比Sora性能优异但受限于样本量。

热点资讯 06.24

SEO升级！类Sora视频生成模型引领股价再创新高

Meta发布新品：全息AR眼镜Orion，引发股价飙升；Meta再次投下大手笔，发布类Sora的视频生成模型Movie Gen，最新总市值突破1.51万亿美元。影片展示了电影的多个功能，包括视频生成、个性化视频生成等，对用户体验有显著提升。

热点资讯 10.05

OpenAI 文生视频大模型 Sora 研发负责人 Tim Brooks 跳槽谷歌

蒂姆·布鲁克斯宣布离职，加入谷歌 DeepMind。他在OpenAI研发Sora期间表现出色，并表示他对Google的工作充满了期待。同时，他也曾为Pixel手机摄像头提供AI支持，并在英伟达的研究中发明了InstructPix2Pix。

热点资讯 10.04

中国首个Sora级模型Vidu发布，16秒最长视频最高1080P

生数科技在中关村论坛发布中国首个长时长、高一致性、高动态性视频大模型——Vidu，这是国内首个Sora级别的视频大模型。Vidu模型融合Diffusion和Transformer技术，具有丰富的想象力和多镜头生成等特性，预计会在未来加速迭代提升。该模型的开发过程得益于团队在贝叶斯机器学习和多模态大模型上的长期积累，以及开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser，实现了大规模可扩展性验证。

热点资讯 04.27

南方电网黑掉科陆电子？美的投资大幅亏损，这家互联网巨头真的要凉了？

科陆电子又被南方电网拉黑，中标的2.56亿元项目因市场禁入措施无法执行。市场行情火爆，且公告未提供解禁原因。这一事件对科陆电子股票造成了严重影响。

热点资讯 11.10

以太坊挑战绝地反击，冲击3100，市场价值投资的杠杆思维解析

比特币与以太坊近期走势强劲，前者突破新高，后者突破新高，暗示二者可能面临转势。此外，以太坊已从守转攻，有望突破3,500美元的前高。两者之间存在剧烈汇率波动，有望引发新的投资热潮。综上所述，投资者应考虑从这两个角度寻求机会，同时需谨慎操作风险。

热点资讯 11.10

周末消息前瞻：A股三大悬念将持续影响走势

本周A股涨势猛烈，各大指数涨幅均超过10%，但波动加大，成交量亦创历史新高。值得注意的是，部分个股短期内涨幅过大，或存在异动风险，如中化岩土、华映科技等，后市面临调整压力。此外，互联网平台“直播炒股”现象受到严惩，相关账号被封。

热点资讯 11.10

拼多多造梦新质商家逆袭之路：科技驱动下的商业模式创新

反思传统商业模式，并尝试转型。查兰如带领村民开启了新一轮的发展之旅，他们选择坚守初心，打造属于家乡的独特品牌，从而在竞争激烈的市场中站稳脚跟。这一系列举措不仅吸引了众多顾客，也让丁集小镇逐渐成为国内婚纱礼服业的新焦点。

热点资讯 11.10

MIUI体验升级，小米平板7 Pro带你步入科技新世界

天际蓝：正面为窄边框，磨砂处理细腻易留指纹；背面摄像头位于长边框内，具备AlwaysOn技术，加价可选纳米柔光屏版；此次升级满意度如何，请查看原图。

热点资讯 11.10

探寻做小红书的秘密：七项关键因素解析

小红书运营的关键要素包括祛魅平台规则、放弃爆文幻想、企业号流量误区以及高转化笔记特性。祛魅平台规则强调不要过于追求爆款，而应该专注高质量的内容；放弃爆文幻想则告诫要理智看待热度，只有发布合规内容才能获得曝光；企业号流量误区则是盲目相信流量扶持，忽视了用户的参与度和互动性；高转化笔记应注重吸引眼球、激发购买欲望、建立信任和说服力。此外，还可以借鉴同行的成功经验，运用合适的内容形式和媒介来提高流量和转化率。

热点资讯 11.10

奥特曼教你如何通过互联网塑造未来——yc ceo专访录

山姆·奥特曼预测的超级人工智能将降临的时刻。他在采访中表示，能源充足和智能充足是实现其他所有愿景的关键要素，而无限能源和无限智能将带来丰富的应用前景。他还分享了他的创业经验和对于未来的展望。他对正在创业的人来说给出了宝贵的建议——尽快拥抱新技术，同时也要关注构建可持续提供价值的产品或服务。

热点资讯 11.10

制作自定义GTA风格的Waymo驾车轨迹：全生成式合成器上线!

"Machine之心AIxiv专栏"上发布的免费全生成式视角合成方法 "FreeVS" 拥有高效高品质的图像生成能力，并可直接部署于现实测试场景，为现有的“场景重建 - 新视角渲染”方法带来革新性突破。

热点资讯 11.10

直播带货需警惕的七大法律风险：避免经济损失，保障自身权益

"富媒体内容"在夜间背景颜色为#444444的新闻表单中，当不使用自定义框中的图像时，文章段落间有约22px的距离；在暗色主题下，标题和段落的行间距较小，但仍有足够空间以保持可读性。

热点资讯 11.10

尝试新方法：解决OpenAI模型运行速度问题，提高开发效率

OpenAI的AI模型Orion在性能质量提升程度上远小于GPT-3到GPT-4的飞跃，可能影响AI模型的改进速度。为应对这一问题，OpenAI成立了“基础”团队，并计划基于AI合成数据训练Orion，但在后续训练中对模型作出更多改进。同时，OpenAI正在推进Orion的安全测试，并计划于明年年初发布这一模型。此外，OpenAI还通过收购了Chat.com域名，以反映模型开发的变化。

热点资讯 11.10