Sora模型精简至3B,更高效!

2024-02-19 热点资讯 关注公众号
    尽管Sora技术报告在细节披露上保持了低调,但通过对构建其核心的扩散Transformer模型所依据的一系列关键论文进行深入挖掘与解读,我们不难发现隐藏在这背后的诸多“秘密”。其中一篇由谢赛宁博士领衔的重要论文揭示了Sora模型可能存在的一个显著短板:其参数量可能仅为30亿,这在一定程度上导致了某些场景下的生成效果不尽如人意,比如在报告中展示的第一个视频片段,描绘了一位时尚女性漫步东京街头的画面。然而,令人期待的是,后续迭代版本的更新速度或将极为迅速。
Sora模型只有3B    (视频插播:“Sora模型只有3B | 笔记”)
Sora模型只有3B    在Sora引用的32篇论文中,第26篇尤为引人注目,即Peebles和谢赛宁共同撰写的《Scalable diffusion models with transformers》一文,在2023年国际计算机视觉大会(ICCV)上发表。两位背景深厚,Peebles在伯克利读博期间曾在Meta AI的FAIR实习,并与担任研究科学家的谢赛宁携手完成了此项研究,目前谢赛宁任教于纽约大学数据科学中心,担任助理教授;而Peebles现为OpenAI Sora项目的联合负责人,在Sora技术报告列表中位居第二。
    谢赛宁博士近期在社交媒体平台X上分享了他对Sora技术报告的独特见解:
    “我深感赞叹并感谢团队公开的深刻洞见与设计决策——Sora无疑是一项革命性成果,它将彻底颠覆视频生成领域。简而言之,Sora的核心就是一个基于扩散Transformer(DiT)模型的架构,该架构在ICCV 2023年发布的论文中详述:DiT整合了VAE编码器、ViT、DDPM以及VAE解码器,形成一个集大成的Transformer骨架扩散模型。
    值得注意的是,这里的VAE代表变分自编码器,它是一种能够无监督学习高维概率分布的深度学习模型,通过编码器和解码器实现数据的有效表示;DDPM则是去噪扩散概率模型,这一类生成模型通过模拟逆向扩散过程来高效生成数据。
    根据报告,Sora并未引入过多额外组件,其中所谓的“视频压缩网络”,似乎是对原始视频数据训练后的VAE应用,标记化在此过程中对确保时间连贯性起到了关键作用。有趣的是,虽然VAE本质上是卷积网络,但这意味着DiT实际上是一个混合模型结构。
    对于Sora可能仅拥有30亿参数这一点,谢赛宁博士提到,当初与Peebles合作研发DiT项目时,他们更关注模型的简单性和可扩展性,而非追求激进的创新。这种策略不仅带来理论上的优势,也赋予了模型实际应用中的灵活性。例如,利用ViT架构,Sora可以灵活处理不同大小的随机初始化块以控制生成视频尺寸,这是UNet等其他架构难以直接实现的。
    此外,谢赛宁博士猜测Sora可能采用了谷歌的Patch n’ Pack(NaViT)技术,使得DiT能更好地适应各种分辨率、持续时间和宽高比的变化。而在可扩展性方面,Sora证实了DiT在图像领域的扩展规律同样适用于视频生成任务,显示出强大的性能提升潜力。
    针对报告中首个视频质量欠佳的问题,谢赛宁博士推测该模型可能使用了一个基础尺寸较小的版本。他通过计算指出,若Sora的基础模型规模相当于DiT-XL/2,那么最终的16倍计算模型可能拥有约30亿参数,这样的模型大小并非不合理,且暗示着训练Sora模型所需的GPU资源可能低于预期,预示着未来迭代的速度将十分迅猛。
    数据的关键性地位不容忽视。从“涌现的模拟能力”部分我们可以看出,Sora成功展示了长格式一致性可以通过端到端训练获得,而无需复杂的主题驱动生成管道或物理模拟器。然而,有两个关键点尚未得到充分讨论:一是训练数据来源及其构建方式,这可能是Sora取得突破性成就的决定性因素;二是如何实现自回归式长视频生成,特别是在解决错误累积问题以保持长时间内生成质量和一致性的挑战。谢赛宁博士对此充满好奇,并大胆猜测Sora的数据来源可能涵盖了游戏引擎、电影、纪录片等多种高质量素材。
    与此同时,来自NYU团队的最新研究成果SiT值得关注。这款同样基于DiT架构的新模型,展现出了更为出色的性能和更快的收敛速度,人们期待它能在视频生成领域有出色表现。随着更多技术细节在未来被揭开,Sora及其背后的技术将进一步引领人工智能视频生成技术的发展潮流。

上一篇:烧光几十亿美金后,苹果的“造车梦”到底碎没碎?
下一篇:英伟达公开最快AI超级计算机Eos:集成了4608个H100!
更多更酷的内容分享
猜你感兴趣
vivo 推出端侧3B大模型,副总裁团队沉浸在AI世界,让手机操作更加便捷

vivo 推出端侧3B大模型,副总裁团队沉浸在AI世界,让手机操作更加便捷

vivo推出全新AI战略“蓝心智能”,包括3B端侧模型和PhoneGPT手机智能体。搭载更高性能的芯片和全新技术,旨在实现更多多模态能力。

热点资讯 10.10
Meta推出全新Llama 3.2模型量化版:更高效,更低能耗

Meta推出全新Llama 3.2模型量化版:更高效,更低能耗

Meta发布并优化了Llama 3.2的两个量化版本,包括1B和3B,这不仅有助于减少计算资源使用,还提高了模型性能和能耗,使其能够在更多平台上部署。Meta表示,他们采用量化感知训练和后训练量化两种方法进行了量化,量化后的模型具有更高的效率。此外,经过量化后,Llama 3.2的1B和3B模型分别支持8000个Token和12.8万个Token的上下文,但其性能却与原始版本基本一致。Meta已经将其量化模型应用到了一加12、三星S24+/S22及苹果iOS设备等移动平台。

热点资讯 10.27
精简5%员工队伍,让组织更高效!发布全员信:这一目标,我们承诺实现!

精简5%员工队伍,让组织更高效!发布全员信:这一目标,我们承诺实现!

响的同事,我们要尊重大家的权益,我们会尽力保障每一个受影响的同事。接下来的时间里,我们会尽快落实相关调整措施,希望大家能够理解并积极配合。 在此,我想强调的是,公司的决策并非针对任何人,而是出于我们对公司未来发展的考量。我们相信,在全体员工的共同努力下,我们可以实现公司的长足发展。无论是个人还是团队,都要积极适应变化,用更加饱满的热情投入到工作中来,共同创造公司的美好未来。 再次感谢大家的理解和支持,让我们一起,把握机会,共创辉煌! 这段话的主题概括为公司开始组织提效,精简部分人员,同时也给出了如何补偿受影响的同事,呼吁全体同事理解和配合。虽然这个决定可能会带来一些影响,但公司相信通过全体员工的共同努力,可以实现公司的长期稳定发展和竞争力的提升。

热点资讯 08.07
苹果隐藏的AI秘密:打造更强Siri,构建更小高效的模型

苹果隐藏的AI秘密:打造更强Siri,构建更小高效的模型

苹果致力于构建高效率AI大模型,并推出多个应用场景。面对挑战,苹果通过提高Siri唤醒词检测能力以解决智能助手的瓶颈。此外,苹果已与OpenAI、谷歌等对手深度合作,开发自家AI模型Ajax。今年6月,苹果召开开发者大会探讨人工智能未来潜力,其中也涉及Siri增强版的问题。根据报告,Siri有望具备更强能力,不需要唤醒词即可激活。

热点资讯 05.08
哪吒释然放下压力,成功实现互联网逆袭

哪吒释然放下压力,成功实现互联网逆袭

哪吒汽车疑似寻求外部资源资金扶持。目前,南宁产业投资集团已与合众汽车达成了战略合作,为哪吒汽车的海外供应链提供了支持。此外,南宁产业投资集团还将提供供应链金融支持,帮助哪吒汽车管理原材料采购、生产、物流等业务。同时,哪吒汽车国内三个生产基地也已经停产近一个月,部分生产线工人被裁员。在海外市场方面,哪吒汽车急需找到新的“落脚点”。此次合作将帮助哪吒汽车保障海外供应链的稳定,并确保其海外车型的生产与交付。最后,哪吒汽车已经寻求到了外部资源的支持,而这些都对公司的未来前景产生了积极的影响。

热点资讯 11.23
数据统计:中国钓鱼爱好者数量惊人,钓鱼第一股概念升温!

数据统计:中国钓鱼爱好者数量惊人,钓鱼第一股概念升温!

随着中国的钓鱼市场规模持续增长,2023年将达到318亿元,同比增长6.3%;同时,乐欣户外已成为全球最大的钓鱼装备制造商,市场份额为20.4%。在当前社会环境下,钓鱼运动吸引了大量年轻人,中国钓鱼参与者数量持续增加。此外,乐欣户外计划通过IPO募集资金来支持品牌开发及推广、产品设计及开发等。

热点资讯 11.23
金融危机爆发:Synapse公司破产引发储户大量财产损失

金融危机爆发:Synapse公司破产引发储户大量财产损失

遭遇欺诈事件,导致大量客户资金被冻结和受损,凸显了金融科技领域系统的风险性。Synapse及其合作银行在处理客户资金账户方面的行为引发了一场金融危機。

热点资讯 11.23
中国红牛再发声:传递品牌精神与价值,引领行业发展

中国红牛再发声:传递品牌精神与价值,引领行业发展

泰国天丝指责华彬集团在合资公司体系外生产红牛产品;中国红牛反驳指责,称50年协议书奠定红牛在中国市场基本的商业模式和合资各方的合营规则;最高人民法院终审判决驳回泰国天丝关于华彬集团存在利益输送行为的指控。 泰国天丝已就华彬集团侵犯其50年商标协议提起诉讼;华彬集团反驳声明认为已签署协议,并指中食、中浩两家公司亦为合营方;最高人民法院终审判决认定华彬集团不存在利益输送行为,泰国天丝败诉。这起涉及跨国品牌的纠纷将对中国乃至全球饮料行业产生深远影响。

热点资讯 11.23
更严厉的监管手段:上交所年内已罚多起撤单项目投行与保代

更严厉的监管手段:上交所年内已罚多起撤单项目投行与保代

华泰联合证券及刘鹭等3名保荐代表人在南京轩凯生物科技股份有限公司首次公开发行股票并在科创板上市申请过程中,未充分关注并审慎核查相关事项,导致申请人撤回申报文件,审核终止。上交所对其予以监管警示,并决定对华泰联合证券予以监管。

热点资讯 11.23
固态电池生产线:引领者已现 媒体报道中,众品牌竞争激战

固态电池生产线:引领者已现 媒体报道中,众品牌竞争激战

安徽安瓦新能源科技有限公司全面冲刺量产固态电池,降低固定资产投入30%,计划2025年推出第二代固态电池和第三代固态电池,力图在2026年推出固态电池,覆盖1500km以上车型。

热点资讯 11.23
AI制作3A画质的逼真视频!无限生成在线互动平台

AI制作3A画质的逼真视频!无限生成在线互动平台

第一个AI基础世界模拟器The Matrix问世,可实现无限长、高保真720p真实场景视频,实时交互。是由全华人团队打造,作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute的研究人员。该模型具有丰富的交互体验和强大的计算能力。

热点资讯 11.23
抱着汽车产业大腿,智驾公司版解决方案:独特优势引领行业变革

抱着汽车产业大腿,智驾公司版解决方案:独特优势引领行业变革

元戎启行为长城汽车争取1亿美元战略投资,这是今年自动驾驶行业最大的融资记录。元戎CEO周光表示公司将发展多品牌车型并进入生产线。尽管存在资金紧张和安全事故问题,自动驾驶行业仍面临竞争压力,但元戎启行有望找到更好的出路。元戎启行最近被长城汽车以1亿美元的金额收购。与其他同类型公司相比,元戎似乎是幸运的,它们能得到宝马金钥匙出生的Argo AI(市值10亿美元)和禾多科技(估值超10亿美元)的支持。与上述公司相比,元戎似乎是幸运的,它们能得到宝马金钥匙出生的Argo AI(市值10亿美元)和禾多科技(估值超10亿美元)的支持。在经历了短暂的无人驾驶探索期后,元戎似乎已经冷静下来,并寻求商业化的落地。虽然有来自阿里巴巴、东风、复星锐正等企业的投资支持,但现在元戎似乎正试图找到一个“大哥”。了解L4公司的现状时,可能需要回溯到那时,“梦想发烧”的年代。2012年,随着深度学习的发展,人们普遍认为可以通过理解物体的定义来辅助驾驶,但这也带来了安全问题,自动驾驶行业也面临着激烈的竞争。然而,元戎启行为长城汽车争取了1亿美元的战略投资,这可能是今年自动驾驶行业的最大融资记录。尽管存在资金紧张和安全事故问题,自动驾驶行业仍然面临竞争压力,但元戎启行有可能找到更好的出路。最近,元戎启行为长城汽车争取了1亿美元的战略投资,这可能是今年自动驾驶行业的最大融资记录。元戎CEO周光表示公司将发展多品牌车型并进入生产线。虽然存在资金紧张和安全事故问题,自动驾驶行业仍面临竞争压力,但元戎启行有望找到更好的出路。元戎启行最近被长城汽车以1亿美元的金额收购。与其他同类型公司相比,元戎似乎是幸运的,它们能得到宝马金钥匙出生的Argo AI(市值10亿美元)和禾多科技(估值超10亿美元)的支持。与上述公司相比,元戎似乎是幸运的,它们能得到宝马金钥匙出生的Argo AI(市值10亿美元)和禾多科技(估值超10亿美元)的支持。在经历了短暂的无人驾驶探索期后,元戎似乎已经冷静下来,并寻求商业化的落地。虽然有来自阿里巴巴、东风、复星锐正等企业的投资支持,但现在元戎似乎正试图找到一个“大哥”。了解L4公司的现状时,可能需要回溯到那时,“梦想发烧”的年代。

热点资讯 11.23
数位巨头之间的激烈对决:互联网市场的深度解析

数位巨头之间的激烈对决:互联网市场的深度解析

是实体企业与数字平台权力之争。同时,这也是一个经济转型期的深层次问题。数字经济时代的到来,使得谁能在掌控企业的命运方面占据主导地位成为了一个待解决的关键问题。在这种情况下,实体制定一套完善的数字经济法治体系显得尤为重要,政府应该加强对平台企业的监管,平台企业也应承担更多的社会责任,通过互利共赢的方式推动经济社会的发展。

热点资讯 11.23
月光之下:投递流量却难见盈利之路

月光之下:投递流量却难见盈利之路

月之暗面创始人杨植麟、张宇韬遭投资人在香港提起仲裁引发关注。AI大模型独角兽月之暗面面临竞争压力及商业化难题,主打新一代数学推理模型k0-math,于中考、高考等考试成绩领先OpenAI o1系列。月之暗面预计11月上线新模,并发布月活用户突破3600万。在国内AI原生应用市场,豆包与月之暗面仍存在一定差距。

热点资讯 11.23