一文读懂:中国复制Sora的模型架构、参数规模、数据规模和训练成本

2024-03-01 热点资讯 关注公众号
    导语:
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本    出门问问算法团队倾力撰写的万字长文,深度剖析了中国如何复制Sora这一轰动全球的视频生成模型。OpenAI在发布ChatGPT和Sora等闭源大模型时,技术报告的营销性质远超技术细节披露,特别是Sora的技术博客明确表示不分享具体实现方法,仅展示了其设计理念与令人震撼的效果演示。
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本    尚处于内测阶段的Sora,其影响力紧随一年多前ChatGPT之后,展现出了碾压现有视频生成模型的卓越性能,在维持高分辨率的同时,显著提升了视频生成长度及一致性表现。面对Sora带来的惊叹与反思,中国AI界一边为与OpenAI的差距感到忧虑,一边积极从不同角度进行技术解析与拆解。
    此刻,中国AI再次站在了关键的十字路口。作为技术人员,我们渴望了解Sora背后的具体实现逻辑;作为中国的创业者,我们追问能否复刻Sora?跨越哪些门槛才能成功复刻?是否存在一条让中国AI逆袭而上的强韧之路?
    本文旨在依据出门问问训练跨模态大语言模型“序列猴子”的实战经验和相关文献梳理,提供对Sora技术路线有理有据的猜想分析。
    本文主要探讨以下问题:
    1. Sora的架构是什么?
    2. 其编解码器采用何种技术?
    3. 训练数据规模多大?
    4. 是否大量使用模型再生数据?
    5. 模型规模及训练成本是多少?
    6. 大语言模型应扮演何种角色?
    7. 复刻Sora需关注的核心点有哪些?
    
    01. 通用多模态模型架构
    为了理解Sora的技术原理,我们首先构建了一个通用的多模态模型框架,并以文生视频任务为例进行阐述。该框架主要包括三大模块:
    - Tokenizer/Encoder(分词或编码器):将视频数据压缩成隐含表示并切块化为时空切片Token,其中Token可以是离散或连续的表示形式。
    - 跨模态对齐与转换生成:在统一的隐含空间中进行跨模态数据对齐与转换,训练时侧重对齐,推理时进行文本到视频的转换。此步骤涉及网络框架选择(如U-net与Transformer)以及模型类型(扩散模型与自回归模型如GPT)。
    - De-Tokenizer / Decoder(解码器):将生成的隐含Tokens还原成图像/视频,通常是Tokenizer过程的逆操作,也可能独立训练一个解码器。
    基于此通用架构,可衍生出多种不同的视频生成模型架构,如Diffusion模型(代表包括SD、Gen-2、Pika等)和GPT模型,后者利用LLM的强大上下文处理能力确保视频连贯性与一致性,并可能实现端到端自回归模型简化流程。
    02. Sora模型架构与编解码器
    尽管无法获得OpenAI的官方确认,业内普遍认为Sora采用了类似DiT的架构,实现了规模化视觉模型,并取得了惊艳效果。对于Sora的Tokenizer/De-Tokenizer部分,尽管OpenAI的技术博客并未详细说明,但我们根据Google的相关项目(如ViT、ViViT、NaViT和MAGViT V2)推测其可能的编解码器设计。
    03. 训练数据规模
    OpenAI并未公开Sora的训练数据量,但通过合理猜测,图片数据可能达到数十亿张级别,视频数据则至少为数百万小时;经过Tokenize后,总Tokens数量可能达到十万亿级别以上。
    04. 是否大量使用模型再生数据
    Sora很可能大量利用了自动标注的视频数据(由Dalle-3生成caption),甚至包含游戏引擎生成的高质量3D场景数据。此外,Sora还创新性地大规模运用了GPT-4对Prompt进行扩展描述,以增强视频的丰富度和逼真性。
    05. 模型参数规模与训练成本
    虽然OpenAI未公布Sora的参数规模与训练成本,但我们可以推测其模型参数规模约在百亿级别,训练成本约为千万美元级。通过对历史论文中的GPU使用量分析,结合当前大模型公司的预算考量,以及对算力消耗与模型参数、训练数据规模关系的理解,得出上述结论。
    06. 大语言模型的角色
    Sora在技术博客中暗示其并未大规模融合大语言模型(LLM),但鉴于Sora生成视频的一致性表现,推测存在某种LLM的赋能作用。未来版本的视频生成模型应尝试将LLM作为起点,联合文本与视频数据进行训练,从而提升模型世界知识的学习效率。
    07. 复刻Sora的关注重点
    复刻Sora时,应重点关注图片和视频编解码器的细节优化、高质量视频数据的获取与处理、如何高效利用其他模型产生数据、强化视频模型与LLM的深度融合、实现图片和视频的联合训练以及支持各种格式的统一处理。
    结语:
    通过对Sora关键技术问题的量化解答——百亿级别的参数规模、十万亿级别的Tokens数量、千万美元级别的训练成本——我们深入探讨了视频生成模型的未来发展路径。在中国AI业界,面对Sora所带来的挑战与机遇,我们不应悲观消极,而是要坚定信念,凭借过去一年在大语言模型领域的积累与快速迭代,通过独特的用户场景理解与技术创新,完全有能力迅速追赶乃至引领潮流。
    这场关乎AI未来的竞争,中国不仅参与其中,更期待在全球AI格局中占据领先地位,以深厚的创新底蕴,书写中国AI新篇章。时不我待,让我们秣马厉兵,枕戈待旦,共同开启中国AI新时代!

上一篇:沈阳疾控发出通知:6月30日前这些人需要补种疫苗
下一篇:从科幻到现实,物理学如何帮助我们实现脑机接口?
更多更酷的内容分享
猜你感兴趣
中信证券:GPT-5有望在夏季迎来面世,参数规模或达数百万亿,对训练数据需求将大幅提升

中信证券:GPT-5有望在夏季迎来面世,参数规模或达数百万亿,对训练数据需求将大幅提升

中信证券预测,GPT-5最快将于今年夏天面世。作为新一代的大语言模型,GPT-5有望在多个模态理解、长文本输入和zero-shot learning方面开创新纪元。预计GPT-5将在图像和视频模态、跨模态的内容生成和理解、长文本处理和长逻辑推理任务上有所突破。预计,为解决数据缺口,合成数据占比将持续增加,合成数据技术也需提升。预计GPT-5将简化企业定制化微调流程,支持更多应用场景。

热点资讯 04.21
快手发布自制文图大模型,参数规模高达十亿级,开启全新的内容创作与呈现方式

快手发布自制文图大模型,参数规模高达十亿级,开启全新的内容创作与呈现方式

快手推出新大模型"可图",用于AI创作图像及AI形象定制。该模型目前支持文生图和图生图两种功能,参数规模达十亿级。可图大模型平台已在快手App内测,面向内部业务团队提供支持。可图可在消费端用户中提供多种互动玩法和热点应用,包括"AI形象定制"等。此外,可图也可为创作者提供工具化能力,帮助他们创作和生产图像、视频素材。

热点资讯 05.31
苹果大模型震撼登场:300亿参数、多模态、MoE架构,华人作者占半数以上!

苹果大模型震撼登场:300亿参数、多模态、MoE架构,华人作者占半数以上!

苹果宣布放弃10年造车项目后,一部分团队转向生成式人工智能。近日,苹果公布自家30B参数的多模态大模型研究成果,并探讨了不同架构组件和数据选择的重要性。该研究发现图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据对建模设计的重要性顺序排列。同时,交错和纯文本训练数据对于少样本和纯文本性能很重要,而字幕数据对零样本性能最重要。这些趋势在微调后仍然存在,表明预训练期间呈现出的性能和建模决策在微调后得以保留。

热点资讯 03.17
360 智脑 7B 参数大模型发布:开启一次大规模文本输入的全新体验

360 智脑 7B 参数大模型发布:开启一次大规模文本输入的全新体验

360推出了智脑7B模型,该模型由3.4万亿Tokens的语料库训练而成,并且可以处理中文、英文和代码三种文本长度。它还经过了OpenCompass的主要评测数据集上的验证,证明了其性能。在LongBench、英文大海捞针等多任务测试中,360Zhinao-7B-Chat-32K模型也表现出了优异的成绩。除了模型权重和微调训练代码,该模型的推理代码也被公开。此外,所有工具都将开源,以便大模型开发者直接使用。

热点资讯 04.13
洋河、徽酒与“茅五泸”的竞争:一个洋河可以比肩四大名酒

洋河、徽酒与“茅五泸”的竞争:一个洋河可以比肩四大名酒

江南五虎在江浙地区崛起,占江苏白酒市场份额近40%,竞争日益激烈。 黄山归来,犹如一幅画卷,把古老的中国文化装点得独具魅力。

热点资讯 09.19
女子不堪男子频繁性侵,向公司反映却被回复:这是你的问题,不是我们的责任。

女子不堪男子频繁性侵,向公司反映却被回复:这是你的问题,不是我们的责任。

深圳男子PPT揭露出轨事实,自称曾下跪哀求女友不要举报。

热点资讯 09.19
外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

9月18日,深圳日本人学校10岁学生遭男子刺伤,已被现场捕获。中方继续采取有效措施,保障在外中国人的安全。

热点资讯 09.19
挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

随着《黑神话:悟空》的火热,国内玩家开始调侃欧美玩家的“女拳师”现象,国内一些工作室也试图利用男女话题来吸引眼球。最近一家被称为全女的GHG游戏工作室成立,并承诺将制作出完全由女性参与的3A级别开放世界游戏。然而,由于尚未完成游戏引擎的研发和成本控制,这款游戏可能会成为诈骗的一种手段。对此,我们建议大家保持理性判断,不要轻信不实信息,保护自己的权益不受侵犯。

热点资讯 09.19
大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

沃尔夫斯堡面临前所未有的挑战:汽车电动化、智能化转型和竞争压力加剧导致德国这家百年历史的工业重镇面临倒闭风险。沃尔夫斯堡及其庞大的大众汽车集团总部象征着德国工业复兴,但随着欧洲最大汽车制造商宣布关闭本土工厂,并放弃工作保障承诺,这座城市的12万居民开始担忧未来。沃尔夫斯堡拥有超过4800万辆汽车的生产能力,而在中国汽车市场竞争加剧的影响下,该公司可能会遭受重大打击,需要大幅增加拨备以应对这一冲击。这个消息引发了全球汽车产业的关注。

热点资讯 09.19
罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

米克、亚瑟和涅塔。在这五人当中,涅塔的名字最引人注目,因为他是一名黑帮老大,同时还是一个天才级别的战士。从他的实力来看,他是第五个出场的五大强者之一,绝对不容小觑。 另外,涅塔在预告片中并未完全展示出他的实力,只能猜测他的战斗力应该很强。这次出现在《吞噬星空》动漫中的涅塔,无疑会给观众带来更大的惊喜。 总之,从这次剧情来看,有很多看点,包括主角罗峰的新造型、五大超级强者的登场等,相信这部动漫会有更多的精彩内容等待着观众。

热点资讯 09.19
黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩真主党订购台产寻呼机爆炸,以色列事先破坏并伪装成自杀式袭击。

热点资讯 09.19
梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

标题:奇幻高手晒新装!打造双九黎城阵容及联赛冠军帮! 事件起因及关注爆点:梦幻游戏官方曝光九黎城装备,打造双九黎城阵容;另曝雪山表弟团队欲打造联赛冠军帮,提高团队实力。

热点资讯 09.19
70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

张曼获湖南农行派重任官,时值长沙银行半年后新行长人选揭晓,张曼晋升为副行长,成为湖南省万亿上市银行董事长人选,由她提名成为董事会董事候选人。此前张曼加入长沙银行前是中国农业银行的员工,期间担任过多个职务,包括副行长等,此次晋升为总经理。

热点资讯 09.19
东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

今年初,董宇辉成为东方甄选最高薪酬雇员之一。他在2024财年年度收益高达3.41亿港元,包括年薪、奖金、期权和新公司分润。自7月25日分手后,他自立门户已55天。但近日舆论场对其进行猛烈批评,被指责“没有文化”,并有人称对其进行了“绞杀”。在此期间,他面临各种商业挑战,如稳住人设、守住口碑和带领“与辉同行”前行等。目前,他的抖音账号粉丝数量超过51.7万,“与辉同行”账号粉丝数超过165.7万,显示出良好的发展势头。尽管如此,东方甄选主账号却掉了24.3万粉丝,这无疑给与辉同行带来了竞争压力。在完成一系列直播带货数据后,于近日新增了一家名为“与辉同行”的品牌公司,实现了业绩增长。与辉同行目前的销售额和粉丝数量均超过了东方甄选,与竞争对手相比有着明显优势。在未来的发展中,他还将继续努力稳定形象,提升口碑,并带领“与辉同行”走向更广阔的舞台。

热点资讯 09.19