Sora的成功,源于谷歌的支撑吗?业界认为:人才、算力和数据的积累才是关键。

2024-02-21 热点资讯 关注公众号
    近日,全球AI界爆点频出,新锐巨头OpenAI震撼发布了一款名为Sora的文生视频模型,其创新突破在业内引发了一场广泛而热烈的讨论。Sora成功将AI生成视频时长提升至一分钟,并以演示视频中呈现的高度逼真度和卓越质量惊艳四座,外界纷纷猜测:在ChatGPT发布不足两年的时间内即推出Sora,是否意味着OpenAI背后还隐藏着强大的技术实力?而这款表现惊艳的Sora,是否已经具备了世界模型的特质?
Sora成功是站在谷歌肩膀上吗?业内:关键是人才、算力和数据的堆砌    尽管OpenAI尚未公布Sora对公众开放的确切日期,目前仅向安全团队、视觉艺术家、设计师及电影制作人等特定群体开放了使用权限,但其官网已上线了技术报告并不断释出内部人士的演示片段。据悉,Sora沿用了与GPT模型类似的Transformer架构,这一关键技术被广泛认为是支撑其强大能力的核心所在。
    深入探究,Sora与Pika、Runway等同类文生视频模型采用了底层相同的Diffusion扩散模型,但独特之处在于Sora对其实现逻辑进行了革新,创造性地用Transformer架构替换了原有的U-Net架构。北京邮电大学智能交互设计专业副教授谭剑在接受澎湃新闻采访时指出,相较于其他AI模型架构,Transformer架构具有两大显著理论优势:一是能够自动生成跨维度、多层次的知识网络或信息网络,犹如一张无缝对接的思维导图;二是其权重关联机制(attention机制)使其能根据任何数据的上下文环境理解相关高低维度信息,而这要求输入数据量足够庞大且维度丰富。
    一位不愿具名的AI大模型从业人士透露,Sora的技术核心思路在于运用视觉块编码方式将不同格式的视频统一编码后,通过Transformer架构进行训练,并引入类似Diffusion的Unet方式在降维和升维过程中实现加噪与去噪处理。通过巧妙的设计细节,Sora不仅解决了视频“闪烁”问题,还能直接生成高分辨率1080p图像以及长达60秒的高质量视频,显示其训练序列较长,训练窗口至少为五秒。
    然而,OpenAI发布的Sora技术报告仍留有诸多悬念。浙江大学百人计划研究员、博士生导师赵俊博表示,尽管Sora所采用的扩散Transformer架构可能是其成功的关键之一,但当前公开的并未详尽揭示更多的技术细节。他强调,从最基础的原理出发,学术界对于Transformer神经网络架构的理解尚处于初级阶段,尤其是对其在扩大规模后展现出的强大效能感到惊叹。
    此外,关于Sora的训练数据来源也成为业界热议焦点。据推测,Sora可能利用了游戏引擎生成的大规模数据进行训练,但具体的数据收集、生产加工过程以及如何将其喂给Sora进行预训练管线化的过程仍然成谜。
    谈及Sora对AI业界及学界的影响,赵俊博认为,由于该模型在技术上仍有待验证和完善,故应保持审慎乐观的态度:“Sora无疑会对AI视频领域的研究者及竞品带来重大冲击,但在生成模型的实际应用层面,可控性仍然是一个亟待解决的重大问题。要谈论产业影响,就必须明确目标用户、应用场景以及解决何种痛点需求,这些产业化落地的思考同样适用于此。”
    谭剑进一步指出,OpenAI借助ChatGPT和Sora的成功案例有力验证了纳什嵌入定律,即高维信息世界可以无缝兼容低维世界,实现所谓的“降维打击”。尽管构建此类高维AI模型需要跨越极高的数据和硬件门槛,但随着OpenAI的成功先例,后续或将有更多团队有望取得突破。
    值得注意的是,在OpenAI发布Sora的数小时前,谷歌亦推出了其Gemini 1.5版本的多模态通用模型,其中的Gemini 1.5 Pro将稳定处理上下文的能力上限提高到了100万tokens。然而,Sora的横空出世瞬间盖过了Gemini 1.5的风头,加之OpenAI在Sora报告中引用的多篇核心论文均出自谷歌科研团队,使得这两家科技巨头之间的“恩怨情仇”再度成为话题焦点,甚至有人戏称OpenAI是“站在谷歌肩膀上”。
    对此,赵俊博表示,虽然理论共享至关重要,但在现代科技发展环境中,单靠个人智慧和灵感实现重大技术突破的时代已经过去。他认为,关键在于人才团队的组建、算力和数据资源的积累,以及时间上的沉淀,将这样的系统视为一个庞大的“工艺装置”,其中的探索和形成过程才是最为关键的。
    最后,针对Sora的出现是否与AGI(通用人工智能)有关联的问题,赵俊博在朋友圈撰文表达了反对意见,他认为目前我们距离AGI还有很长一段路要走。他解释道,一个真正的世界模型应当具备输出动作、预测未来以及判断当前状态的能力。尽管Sora可能已经学习到了一些世界运行的模式,但它是否拥有上述全部能力尚不得而知。不过,如果有一天能解开其embedding的秘密,或许我们将能更深入地了解Sora的本质。

上一篇:梦境,复杂而多变
下一篇:梦是现实的预兆、延伸
更多更酷的内容分享
猜你感兴趣
周鸿祎强调:提升算力,国内企业才能追上Sora。

周鸿祎强调:提升算力,国内企业才能追上Sora。

360集团创始人周鸿祎表示,如果Sora的技术路线被开源,国内将能很快赶上,但算力可能成为门槛。他认为Sora的技术路线出炉后,国外有闭源和开源两条路线的斗争。一旦Sora的技术被开源出来,国内就能很快赶上。

热点资讯 03.04
‘三U一体’:实现数据中心算力升级的关键路径

‘三U一体’:实现数据中心算力升级的关键路径

随着数字化转型的深入,云化数据中心将成为新基建产业数字化的基础,但面临的挑战也越来越大。"三U一体"正在推动云化数据中心向更高规模组网、超低时延、超高带宽、高性能存储转型。

热点资讯 05.14
人才是科技强国的关键,尊爱惜护人才,共创未来。

人才是科技强国的关键,尊爱惜护人才,共创未来。

中美科技竞争日益激烈,中国在前瞻领先技术原创性上处于下风。科技人才实力是关键,但高端人才供给不足,面临流失问题。为提升科技人才梯队实力,中国需加大研发预算占GDP比例至3%以上,保证人才收入和研发环境,实施体系化人才战略,以培养科技领军团队。

热点资讯 03.09
陈晓建:有效利用数据驱动的AI时代,企业如何获得成功?

陈晓建:有效利用数据驱动的AI时代,企业如何获得成功?

亚马逊云科技总经理陈晓建在会上表示,数据是生成式AI时代企业取得成功的关键,只有利用自身数据个性化构建有价值的应用才能获得竞争优势。

热点资讯 05.01
揭露:EDG拒绝摆烂,实力正盛的Rookie和Theshy已加入IG战队

揭露:EDG拒绝摆烂,实力正盛的Rookie和Theshy已加入IG战队

青的消息也开始多了起来。首先是EDG战队拒绝摆烂,并且重新签下了Theshy和Rookie两位顶级AD选手。此外,IG战队也确认了中单和上单选手,但具体名单还需等待官方发布。最后,有网友爆料称Doinb可能想要组建自己的LPL战队,但是需要大几千万的保证金和其他费用。这些转会信息引起了广泛的关注和讨论。

热点资讯 11.10
长春绿园区一居民楼发生爆燃:居民5人受伤,已被紧急送往医院进行治疗

长春绿园区一居民楼发生爆燃:居民5人受伤,已被紧急送往医院进行治疗

"绿园区皓月大路庆阳街交会附近星宇花园一居民楼发生爆燃,造成2人重伤3人轻伤。事故原因正在进一步调查中。" 简述为:绿园区皓月大路庆阳街交会附近星宇花园一居民楼发生爆燃,造成2人重伤3人轻伤,目前事故原因正在调查中。 重点关注爆点:居民楼爆燃和多人受伤。

热点资讯 11.10
购车决策:吉利银河星舰的价位、特点与雷神EM-i混动的综合对比

购车决策:吉利银河星舰的价位、特点与雷神EM-i混动的综合对比

吉利银河星舰7是一款具备尺寸优势、内饰精良且性能强劲的城市SUV,预售阶段预售价为10.98万,并有可能更低。此款车将通过电动化平台应对10万级别传统燃油SUV的竞争,拥有较长的轴距和宽敞的后排空间,而外观设计与吉利银河E5纯电动SUV相似,搭载吉利雷神EM-i超级混动系统,大幅提升动力表现。

热点资讯 11.10
热门美妆博主回应「整容手术风险」,自己有多重标准衡量一切

热门美妆博主回应「整容手术风险」,自己有多重标准衡量一切

湖南怀化理发师晓华因“听得懂人话”在抖音火出圈,她拒绝被捧高,希望回归朴实本色。目前已有300万粉丝,怀化当地举措助其成功。该理发师不认为自己的技艺超过他人,呼吁网友别再称她为“人民理发师”。

热点资讯 11.10
华为牵手长安,‘长安嫡子’阿维塔年内上市筹备

华为牵手长安,‘长安嫡子’阿维塔年内上市筹备

阿维塔汽车董事长兼首席执行官,于2018年创立了该品牌,主打新能源汽车。然而,阿维塔在华为子公司深圳引望智能技术有限公司的投资后,其负债率高达94.46%,经营陷入困境。阿维塔在华为子公司深圳引望智能技术有限公司的投资后,仍未摆脱亏损泥潭。目前,其已完成总计71.03亿元的债务融资,但未来能否通过IPO实现盈利尚不得而知。 以上信息来源于《腾讯混元大模型》。 请注意,由于涉及的财务数据较复杂,这里仅给出一些关键要点,具体细节可能还需要进一步研究和分析。

热点资讯 11.10
小鹏:官宣增程计划,纯电续航400公里,你会为它的表现感到惊讶吗?

小鹏:官宣增程计划,纯电续航400公里,你会为它的表现感到惊讶吗?

特斯拉Model S Plaid在马斯克逝世后的首次全球发布会中,公布了其全新的第四代电动架构,Model S Plaid的最大亮点就是电池续航里程达到了617英里(约997公里)。特斯拉Model S Plaid拥有四个座位,并且性能表现优秀,可在1.6秒内将车辆加速到60英里/小时(97公里/小时),而且它的最高时速可达210英里(340公里)。另外,这款新车还配备了全自动驾驶辅助系统,以及内置的全语音助手。

热点资讯 11.10
2025款奥迪A4L全面升级:全新内饰曝光,S-LINE套件等您体验!

2025款奥迪A4L全面升级:全新内饰曝光,S-LINE套件等您体验!

奥迪最新一代A5L将在广州车展期间推出,这款车型被称为"终极版",采用全新的S-line运动套件,外观更加魁梧和运动,内饰沿用多年套娃式的布局,但在配置上有所升级,包括增加了新的配色方案,提高了舒适性和安全性。

热点资讯 11.10
光学光电子公司三季报业绩喜讯:光学面板市场份额领先,京东方A、TCL科技营收破纪录

或者

光学光电子公司全年成绩单发布:三季报显示其核心业务稳健增长,京东方A和TCL科技营收超1000亿

光学光电子公司三季报业绩喜讯:光学面板市场份额领先,京东方A、TCL科技营收破纪录 或者 光学光电子公司全年成绩单发布:三季报显示其核心业务稳健增长,京东方A和TCL科技营收超1000亿

94家A股光学光电子上市公司整体业绩上涨,归母净利润实现扭亏为盈,同比增长92.96%。面板行业复苏,三季报显示公司明显受益。

热点资讯 11.10
关注贫富差距,调整社平工资:为何低收入者的缴费负担较重?

关注贫富差距,调整社平工资:为何低收入者的缴费负担较重?

01年实施的第六次全国社保普查时的77.9%,下降至2019年的67.8%。这表明我国在扩大社会保险覆盖面方面还有很长的路要走。 此则新闻可以概括为:全国社保执法检查报告出炉,指出当前社保制度中存在的问题,如缴费负担过重导致“断保”现象频发等,并提出针对这些问题的研究解决方案。这些焦点集中在低收入人群和社会小微企业。

热点资讯 11.10
全球咖啡布局3000亿中国市场:进博新机遇引关注

全球咖啡布局3000亿中国市场:进博新机遇引关注

本次进博会期间,华成信达贸易公司的海宁工厂进口了100%蓝山咖啡豆,并带来了牙买加等多个地区的咖啡豆。袁曦远表示,随着中国咖啡市场的持续增长,上海作为离上海港较近的港口城市,将成为未来推动整个市场的重要引擎。此外,他还提到,近年来亚洲地区的咖啡消费也在快速增长,有望成为全球咖啡消费的主要地区之一。

热点资讯 11.10