谷歌推出Genie基础世界模型,人工智能迈向“世界模拟”。

2024-02-27 热点资讯 关注公众号
    【谷歌公布世界模型新进展,Genie挑战Sora引领地位】
谷歌发布基础世界模型Genie 人工智能卷向“世界模型”    在OpenAI和Meta之后,科技巨头谷歌近日也加入了世界模型领域的竞争,并在其官网上公布了名为“Genie”的重大突破。Genie是一个基于互联网视频训练的基础世界模型,能够从合成图像、照片或草图中创造出具备精细动作控制的多元环境。
谷歌发布基础世界模型Genie 人工智能卷向“世界模型”    随着谷歌强势入局,世界模型领域的争夺战愈发激烈,然而,在这场角逐中谁能最终引领风向尚无定论。早前备受瞩目的Sora世界模型,其视频生成方式是否符合世界模型的因果预测特性引发业界争议。尽管Sora发布的视频表现出高保真度,但在模拟物理规律及交互能力上似乎存在短板。而谷歌的Genie则聚焦于提升交互性,能精准推断出生成环境中潜在的动作,尽管在视频的真实性和清晰度方面尚未达到Sora的水准,但已展现出了独特的技术路径。
    据谷歌介绍,过去数年间,生成式人工智能已经能够在语言、图像甚至视频层面创造,而今谷歌引入了全新的生成式交互式环境(Genie)范式,仅需一个图像提示即可生成互动且动作可控的环境。Genie作为拥有110亿参数的基础世界模型,通过学习互联网视频中的细粒度控制,不仅识别出可操控部分,还能推测出生成环境中的可能动作。该模型由三部分构成:潜在动作模型用于推断每对帧间的潜在动作;视频分词器将原始视频帧转化为离散标志(token);动态模型在给定潜在动作和历史帧token情况下预测下一帧画面。
    谷歌公布的演示视频显示,输入一张动漫人物闯关图片,Genie可以生成背景变换丰富、角色连续跳跃且动作准确踩点的视频,流畅度与合理性兼具。即使面对真实世界的图片,其中的人物和动物也能做出合理的跳跃或移动动作,尽管在像素精细度上略显不足。
    相较于Sora追求的高清、真实感,Genie更侧重于潜在动作预测而非画面真实性。目前,Genie并未致力于生成超现实视频,而是专注于2D平台游戏和机器人技术领域,但其方法具有通用性,有望扩展应用于任何类型的数据集,只需一张图片就能构建全新的交互环境,为虚拟世界的探索开辟了全新途径。
    当前,动作可控是AI视频技术的一大挑战。有创指出,诸如PIKA等现有工具主要实现视差动画效果,运动合理性仍有较大改进空间,对于大幅度动作和对话场景的表现力有限。Sora虽然通过多镜头策略巧妙地规避了剧情连贯性的难题,但其是否真正理解和掌握了物理世界规律仍存疑。这也意味着,AI理解并控制物理世界中的物体动作是未来发展的重要方向。
    【世界模型之争:通向AGI的关键赛道】
    世界模型被视为通往AGI的关键路径之一,近期相关领域的新进展频出,各家科技公司采取不同的研究路径,力争在这场竞赛中脱颖而出。
    首先引发关注的是OpenAI的Sora,被描述为一个能够作为世界模拟器的视频生成模型,有望通过扩大规模构建能模拟物理世界的通用模拟器。然而,OpenAI在技术文档中并未详述Sora的技术原理,这使得Sora能否真正重塑AI视频业态,以及其是否具备世界模型属性的问题依然颇具争议。
    英伟达科学家Jim Fan认为,Sora作为一个数据驱动的物理引擎,通过输入文本/图像直接输出视频像素,是一个可学习的模拟器或世界模型。然而,Meta首席人工智能科学家Yann LeCun对此持不同意见,他指出,Sora仅经过训练能生成像素,若以此来理解世界的运作机制,则注定失败。
    LeCun强调,“仅仅依据提示生成看似真实的影片并不意味着系统理解了物理世界,生成过程与世界模型的因果预测有着显著差异。”他表示,合理影片的空间维度庞大,系统仅需生成一个样本即宣告成功,而真实影片的合理连续性要求更高。Sora生成的部分视频确实暴露出违反物理规律的现象,如人物行走时双腿诡异互换、冲浪者在巨浪消失后仍跃起等,这些现象揭示了Sora在准确学习物理规律上的局限性。
    与此同时,Meta最新推出的V-JEPA则展示了另一种方向。不同于谷歌Genie推测生成环境中的潜在动作,V-JEPA擅长于生成视频中被遮挡部分的。两者共同之处在于对“推测”能力的重视。Meta声称,V-JEPA作为早期物理世界模型示例,擅长检测和理解对象间的复杂交互。通过利用公共数据集中200万个视频进行训练,V-JEPA作为一种非生成模型,通过预测抽象表示空间中视频的缺失或遮挡部分进行学习,采用自监督学习方法,借助未标记数据进行预训练。正如人类通过观察构建内部世界模型以预测事件后果一样,V-JEPA通过自监督训练同样能够了解世界运作的知识。
    在应用层面,世界模型领域的突破正引起各行业的广泛关注。游戏从业者透露,AI绘图技术的应用已极大提升了美术制作效率,一些简单的短剧器有可能被替代。影视行业技术美术人员也表示,虽然AI技术暂时无法替代实拍或3D制作,但客户日益期望在作品中融入AI风格元素,创造视觉奇观。可见,世界模型领域的创新成果正在逐步渗透到各行各业,推动着数字创作的边界不断拓展。

上一篇:避孕成功率高达 99% 的方法,人人都该了解
下一篇:这种小肉揪可能是 HPV 感染,揪掉会越长越多
更多更酷的内容分享
猜你感兴趣
谷歌推出基础世界模型,参数高达110亿,让你轻松创建可互动的虚拟世界。

谷歌推出基础世界模型,参数高达110亿,让你轻松创建可互动的虚拟世界。

谷歌推出110亿参数的生成式交互环境Genie,能通过单张图像提示生成可玩的交互式环境,实现自主可控的虚拟世界。该技术由潜在动作模型、视频tokenizer和动态模型组成,无需动作标签即可学习控制。其潜在动作可转移到真实环境中,有望颠覆游戏、设计、XR和机器人行业。

热点资讯 02.26
2024年世界人工智能大会:大模型价格战谁能最终得益?

2024年世界人工智能大会:大模型价格战谁能最终得益?

《智能产业:价格战背后的挑战与机遇》 本周的世界人工智能大会上,大模型价格战再次成为热门话题。阿里云百炼服务客户数涨幅超150%,通义千问开源模型下载量近两个月增长2倍,百度创始人兼CEO李彦宏强调模型开源只能拿到一堆参数,无法做到众人拾柴火焰高。 但是,值得注意的是,所有的焦点都在价格战上,而忽略了背后的真实问题——商业模式的可持续性。随着市场的发展,这种模式的问题也日益凸显出来,即用户需要付出更多的价值才能获得同样的产品和服务。对于大模型来说,无论是为了盈利还是推动技术进步,其核心竞争力都在于如何更好地服务于人类,而不仅仅是追求短期的价格优势。 值得注意的是,在这场价格战中,新技术的应用逐渐显现出来,比如物联网、大数据等技术。这些技术不仅可以提升产品的智能化程度,也可以帮助我们更好地理解用户的需求,从而实现更有效的商业模式。 最后,无论价格战的结果如何,我们都应看到它带来的积极影响。一方面,它可以推动技术创新,另一方面,它可以帮助我们更好的理解和利用现有的资源,为未来的社会发展做出贡献。在未来,我们期待能够看到更为健康和可持续的商业模式出现,让人工智能真正为人类带来福祉。

热点资讯 07.07
谷歌秀出Genie模型:草图变2D游戏,轻松实现!

谷歌秀出Genie模型:草图变2D游戏,轻松实现!

DeepMind的Genie模型通过从互联网视频中学习,能根据图像或草图生成动作可控的2D世界,开启交互式可玩环境的新时代。尽管目前画质模糊,但其仅110亿参数及无监督训练的特点展示了生成式人工智能的新可能。

热点资讯 02.28
世界模型:人工智能未来的新可能?探究其可能的前沿应用

世界模型:人工智能未来的新可能?探究其可能的前沿应用

"世界模型"是人工智能领域的最新概念,灵感源自人类的自然世界心智模型,旨在创建对世界运作方式的内部表征。但实现世界模型面临诸多技术挑战,如庞大的计算量和幻觉问题。世界模型在未来可用于数字和物理领域的复杂预测和规划,为具身智能的实现奠定基础。李飞飞创立的世界实验室正在努力构建“大型世界模型”,而谷歌DeepMind和OpenAI也在投入研发。对此问题,科技媒体TechCrunch进行了详细的报道。

热点资讯 11.02
乒乓球总决赛:中国女单四强诞生,王艺迪以3-1战胜张本美和,日本队宣告全军覆没

乒乓球总决赛:中国女单四强诞生,王艺迪以3-1战胜张本美和,日本队宣告全军覆没

10秒的关键技术暂停时,安排年轻队员李益飞和丁宁上场。关键时刻丁宁把握住机会打出了高质量的杀球,帮助国乒扳回一分。暂停后,张本美和再次加强攻势,并在关键时刻被丁宁扣杀,让比分再度落后。然而,在接下来的一局中,丁宁展现了强大的攻击力,成功击溃对手并取得了胜利,从而带领国乒女队顺利挺进四强。另外,王曼昱在比赛中对阵钱天一也表现出色,以3-1的比分获胜。这场比赛展现了中国乒乓球女队的强大实力,有望在决赛中面对斯佐科斯。最后,东京站的乒乓球赛事已经结束,国乒女队在此次比赛中表现抢眼,特别是在团体赛中获得了冠军。这也展示了中国乒乓球女队在国际赛场上的强大实力和竞争力。

热点资讯 11.22
快手公司被警方约谈,因其在短视频平台上传播的非法内容遭到处罚

快手公司被警方约谈,因其在短视频平台上传播的非法内容遭到处罚

快手公司因违反《网络安全法》相关规定,被公安机关处以警告和行政处罚。各互联网平台需严格履行信息网络安全管理责任,落实网络实名制,加强源头治理、综合治理,有效防止违法信息传播,保护未成年人健康成长。

热点资讯 11.22
《再见爱人》葛夕:颠覆传统,她独特的身材引发热议!

《再见爱人》葛夕:颠覆传统,她独特的身材引发热议!

的话更是直接说出,“我有一个家”。这样的态度引来了观众们的愤怒,不少观众呼吁禁止刘爽这样的言论,希望他们能够保持理智,正确对待自己的婚姻。同时,观众们也希望节目组能够尊重每一位嘉宾的选择,公正地评价他们的表现,而不是一味地追求收视率和热度。总的来说,这期《再见爱人》引发了许多争议,人们对于明星婚姻的看法也因此更加深入。

热点资讯 11.22
以色列警方发布‘逮捕令’:恐怖袭击疑云重重

以色列警方发布‘逮捕令’:恐怖袭击疑云重重

国际刑事法院针对加沙冲突发出逮捕令,内塔尼亚胡回应强烈,支持这一决定。特拉维夫大学国际法专家利布利希认为是“以色列有史以来最严重的法律上的事态变动”。报道指出,以色列公众对此充满恐慌,并呼吁外国政府退出国际刑事法院。此外,以色列外交部长已与多国外长通话,试图促使其他国家遵守逮捕令。

热点资讯 11.22
俄罗斯声称要将俄罗斯领土分割成41个独立国家,并将俄罗斯东部的中国部分作为其领土的一部分

俄罗斯声称要将俄罗斯领土分割成41个独立国家,并将俄罗斯东部的中国部分作为其领土的一部分

2023年1月,俄罗斯流亡人士提出的关于俄罗斯分裂的主张引发了广泛讨论和争议,特别是考虑到俄罗斯强大的地缘政治影响力以及复杂的领土结构。俄方对此表示否认,并坚称其对东北地区的主权和领土完整不会改变。这一言论加剧了国内外对俄美关系的担忧。事实上,俄罗斯的领土问题源于其历史上的扩张和领土争端,特别是在苏联解体后,这些问题愈发凸显。因此,对于未来,俄美两国应该积极沟通,寻找和平解决领土争端的方法,以维护两国之间的稳定和发展。

热点资讯 11.22
中美俄三大强敌竞演,挑战全球局势的焦点

中美俄三大强敌竞演,挑战全球局势的焦点

美国最大“敌人”无疑是自己,声称要取消中国“永久正常贸易关系地位”,意图借由降低关税来加强对华竞争优势。然而这份涉华报告中的内容却充满了污蔑和抹黑,暗示是中国企业受益。拜登胜选后是否会实行更高关税还不得而知,目前看来,这份文件只是针对中美关系的试探性态度,而不是真正打算采取强硬手段。但不论结果如何,美国都将中国视为假想敌,长期的贸易战给双方带来不少麻烦。

热点资讯 11.22
美法德英合力通过涉伊朗新决议:中方反对无效

美法德英合力通过涉伊朗新决议:中方反对无效

美英法德四国在国际原子能机构理事会会议上否决了关于伊朗的新施压决议。中方对此表示支持,并强调这是处理伊核问题的出路所在。然而,美国总统单方面撕毁退出的伊核协定,引发了伊朗的强烈反弹。伊核问题再次出现时,美国方面联合西方国家对伊朗发难,但这并没有从根本上解决问题。美国在国际原子能机构会议上继续坚持自己的做法,这显然不公平。伊朗已采取措施应对,包括暂停履行伊核协议义务和强化铀浓缩能力,这可能是与美西方进行相互试探的博弈的一部分。国际原子能机构将继续作为伊核问题的主要调解方。

热点资讯 11.22
紫禁城秘密曝光: 紫禁城焕新演绎!

紫禁城秘密曝光: 紫禁城焕新演绎!

"穿越梦幻,了解陌上,官府禁赛指挥为何陌上解封,紫禁城F哥揭露二狗违规真相。五庄号过户成功,提升渔岛服战队总经验,购买翻页魔童增加战力。梧桐更新物暴腰带,曲阜战神冲刺连冠。"

热点资讯 11.22
2024年金摇杆奖投票数突破1200万,网友热议你最期待的电影/游戏/动漫/综艺...

2024年金摇杆奖投票数突破1200万,网友热议你最期待的电影/游戏/动漫/综艺...

金摇杆奖在今日凌晨宣布收到了超过1200万张选票,评选出了21个不同的奖项类别,包括最佳剧情、最佳视觉设计、最佳多人游戏等,并新增了三个类别:评论家选择奖、突破奖和主播选择奖。最佳独立游戏包括《另一个蟹的宝藏》和《小丑牌》,年度工作室包括Team ASOBI和《崩坏:星穹铁道》等。

热点资讯 11.22
一学即会的智能电子产品使用指南

一学即会的智能电子产品使用指南

时降低敌方的攻击强度。希望这篇内容能帮到你!

热点资讯 11.22