谷歌推出Genie基础世界模型,人工智能迈向“世界模拟”。

2024-02-27 热点资讯 关注公众号
    【谷歌公布世界模型新进展,Genie挑战Sora引领地位】
谷歌发布基础世界模型Genie 人工智能卷向“世界模型”    在OpenAI和Meta之后,科技巨头谷歌近日也加入了世界模型领域的竞争,并在其官网上公布了名为“Genie”的重大突破。Genie是一个基于互联网视频训练的基础世界模型,能够从合成图像、照片或草图中创造出具备精细动作控制的多元环境。
谷歌发布基础世界模型Genie 人工智能卷向“世界模型”    随着谷歌强势入局,世界模型领域的争夺战愈发激烈,然而,在这场角逐中谁能最终引领风向尚无定论。早前备受瞩目的Sora世界模型,其视频生成方式是否符合世界模型的因果预测特性引发业界争议。尽管Sora发布的视频表现出高保真度,但在模拟物理规律及交互能力上似乎存在短板。而谷歌的Genie则聚焦于提升交互性,能精准推断出生成环境中潜在的动作,尽管在视频的真实性和清晰度方面尚未达到Sora的水准,但已展现出了独特的技术路径。
    据谷歌介绍,过去数年间,生成式人工智能已经能够在语言、图像甚至视频层面创造,而今谷歌引入了全新的生成式交互式环境(Genie)范式,仅需一个图像提示即可生成互动且动作可控的环境。Genie作为拥有110亿参数的基础世界模型,通过学习互联网视频中的细粒度控制,不仅识别出可操控部分,还能推测出生成环境中的可能动作。该模型由三部分构成:潜在动作模型用于推断每对帧间的潜在动作;视频分词器将原始视频帧转化为离散标志(token);动态模型在给定潜在动作和历史帧token情况下预测下一帧画面。
    谷歌公布的演示视频显示,输入一张动漫人物闯关图片,Genie可以生成背景变换丰富、角色连续跳跃且动作准确踩点的视频,流畅度与合理性兼具。即使面对真实世界的图片,其中的人物和动物也能做出合理的跳跃或移动动作,尽管在像素精细度上略显不足。
    相较于Sora追求的高清、真实感,Genie更侧重于潜在动作预测而非画面真实性。目前,Genie并未致力于生成超现实视频,而是专注于2D平台游戏和机器人技术领域,但其方法具有通用性,有望扩展应用于任何类型的数据集,只需一张图片就能构建全新的交互环境,为虚拟世界的探索开辟了全新途径。
    当前,动作可控是AI视频技术的一大挑战。有创指出,诸如PIKA等现有工具主要实现视差动画效果,运动合理性仍有较大改进空间,对于大幅度动作和对话场景的表现力有限。Sora虽然通过多镜头策略巧妙地规避了剧情连贯性的难题,但其是否真正理解和掌握了物理世界规律仍存疑。这也意味着,AI理解并控制物理世界中的物体动作是未来发展的重要方向。
    【世界模型之争:通向AGI的关键赛道】
    世界模型被视为通往AGI的关键路径之一,近期相关领域的新进展频出,各家科技公司采取不同的研究路径,力争在这场竞赛中脱颖而出。
    首先引发关注的是OpenAI的Sora,被描述为一个能够作为世界模拟器的视频生成模型,有望通过扩大规模构建能模拟物理世界的通用模拟器。然而,OpenAI在技术文档中并未详述Sora的技术原理,这使得Sora能否真正重塑AI视频业态,以及其是否具备世界模型属性的问题依然颇具争议。
    英伟达科学家Jim Fan认为,Sora作为一个数据驱动的物理引擎,通过输入文本/图像直接输出视频像素,是一个可学习的模拟器或世界模型。然而,Meta首席人工智能科学家Yann LeCun对此持不同意见,他指出,Sora仅经过训练能生成像素,若以此来理解世界的运作机制,则注定失败。
    LeCun强调,“仅仅依据提示生成看似真实的影片并不意味着系统理解了物理世界,生成过程与世界模型的因果预测有着显著差异。”他表示,合理影片的空间维度庞大,系统仅需生成一个样本即宣告成功,而真实影片的合理连续性要求更高。Sora生成的部分视频确实暴露出违反物理规律的现象,如人物行走时双腿诡异互换、冲浪者在巨浪消失后仍跃起等,这些现象揭示了Sora在准确学习物理规律上的局限性。
    与此同时,Meta最新推出的V-JEPA则展示了另一种方向。不同于谷歌Genie推测生成环境中的潜在动作,V-JEPA擅长于生成视频中被遮挡部分的。两者共同之处在于对“推测”能力的重视。Meta声称,V-JEPA作为早期物理世界模型示例,擅长检测和理解对象间的复杂交互。通过利用公共数据集中200万个视频进行训练,V-JEPA作为一种非生成模型,通过预测抽象表示空间中视频的缺失或遮挡部分进行学习,采用自监督学习方法,借助未标记数据进行预训练。正如人类通过观察构建内部世界模型以预测事件后果一样,V-JEPA通过自监督训练同样能够了解世界运作的知识。
    在应用层面,世界模型领域的突破正引起各行业的广泛关注。游戏从业者透露,AI绘图技术的应用已极大提升了美术制作效率,一些简单的短剧器有可能被替代。影视行业技术美术人员也表示,虽然AI技术暂时无法替代实拍或3D制作,但客户日益期望在作品中融入AI风格元素,创造视觉奇观。可见,世界模型领域的创新成果正在逐步渗透到各行各业,推动着数字创作的边界不断拓展。

上一篇:避孕成功率高达 99% 的方法,人人都该了解
下一篇:这种小肉揪可能是 HPV 感染,揪掉会越长越多
更多更酷的内容分享
猜你感兴趣
谷歌推出基础世界模型,参数高达110亿,让你轻松创建可互动的虚拟世界。

谷歌推出基础世界模型,参数高达110亿,让你轻松创建可互动的虚拟世界。

谷歌推出110亿参数的生成式交互环境Genie,能通过单张图像提示生成可玩的交互式环境,实现自主可控的虚拟世界。该技术由潜在动作模型、视频tokenizer和动态模型组成,无需动作标签即可学习控制。其潜在动作可转移到真实环境中,有望颠覆游戏、设计、XR和机器人行业。

热点资讯 02.26
2024年世界人工智能大会:大模型价格战谁能最终得益?

2024年世界人工智能大会:大模型价格战谁能最终得益?

《智能产业:价格战背后的挑战与机遇》 本周的世界人工智能大会上,大模型价格战再次成为热门话题。阿里云百炼服务客户数涨幅超150%,通义千问开源模型下载量近两个月增长2倍,百度创始人兼CEO李彦宏强调模型开源只能拿到一堆参数,无法做到众人拾柴火焰高。 但是,值得注意的是,所有的焦点都在价格战上,而忽略了背后的真实问题——商业模式的可持续性。随着市场的发展,这种模式的问题也日益凸显出来,即用户需要付出更多的价值才能获得同样的产品和服务。对于大模型来说,无论是为了盈利还是推动技术进步,其核心竞争力都在于如何更好地服务于人类,而不仅仅是追求短期的价格优势。 值得注意的是,在这场价格战中,新技术的应用逐渐显现出来,比如物联网、大数据等技术。这些技术不仅可以提升产品的智能化程度,也可以帮助我们更好地理解用户的需求,从而实现更有效的商业模式。 最后,无论价格战的结果如何,我们都应看到它带来的积极影响。一方面,它可以推动技术创新,另一方面,它可以帮助我们更好的理解和利用现有的资源,为未来的社会发展做出贡献。在未来,我们期待能够看到更为健康和可持续的商业模式出现,让人工智能真正为人类带来福祉。

热点资讯 07.07
谷歌秀出Genie模型:草图变2D游戏,轻松实现!

谷歌秀出Genie模型:草图变2D游戏,轻松实现!

DeepMind的Genie模型通过从互联网视频中学习,能根据图像或草图生成动作可控的2D世界,开启交互式可玩环境的新时代。尽管目前画质模糊,但其仅110亿参数及无监督训练的特点展示了生成式人工智能的新可能。

热点资讯 02.28
2024年世界人工智能大会五大看点:25款人形机器人首秀 大模型激增让人期待

2024年世界人工智能大会五大看点:25款人形机器人首秀 大模型激增让人期待

个人工智能产业领域的企业家、研究机构和技术供应商,达成合作意向,签署合作协议超过130份,共同推进人工智能领域的技术创新和市场拓展。其中,多款新产品在本次大会发布,并引发了市场的广泛关注。看点二:前沿科技引领产业升级在过去的六年里,全球人工智能大会已经成为了中国和全球人工智能前沿技术的重要展示平台。此次大会上,展示了大量前沿科技和产品,包括大模型、大数据、云计算、人工智能芯片、无人驾驶等。这些科技创新不仅提升了各领域的技术水平,也为各行各业提供了新的发展机遇。看点三:共商共享共建价值理念展会论坛分为“1+3+X”架构,涵盖了AI伦理治理、大模型、数据、算力、具身智能、AI for Science、新型工业化、自动驾驶、投融资、教育与人才等十大重点议题。此外,还邀请了全球顶尖智慧的专家参与论坛,形成了多元化的对话环境,体现了“共商促共享,以善治促善智”的核心价值理念。

热点资讯 07.02
外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

外交部强烈呼吁:保障所有在华外国人的生命财产安全,加强与涉事学校的沟通合作

9月18日,深圳日本人学校10岁学生遭男子刺伤,已被现场捕获。中方继续采取有效措施,保障在外中国人的安全。

热点资讯 09.19
挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

挑战《黑神话》的强劲对手:打造3A级开放世界游戏引擎,却未知其神秘力量

随着《黑神话:悟空》的火热,国内玩家开始调侃欧美玩家的“女拳师”现象,国内一些工作室也试图利用男女话题来吸引眼球。最近一家被称为全女的GHG游戏工作室成立,并承诺将制作出完全由女性参与的3A级别开放世界游戏。然而,由于尚未完成游戏引擎的研发和成本控制,这款游戏可能会成为诈骗的一种手段。对此,我们建议大家保持理性判断,不要轻信不实信息,保护自己的权益不受侵犯。

热点资讯 09.19
大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

大众关闭工厂,狼堡裁员,互联网巨头的严峻挑战与未来展望

沃尔夫斯堡面临前所未有的挑战:汽车电动化、智能化转型和竞争压力加剧导致德国这家百年历史的工业重镇面临倒闭风险。沃尔夫斯堡及其庞大的大众汽车集团总部象征着德国工业复兴,但随着欧洲最大汽车制造商宣布关闭本土工厂,并放弃工作保障承诺,这座城市的12万居民开始担忧未来。沃尔夫斯堡拥有超过4800万辆汽车的生产能力,而在中国汽车市场竞争加剧的影响下,该公司可能会遭受重大打击,需要大幅增加拨备以应对这一冲击。这个消息引发了全球汽车产业的关注。

热点资讯 09.19
罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

罗峰全新造型发布,诺岚山危机,五大强者的降临:一位神秘人物的隐藏身份

米克、亚瑟和涅塔。在这五人当中,涅塔的名字最引人注目,因为他是一名黑帮老大,同时还是一个天才级别的战士。从他的实力来看,他是第五个出场的五大强者之一,绝对不容小觑。 另外,涅塔在预告片中并未完全展示出他的实力,只能猜测他的战斗力应该很强。这次出现在《吞噬星空》动漫中的涅塔,无疑会给观众带来更大的惊喜。 总之,从这次剧情来看,有很多看点,包括主角罗峰的新造型、五大超级强者的登场等,相信这部动漫会有更多的精彩内容等待着观众。

热点资讯 09.19
黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩爆炸引发猜测:台企生产寻呼机,源头调查仍在进行中

黎巴嫩真主党订购台产寻呼机爆炸,以色列事先破坏并伪装成自杀式袭击。

热点资讯 09.19
梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

梦幻西游:首款秋杀九黎城装备首曝 - 表弟团队打造联赛冠军帮计划已启动!

标题:奇幻高手晒新装!打造双九黎城阵容及联赛冠军帮! 事件起因及关注爆点:梦幻游戏官方曝光九黎城装备,打造双九黎城阵容;另曝雪山表弟团队欲打造联赛冠军帮,提高团队实力。

热点资讯 09.19
70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

70后农行女性高管晋升至高层,预示着银行业改革与发展新趋势

张曼获湖南农行派重任官,时值长沙银行半年后新行长人选揭晓,张曼晋升为副行长,成为湖南省万亿上市银行董事长人选,由她提名成为董事会董事候选人。此前张曼加入长沙银行前是中国农业银行的员工,期间担任过多个职务,包括副行长等,此次晋升为总经理。

热点资讯 09.19
东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

东方甄选创始人董宇辉今年或将陷入口碑危机:丈母娘是否被冤枉?

今年初,董宇辉成为东方甄选最高薪酬雇员之一。他在2024财年年度收益高达3.41亿港元,包括年薪、奖金、期权和新公司分润。自7月25日分手后,他自立门户已55天。但近日舆论场对其进行猛烈批评,被指责“没有文化”,并有人称对其进行了“绞杀”。在此期间,他面临各种商业挑战,如稳住人设、守住口碑和带领“与辉同行”前行等。目前,他的抖音账号粉丝数量超过51.7万,“与辉同行”账号粉丝数超过165.7万,显示出良好的发展势头。尽管如此,东方甄选主账号却掉了24.3万粉丝,这无疑给与辉同行带来了竞争压力。在完成一系列直播带货数据后,于近日新增了一家名为“与辉同行”的品牌公司,实现了业绩增长。与辉同行目前的销售额和粉丝数量均超过了东方甄选,与竞争对手相比有着明显优势。在未来的发展中,他还将继续努力稳定形象,提升口碑,并带领“与辉同行”走向更广阔的舞台。

热点资讯 09.19
科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯:过去26年的逆袭之路——如何成为中国及全球的领先智能扫地机器人制造商

科沃斯推出全球首款恒压活水洗地机器人地宝X8 PRO PLUS,打破传统洗地模式。此款产品采用滚筒式结构,通过内置恒压系统提供持续的水源,解决了高清洁度和长寿命的问题。此外,它还配备高性能多维视觉模组和业内首个扫地机器人自研大语言模型,实现了智能交互和自主避障,为用户提供便捷高效的生活体验。这一创新突破标志着科沃斯在扫地机器人领域的领先地位,同时也引领了行业的未来发展方向。

热点资讯 09.19
从大小杨到曾志伟:网站编辑成长历程与自我评价

从大小杨到曾志伟:网站编辑成长历程与自我评价

曾志伟率领公司员工全力支持大小杨哥开设的分公司,并为其捧场,以期借此打开新的市场局面。其背后其实是一场互帮互助的好事。曾志伟的入场既是为了捞取后者的人气,也是为了扩张公司的影响力。最终,被挖墙角的不仅是大小杨哥所在的分公司,还有曾经在其中大放异彩的明星们。

热点资讯 09.19