独特视角:北大团队在CVPR中胜出,大模型让机器人更懂物理世界。

2024-03-04 热点资讯 关注公众号
    :ManipLLM:大语言模型赋能机械臂,实现复杂世界的精细化操作
独家:北大团队中稿CVPR,大模型助力机器人理解物理世界    :苏霍伊
独家:北大团队中稿CVPR,大模型助力机器人理解物理世界    :王博
独家:北大团队中稿CVPR,大模型助力机器人理解物理世界    计算机视觉领域的国际顶会CVPR 20【引人注目】的2024年接收论文结果近日揭晓!北京大学前沿计算机研究中心助理教授、博士生导师董豪团队的一项突破性研究成果——ManipLLM,成功入选CVPR 2024。这一具身大模型技术的诞生,标志着机器人在理解并执行精细物体操作上实现了质的飞跃。
独家:北大团队中稿CVPR,大模型助力机器人理解物理世界    【爆点揭示】ManipLLM开创性地赋予了大语言模型仅通过一张物体图片就能精准操控机械臂完成多样化日常物体操作的能力,这在过去几乎是一项无法企及的技术挑战。如今,在提示词引导下,大语言模型能够在物体图像上直接预测出机械臂的操作点和方向,使得机器人能够真正听懂并执行人类下达的任务指令,依据视觉信息灵活调整动作以完成任务。
    董豪教授对「甲子光年」独家透露:“ManipLLM的核心目标是解决机器人操作的泛化难题。我们创新性地采用大模型直接在物体上输出动作的方法,而非传统方式中针对机器人本体的动作输出,以此显著提升机器人的环境适应性和泛化能力。”
    从ManipLLM演示视频中可以直观看到,面对不同类别的物体,即使接受同样的“打开”指令,机械臂也能自主选择最合适的操作方式,展现出卓越的理解与交互智慧。
    赋予大语言模型操控机械臂的奥秘
    长久以来,“形魂相融”的理念被视为未来机器人的发展方向,其中人工智能作为“魂”,而机器人则是承载智能的“形”。然而,传统的机器人操作严重依赖人工精确预设接触点和执行器方向,将看似简单的动作转化为机器人能理解并执行的指令犹如一项浩大的工程。
     ManipLLM颠覆了这一现状,它试图通过整合大型语言模型的思考之力与机器人的执行能力,让机器人不仅理解指令,还能像人类一样根据物理世界的交互法则做出判断与行动。
    为解决大模型与实际操作结合的难题,董豪团队巧妙利用已经具备强大思考和解决问题能力的大型语言模型,通过特殊的训练方法,使其不仅能理解世界生成描述性语言,更能指导机器人在真实环境中灵活高效地执行任务。
    具体而言,ManipLLM通过以下三个递进的学习阶段,实现了具有广泛泛化能力的以物体为中心的操作:
    1. 类别级别学习:模型识别物体类别,并理解各类物体的基本特性,例如杯子是用来喝水的工具,门则是进出通道等。
    2. 区域级别学习:基于对物体特性的理解,机器人推断在特定场景下应采取何种操作,识别可操作部位。
    3. 位姿级别学习:模型进一步帮助机器人预测操作物体时的最佳姿态和动作路径。
    设计的训练策略(如图所示),ManipLLM仅更新模型的一小部分参数,既保留了语言模型原有的认知智能,又增强了其操控实体世界的能力。最终,通过一种无需额外学习的优化策略,机器人能随着物体形状和方向自然调整动作,进行精细化操作,只需一句提示和一张照片,即可预测并执行操作物体所需的精确位置和旋转角度,进而转化成三维空间中的机械臂动作。
    “ManipLLM是一个开源的多模态大模型,它能够生成可被机器人理解和执行的操作描述,并通过动力学原理完成任务,适用于任何类型的机器人。”董豪如是解释。
    机器人理解与执行任务能力的新突破
    大型语言模型对于具身机器人发展的推动作用深远,极大地扩展了机器人理解和执行任务的能力边界。凭借这些模型,机器人不再仅限于解析人类指令,而是能预测并规划自身的物理行为,实现更精准自然的人机交互。这一能力使机器人能够更好地融入生活和工业应用场景,无论家务助手还是复杂的工业任务,都能以前所未有的智能与灵活性来完成。
    无论是仿真环境还是真实世界,ManipLLM在各类别物体上的出色表现验证了其在多元化场景下的可靠性和泛化能力。相较于RT2等以输出机器人本体动作为主的策略,ManipLLM聚焦于以物体为中心的操作,关注物体本身特性,从而输出更为准确的操作位姿。这种解耦任务、动作和机器人型号的设计思路,让ManipLLM能适应各种任务和机器人类型,应对复杂世界的挑战。
    董豪表示:“大模型以其通用性和对未知场景的强大泛化能力,有力地赋能具身机器人,加速它们解锁更多任务领域,迈向真正的通用智能体,为未来的智能共生社会描绘出无限可能。”
    大模型的应用不仅革新了机器人技术,也树立了未来机器人自主学习和适应能力的新标杆。目前,董豪的研究工作重点涵盖了可泛化的机械臂操作、机器人视觉以及移动设备自主决策等多个前沿领域,他在NeurIPS、ICLR、CVPR、ICCV、ECCV、ICRA、IROS等诸多国际顶级会议/期刊发表50余篇论文,Google Scholar引用次数超过5000次,多次担任包括NeurIPS、CVPR、AAAI、ICRA在内的顶尖会议的领域主席或副编委职务。同时,他领导开发的多个开源项目如TensorLayer和OpenMLsys取得了突出成就,曾在ACM Multimedia 2017荣获最佳开源软件奖,并在2021年和2022年连续获得OpenI杰出项目奖。
    【配图说明】:封面图来源于ManipLLM演示视频。

上一篇:老年人坐高背椅可有效预防腰背疾病
下一篇:老年人看电视要注意的事项
更多更酷的内容分享
猜你感兴趣
科学家研发的多模态大模型,准确锁定图像物体位置,让大模型更懂物理世界。

科学家研发的多模态大模型,准确锁定图像物体位置,让大模型更懂物理世界。

社交媒体和影视剧上父母辅导孩子写作业的有趣和崩溃瞬间,常常源于小学语文常考的“看图写话”题目。这种题目旨在提高小学生的观察和表达能力。如今,AI 如何实现“看图写话”呢?新加坡国立大学的研究团队提出了一种名为 pix2emb 的方法,并基于该方法训练了多模态大模型 NExT-Chat,能够将对话、检测和分割进行统一,以处理各种对话场景。相关论文已发表在 arXiv 上。

热点资讯 02.25
vivo 推出端侧3B大模型,副总裁团队沉浸在AI世界,让手机操作更加便捷

vivo 推出端侧3B大模型,副总裁团队沉浸在AI世界,让手机操作更加便捷

vivo推出全新AI战略“蓝心智能”,包括3B端侧模型和PhoneGPT手机智能体。搭载更高性能的芯片和全新技术,旨在实现更多多模态能力。

热点资讯 10.10
2024年世界人工智能大会五大看点:25款人形机器人首秀 大模型激增让人期待

2024年世界人工智能大会五大看点:25款人形机器人首秀 大模型激增让人期待

个人工智能产业领域的企业家、研究机构和技术供应商,达成合作意向,签署合作协议超过130份,共同推进人工智能领域的技术创新和市场拓展。其中,多款新产品在本次大会发布,并引发了市场的广泛关注。看点二:前沿科技引领产业升级在过去的六年里,全球人工智能大会已经成为了中国和全球人工智能前沿技术的重要展示平台。此次大会上,展示了大量前沿科技和产品,包括大模型、大数据、云计算、人工智能芯片、无人驾驶等。这些科技创新不仅提升了各领域的技术水平,也为各行各业提供了新的发展机遇。看点三:共商共享共建价值理念展会论坛分为“1+3+X”架构,涵盖了AI伦理治理、大模型、数据、算力、具身智能、AI for Science、新型工业化、自动驾驶、投融资、教育与人才等十大重点议题。此外,还邀请了全球顶尖智慧的专家参与论坛,形成了多元化的对话环境,体现了“共商促共享,以善治促善智”的核心价值理念。

热点资讯 07.02
LeCun痛批Sora后,放出视觉世界模型论文,揭晓AI学习物理世界的秘诀。

LeCun痛批Sora后,放出视觉世界模型论文,揭晓AI学习物理世界的秘诀。

LeCun批评OpenAI的Sora采用自回归生成式路线,认为其对世界的理解肤浅,不如世界模型。他发布新论文《在视觉表征学习中学习和利用世界模型》,解释世界模型如何在视觉任务上获得自回归模型般的性能,并介绍Meta推出的首个基于世界模型概念的AI模型I-JEPA。

热点资讯 03.05
10亿观众见证:反转真相!王星越爆火谣言却被《青雾风鸣》区别对待

10亿观众见证:反转真相!王星越爆火谣言却被《青雾风鸣》区别对待

白鹿新剧《唐宫奇案之青雾风鸣》需带新人,老板计划捆绑营销。

热点资讯 11.10
中国海军歼-15D首秀航展启动,已展开首次适应性训练

中国海军歼-15D首秀航展启动,已展开首次适应性训练

"中国海军歼-15D首飞成功,装备了先进的航电和武器系统,并能更好地适应新型航母的需求,成为未来战争的关键力量。"

热点资讯 11.10
邓超新片《贤惠的媳妇、社恐的儿子、乖巧的女儿和叛逆的爸爸》:妻子的坚韧,儿子的勇敢,女儿的天真,父亲的不屈

邓超新片《贤惠的媳妇、社恐的儿子、乖巧的女儿和叛逆的爸爸》:妻子的坚韧,儿子的勇敢,女儿的天真,父亲的不屈

邓超的新电影《胜券在握》将在全国上映,主演包括陈赫、王祖蓝、姚晨等明星。女主角孙俪带着一对儿女前来观看,并称赞邓超的表现。此外,电影圈内的多位导演和演员也对该片给予了高度评价。邓超的家庭观得到了众多影迷的认可,而他的敬业精神也让他备受赞扬。

热点资讯 11.10
沙白白的最新生活照曝光,朋友们纷纷解读错她的身份

沙白白的最新生活照曝光,朋友们纷纷解读错她的身份

沙白白的父亲早已做好了准备,并不得不接受女儿的离开。但是她始终保持着坚强和乐观的态度,选择了用自杀的方式来结束自己的生命。虽然这个消息让她的朋友们感到震惊和痛心,但是她们也接受了这个事实,并对沙白白表达了自己的理解和祝福。沙白白是一位美丽的女性,她的决定让人深感敬佩。同时,我们也应该尊重每个人的选择和决定,因为每个人都是独一无二的个体。

热点资讯 11.10
特殊双十一”——网络打假人收徒上课,单个付费几十至几千元

特殊双十一”——网络打假人收徒上课,单个付费几十至几千元

双十一临近,部分职业打假人迎来活跃期。他们通过收徒、卖课等方式谋取利益。职业打假人已衍出完整的产业链,在各大社交平台分享经验和技巧。但他们的风险很高,但高额的收益和模式化的操作仍然吸引了大量人员入坑。

热点资讯 11.10
安徽一幼师体罚学生,官方回应:教师被采取强制措施

安徽一幼师体罚学生,官方回应:教师被采取强制措施

安徽金安区阳光欧洲城爱贝贝幼儿园一名女教师虐童,被家长曝光并被采取强制措施。该事件引起广泛关注。监控录像显示,多名教师虐待孩子,包括抓住孩子衣襟、拖拽推搡、扇耳光、拧头发等。女教师的手法熟练,可能系园方招聘人员素质问题。

热点资讯 11.10
经济日报:近期存款挂牌利率跌破2%,影响如何?

经济日报:近期存款挂牌利率跌破2%,影响如何?

国有大行宣布存款优惠,引发存款利率下降潮;中小银行纷纷跟进调降存款利率,大额存单利率也不例外;业内专家指出,存款利率持续下滑或促使投资者理性看待投资收益,并强调不应过分追求高收益而忽视风险控制。

热点资讯 11.10
英国男子巧用南瓜与连体衣成功越狱,被捕后仅用两天时间再归案

英国男子巧用南瓜与连体衣成功越狱,被捕后仅用两天时间再归案

英国54岁男子亚伦·伍德企图越狱被捕,他在模仿植物人装扮之后被警方发现。警方正在审理其假释申请。

热点资讯 11.10
普京签署俄朝全面伙伴关系协定:开启新的合作篇章

普京签署俄朝全面伙伴关系协定:开启新的合作篇章

俄罗斯与朝鲜签署战略伙伴关系协议,彰显了在面对外国侵略时的互帮互助。这份协议明确了双方将会提供军事和其他形式援助,同时坚决反对西方制裁,保障了自身的主权、安全等核心利益。俄罗斯外交官也强调,两国之间的合作无需对外泄露。

热点资讯 11.10
以色列公开视频:哈马斯对巴勒斯坦民众的残酷折磨

巴勒斯坦人遭受虐待视频曝光:哈马斯对犹太人的严酷迫害

以色列展示视频:哈马斯虐待巴勒斯坦平民事件曝光

以色列再次播放巴勒斯坦纪录片:暴行揭示:哈马斯为何如此残忍对待民众

揭露以色列残忍真相:哈马斯的虐待行为得到曝光

以色列公开视频:哈马斯对巴勒斯坦民众的残酷折磨 巴勒斯坦人遭受虐待视频曝光:哈马斯对犹太人的严酷迫害 以色列展示视频:哈马斯虐待巴勒斯坦平民事件曝光 以色列再次播放巴勒斯坦纪录片:暴行揭示:哈马斯为何如此残忍对待民众 揭露以色列残忍真相:哈马斯的虐待行为得到曝光

以色列军方公开了哈马斯对巴勒斯坦平民的残酷拷问过程,包括使用长棍和电击等工具虐待囚犯。这个视频的发现标志着以色列自2007年来持续对加沙地区的长期压制和残酷行为的延续。该事件引起了国际社会的关注,并引发了对人权状况的质疑。哈马斯控制下的加沙地区已经存在了很长时间,很多巴勒斯坦人在这种环境下饱受折磨。面对这样的情况,许多国家呼吁和平解决争端,停止暴力行为。

热点资讯 11.10