OpenAI机器人大战擎天柱、奥特曼与马斯克,谁更紧张?

2024-03-25 生活常识 关注公众号

《新鲜计划》栏目由腾讯科技推出,挖掘最新鲜的产品,探索年轻一代的最 in 的生活方式,体验智慧浪潮中的 Aha 时刻。

文 / 腾讯科技 周小燕 郝博阳

机器人赛道又“卷”起来了,斯坦福大学机器人Mobile ALOHA炒菜视频的“火力”劲儿刚过,Figure01又丝滑地将人类指令转化成动作,成为了第一个“递”苹果的给人类的人形机器人。就在前几天,黄仁勋在英伟达GTC大会上秀了一把迪士尼“卖萌”机器人Orange和Green,它们不仅会走路,还会向老黄“撒娇”。

(黄仁勋“招呼”迪士尼机器人)

但是这些机器人还停留在实验室阶段,距离投入市场应用还遥遥无期,或许马斯克可以考虑在下一个特斯拉AI Day,发布一点关于Optimus令人惊艳、可投入生产应用环节的成熟技能,才能应对大家对各种机器人“秀”的审美疲劳。

马斯克最近或许有点“亚历山大”,很多人猜测,Figure01的火爆会让一直“不待见”Open AI的马斯克感到恼火,因为担心Figure01会比擎天柱更快到达“通用人形机器人”的状态。

实际上,Figure01的整体实力相比Optimus还有一段距离,Figure创始人Brett Adcock一直高喊要做“有用的”人形机器人,但论应用,Optimus或许会更领先。

业内有一个主流观点,通用机器人等同于“人形机器人”,但要做好一个人形机器人并不容易,需要在软件、硬件、感知、应用等层面都有积累。

Figure01在这则视频中,呈现地更多的是软件层面的技能,它调用Open AI的接口,实现从语言或视觉到动作的顺滑过度。但从本体层面来看,仔细观察视频中Figure01的动作,会发现它只呈现了机器人的“上半身”,重点展示双手的操作,而双手的灵活度比较有限。此外,从Figure01公布的往期视频来看,它的走动能力也并不是所有人形机器人中最好的一个。

所以,仅仅凭借一则2分多钟时长的视频,很难看出Figure01真实实力,也无法得出它代表了“通用机器人”新高度的结论。

人形机器人的核心价值,是替代人类劳动力,人形机器人拥有灵动的双手和聪明的大脑非常关键,但Figure01的“双手”和“大脑”能力并没有超过擎天柱。

01 双手灵活,才能迈向劳作

原始人关注双手,是人类在进化过程中的第一道门槛。人形机器人要想走向应用,必须要有灵活的机械手。

海银资本创始人王煜全对腾讯科技表示,在人形机器人领域,机械手的重要性占据半壁江山。虽然Figure01在智能层面的突破远远盖过硬件层面,但Figure01在机械手方面并没有领先行业的技术突破。

在demo视频里,Figure01全程只展示了“上半身”,而上半身全程几乎只有双手在活动,不论是在双手配合度上,还是在手的抓握能力上,Figure01都没有展现出令人惊艳的成绩。

Figure01双手由神经网络visual-action transformer策略驱动,它可以将像素直接映射到动作,仔细拆解视频来看,Figure01双手一共配合了4次:

第一次是右手拿起苹果,递给左手,再经由左手递给工作人员:

第二次是左手固定住收纳筐,右手将杂物扔进收纳筐中:

第三次是左手拿起杯口,右手握住杯子底部并将其放置收纳筐:

第四次,左手只起了一点衬托作用,将托盘象征性地“推”给右手,右手再将托盘放置收纳框:

从双手配合度来看,Figure01的动作都是简单地从“抓取”到“放下”,并且抓取物体的标的都是“大件”——苹果、杯子和盘子,没有进一步体现诸如“捏”这类精细运动。

马斯克在几个月前公布的Optimus Gen 2也拥有类似的“左手递给右手”双手配合能力,与Figure01不同的是,Optimus Gen 2选取的物体标的是鸡蛋,相比较于盘子、杯子、苹果,抓取鸡蛋的难度更高,因为抓取一枚鸡蛋力气大了会破,力气小了容易滑落。

(Optimus Gen 2)

根据《中国电子报》报道,机器人完成抓取动作,需要具备压力感知、触力感知和柔性微压力感知能力,触力计算出来是力的大小,压力传感检测出来的是压强。Optimus Gen 2捏鸡蛋的原理,是机械手先通过传感器感知判断物体的压力,再计算抓握物体所需要的力度。马斯克选择用鸡蛋作为Optimus Gen 2的标的,或许就是想要证明如果它能够计算出抓握一枚鸡蛋所需用到的力,并完整地完成这一套动作,那么成功抓握其它物体更不在话下。

对比机械手感知驱动的路线来看,Figure01采用的是视觉运动识别路线,Optimus Gen 2采用的是触觉感知反馈路线。前者通过安装在机械手或其工作环境中的摄像头、激光扫描仪等视觉传感器,帮助机械手识别物体形状、尺寸、位置、运动状态等信息,这也是机械手中最常用的感知系统。后者通过触觉传感器来收集物体的质地、硬度等信息,使得机械手模拟人类的触觉反应,帮助机器人做更精细的操作,比如抓握易碎的脆弱物体等。

机械手是一个非常“卷”的行业,能匹敌Optimus Gen 2的并不多,但超越Figure01的潜在对手却很多。

首先,Optimus Gen 2机械手拥有11个自由度,Figure01只有6个自由度,老牌人形机器人波士顿动力旗下的Atlas也在不断扩张手部自由度,Atlas去年年初才开始在手臂末端装上“螃蟹夹”,在最新的演示视频中,Atlas也才刚刚进化成三根手指和两个关节,手指在手掌处共用一个枢轴点,能够徒手抓住比自己手臂还粗的螺丝,将其搬运到目标位置。

(Atlas)

然而,Atlas的手更适合搬运重物,虽然它没有测试过是否能拿捏好一枚鸡蛋,但Atlas曾在尝试拿起一块木头时,因力度不适导致木头被损坏。

其次,不断有新的玩家涌入机械手领域,行业竞争激烈。比如1月份火爆的Mobile Aloha,可以通过远程操控帮助机器人完成模仿学习,并结合静态Aloha数据,顺畅完成炒虾仁的一整套动作。

李飞飞团队也在研发类似的机械手,它能够拧开茶叶杯盖,用夹子抖落茶叶到茶杯中,整个泡茶动作行云流水,并且无需远程操控,凭借一副特殊手套,就能通过传感器捕捉手部精细运动。

MIT在2023年开发了一款“指形传感器”GelSight Svelte,MIT官方显示,GelSight Svelte具有柔性骨架,通过测量手指触摸物体时脊柱的弯曲程度,便可以估计施加在传感器上的力,它可以执行多种抓握操作,包括捏握、横向捏握以及使用三个手指的整个感应区域的动力握持。

(使用GelSight Svelte传感器的机械手)

除了学术派,企业派也非常积极,他们执着地追求机械手无限逼近人类。比如,机械手领域里不乏尝试做人造皮肤的公司,今年2月份,2021年成立的初创公司Clone Robotics推出了其第18版合成手,它拥有27个自由度,就像真人的手一样,包含骨骼、肌肉和韧带。这款机械手的骨骼由成本低廉的碳纤维组成,其余部分由软材料构成,包括37块肌肉,可以承受15磅的重量。

(Clone Robotics)

“执着派”们除了追求触感接近人类,也追求形态无限逼近人类,比如他们认为机械手也应该做成五指,而不是停留在二指、三指。

但人手结构非常复杂,拥有27块骨头、多个关节、超过100条肌腱,想要模仿类似人类的双手,并完成复杂运动的协调和精准的精细动作,会面临非常大的挑战。

人的双手也非常灵活,能够适应各类物体的形状、大小和质地,并且人类的感觉神经能够提供关于触摸、温度和疼痛的反馈,而机械手要完成同样的能力,需要集成先进的传感器来模拟这种感知能力,并且实时调整机械手的行为,这就需要复杂的工程和算法设计。

在机械手赛道上奔跑的玩家接连不断,相比较而言,Figure01展示的机械手,并没有更高一筹。

02 变聪明,才能“与人为伍”

如果人形机器人“听不懂”人类的语言,“人机协作”会困难重重,拥有聪明的脑袋对人形机器人应用至关重要。

Figure01的智能确实令人惊艳,但这个能力不是Figure自己“长”出来的,它归功于Open AI,其它机器人想追赶上也并非难事。

Figure技术负责人、原谷歌Deep Mind科学家Corey Lync在X上分享了这款人形机器人的技术原理,Figure01智力的构建可以被拆解成三个层面:

第一层,模型层,从图像中获得常识推理,Figure01在这一层搭载了Open AI的能力;

第二层,神经策略层,帮助Figure01实现快速灵巧操控;

第三层,控制层,驱动Figure01运动;

(Figure的技术原理)

根据戴盟首席科学家及联合创始人、香港科技大学机器人学院院长王煜教授介绍,如果类比人类,这三个层面的相互转化涉及到“大脑”和“小脑”两个能力模块:

● 大脑阶段,即涉及机器人交互,信息输入及任务决策的过程,就相当于人类将看到的环境图像,转化为信息存储在大脑,并根据环境决策结合指令,规划如何完成任务。如果映射到人形机器人身上,就是通过大语言模型理解人类信息,并利用视觉传感器获取图像信息的过程。这里所调配的大脑能力,用到的是类似PaLM-Saycan的模型,Palm-Saycan是谷歌两年前就研发出的方法,它可以帮助机器人通过思维链提示和执行请求的方案,来更好地完成复杂任务。

● 小脑阶段包括两个部分,第一部分是动作执行能力,相当于大脑将图像信息进行处理后,转化为运动指令,并驱动机器人运动的过程,这里所调配的是小脑能力,用到的是类似RT-1的模型,它承接“大脑”环节给出的指令,输出机器人听得懂的操作,来控制机器人的运动。第二部分是全身控制功能,在人形机器人在进行诸如行走或其他可能影响到他人和自身平衡性的动作时,能够保证其安全和平衡。

拆解下来后,不难发现Figure01采用的是pipeline形式,即从接受信息到运动的整个过程,都是环环相扣的流水线般的流程,王煜教授表示,“Figure01之所以采用pipeline形式,是因为这样便于每个阶段都可以被追溯到,如果训练整个一套模型数据量非常大,pipeline状态能够最快地让机器人变得有用起来。”

在王煜教授看来,这次Figure01主要展示的是添加“大脑”之后,机器人处理复杂事务能力的提升。这次OpenAI提供的GPT接口对机器人任务进行了一定的优化,使得其环境判断能力更强,响应速度更快。但PaLM模型本身的实现,对于任何具有多模态能力的模型来说都不困难。

马斯克前段时间刚刚开源了自己的大模型Grok,虽然这款3140亿参数的大模型还不具备多模态能力,其Benchmark也不及GPT 3.5。但根据xAI官网称,Grok接下来还会重点发展长文本理解多模态能力。因此在机器人通过API接入下一代Grok后,实现与Figure01类似的能力也并非难事。

最后,相比较于Optimus,Figure01的“小脑”能力如何?可以从运动的流畅度、速度和平衡性几个方面,来考察它的“小脑”能力。

在12月Optimus  Gen2的演示中,马斯克的团队特别提到其能够完成诸如拿鸡蛋、分物品的能力是“端到端”的,这说明虽然并未接入高级大脑层的应用,但Optimus Gen2也已经加载了类似RT-1的功能。从基础控制算法框架应该和Figure01差距不大。

但Figure01另一个让人惊艳的能力,是其动作的迅捷和流畅速度。王煜教授表示,“Figure01 10Hz的图像识别能力和200Hz的动作控制水平已经超越了Optimus”,因此,Figure01的动作才十分流畅,几乎没有“延迟”。

虽然Figure01在动作流畅性上更胜一筹,但它在身体控制层面上并没有超越Optimus。

在官方视频中,Figure01具备很多技能,比如走路、腰部扭动、搬箱子、制作咖啡拉花等。Optimus的表现也不差,它不仅会走路,还会深蹲、做瑜伽、根据颜色对物体进行归类放置等。

(Optimus做瑜伽)

从已有的视频观察,Optimus在平衡度上更胜一筹,毕竟它能做到以单腿站立姿态稳稳地做瑜伽。通过观察二者的步态,Optimus迈步的顺滑度略强于Figure01,而后者步行姿势更像“裹脚”迈碎步的姿态。

从底层的运动规划算法来看,Optimus可以继承特斯拉在自动驾驶领域的积累,比如对复杂环境的感知、对他人行为的预测、复杂任务的决策和执行等。虽然二者应用场景不同,但它们在算法和技术理念层面,尤其在神经网络层面的技术积累上,存在很多共通之处。

总体而言,与其说Figure01展现的互动是人形机器人的成功,不如说是OpenAI迈向平台化的成功。“OpenAI如果能将训练人形机器人的那部分模型系统化、标准化,那么它将会非常有竞争力”,王煜全对腾讯科技说道。

虽然人形机器人几乎成为通用机器人的代名词,但王煜全认为,如果过于执着于做人形,方向就走偏了,还可能会因此带来很多不必要的成本。他认为,做机器人的思路应该切换到应用上,如果聚焦应用,其实机器人的手指最多3-4根就足够了,也不必关注让机器人行走起来的是双腿还是轮子。

在经济学中,人是绝对理性、只考虑利益最大化的。但在实际生活中,却存在着很多为了寻找理想而选择牺牲成本的人。

就像Figure、Optimus这些人形机器人背后的人,他们一直孜孜不倦地追求着理想中的“机器人”。

参考资料:

https://news.mit.edu/2023/finger-shaped-sensor-enables-more-dexterous-robots-1004

https://www.youtube.com/shorts/SFKM-Rxiqzg

https://www.freethink.com/robots-ai/humanoid-robots-clone-hand


结论:尽管Facebook推出的Figma Pro平台展示了创新的人工智能产品和服务,但是在推动AI商业化方面仍然面临挑战。首先,相比于特斯拉的Optimus AI Day,马斯克可能感到担忧,因为他的机器人尚未达到通用人形机器人的标准。其次,通用机器人的概念与人形机器人有着本质的不同,表现在力量、灵活性和准确度等方面。在这个过程中,Figma Pro和YouTube看似成功的例子并不能反映出这一点。总的来说,想要推动人工智能的发展,我们需要更加注重实用性和经济性,而不是纯粹追求创新。同时,马斯克和他的团队需要考虑到未来可能出现的各种可能性,如物理障碍和伦理问题。

上一篇:存储走向中央,得一微不断开拓
下一篇:今晚 8 点,一起开启 iPhone 效率新世代
更多更酷的内容分享
猜你感兴趣
微软、英伟达投资的人形机器人公司,挑战马斯克的擎天柱!

微软、英伟达投资的人形机器人公司,挑战马斯克的擎天柱!

美国AI初创公司Figure AI宣布获得6.75亿美元新一轮融资,投资者包括微软、英伟达、OpenAI和贝佐斯等。该公司将利用这笔资金加速开发人形机器人,并与OpenAI合作开发下一代人工智能模型。人形机器人已成为科技界的热门领域,吸引了大量资本投资。

热点资讯 03.01
特斯拉CEO马斯克称‘擎天柱’机器人仍处于早期试验阶段,计划在2023年年内推出

特斯拉CEO马斯克称‘擎天柱’机器人仍处于早期试验阶段,计划在2023年年内推出

特斯拉新计划推出的人形机器人“擎天柱”在实验室内进行试验,预计将于明年年底上市,这是其人工智能领域的重要突破。许多人形机器人都正在押注特斯拉,以满足未来可能出现的劳动力短缺和单调重复的任务。目前,特斯拉已推出第一代“大黄蜂”,并成功在工厂内叠上了自己的衬衫。

热点资讯 04.24
马斯克诉OpenAI与奥特曼:指责不顾公众利益

马斯克诉OpenAI与奥特曼:指责不顾公众利益

马斯克启动对OpenAI与三位联合创始人发起索赔,因OpenAI违规商业策略并损害了共享目标。OpenAI已撤回此前指控,并遭法院裁定其败诉。马斯克称其不再拥有OpenAI成员资格,并要求法院发布禁令阻止他们从公司获益。纷争升级,OpenAI申请撤诉。马斯克可能针对旧金山高等法院决定采取行动。

热点资讯 08.06
马斯克起诉OpenAI和奥特曼,微软小心吃瓜!

马斯克起诉OpenAI和奥特曼,微软小心吃瓜!

马斯克起诉OpenAI,称其违背了当初为造福全人类的目标,变得越来越商业化,并偏向微软。尽管起诉理由看似高大上,但是否真的违背初衷难以评判。商业化并不意味着不造福全人类,科技产业化是推动社会发展的重要方式。然而,这起官司对微软来说是一个警钟,因为OpenAI的结构中有一个非营利董事会,与微软合作的是营利子公司,而营利子公司又被非营利部分控制。

热点资讯 03.07
双子宫妈妈喜提龙凤胎宝宝,产科医生惊叹其罕见现象

双子宫妈妈喜提龙凤胎宝宝,产科医生惊叹其罕见现象

角度以及全面细致的观察之后,蔡颖主任团队终于为其成功实施了一次剖腹产手术。术后,两位龙凤胎宝宝顺利降生。这个案例再次强调了先天性子宫畸形带来的巨大挑战,并显示了在预知风险并采取积极措施的情况下,成功出生的可能性依然存在。无论是在医学知识还是日常生活经验上,这都是一次让人感到震撼的生育过程。

生活常识 09.20
深入探究!晋江鞋服实验室的精妙之处

深入探究!晋江鞋服实验室的精妙之处

摘要:福建晋江的民营经济覆盖广泛,鞋服产业闻名;政府积极支持企业创新,并建立了多个研发实验室与公共实验室;安踏集团创新实验室研发出了具有情绪控制功能的智能鞋、皮肤触控技术,361°运动科学研究中心研发了满足不同运动场景需求的运动科学实验室。 关键词:福建晋江,民营经济,鞋服产业,政府支持,科研实验室

生活常识 09.20
国产创新药上半年销售额成绩公布:持续增长引领行业创新风潮

国产创新药上半年销售额成绩公布:持续增长引领行业创新风潮

2024年上半年,我国已经有30个创新药达到或超过了上市标准,其销售额累计达到了224亿元,同比增长了73%。泽布替尼凭借高销售额成为了国内创新药中的“药王”,此外,国产创新药在海外市场的表现也非常出色。但是,也有部分创新药的销售额出现了下滑的趋势。在未来,随着我国生物医药行业的进一步发展,国产创新药有望在全球药品市场占据重要的地位。

生活常识 09.19
郭桂霞:在山区,她的爱心筑起了孩子们的未来

郭桂霞:在山区,她的爱心筑起了孩子们的未来

郭桂霞老师三十年间走过三十多万里山路,陪伴三十多所学校的孩子们走出大山求学、工作。她成为了村里的“外来人”,与学生们建立起深厚的情感联系。她是全国模范教师、中国好人、省优秀教师等,用自己的辛勤付出激励更多的人投身乡村教育事业。虽然面临即将退休的困境,但她仍决定退休后继续参与支教活动,为乡村教育发展做出更大的贡献。她的目标是能让每一个孩子通过努力学习走出大山,实现他们的梦想。

生活常识 09.19
面对老年皮肤瘙痒的困扰,了解正确的处理方式很重要

面对老年皮肤瘙痒的困扰,了解正确的处理方式很重要

秋冬季,老人皮肤痒需重视,避免抓挠、洗澡和保湿。除了上述方法,还可根据病情服用相应药物或调整生活习惯。若症状严重,应就医。

生活常识 09.19
互联网资源: 帮助家庭更好地理解来自星星的孩子

互联网资源: 帮助家庭更好地理解来自星星的孩子

自闭症儿童的生活困境和社会接纳是个重要议题。在著名作家和翻译家于米的小说《有且仅有》中,库珀妈妈的故事感动了许多人。本书鼓励家长勇敢面对孩子的缺陷,并用心陪伴,引导他们健康成长。同时,书中的主角凯特也是个非常具有影响力的角色,她在博客上分享自己的经验,帮助许多同样遭遇困扰的家庭找到方向。总的来说,《有且仅有》是专门为自闭症儿童打造的一本好书,它让读者深感生命的宝贵和希望的力量。

生活常识 09.19
评论:向孩子举起屠刀的人,他们的罪行不容恕

评论:向孩子举起屠刀的人,他们的罪行不容恕

深圳小学生在学校门口被刺死,警方称该行为属“正当防卫”,已被判刑。对此,中国互联网呼吁谴责并禁止“仇恨言论”,敦促日本方面正视历史,释放核污染废水。

生活常识 09.19
福州莱瑞珠宝连锁店因黄金托管问题爆发风险,真相揭示:黄金托管为何成为‘吞金陷阱’?

福州莱瑞珠宝连锁店因黄金托管问题爆发风险,真相揭示:黄金托管为何成为‘吞金陷阱’?

的电话试图采访,但一直无人接听。经梳理,此次事件涉及多个山东莱瑞珠宝门店被关闭,导致多名消费者投资黄金却亏损惨重。据专家分析,“金生金”骗局多发于地方商场和购物中心,并通过各种手段对消费者进行欺诈。近期,相关部门已对此类案件进行了严厉打击,提醒消费者提高警惕并远离虚假广告。建议相关企业和监管部门加强监管,加强对投资者的投资教育,切实保护消费者权益。

生活常识 09.19
警惕这些肝功能异常的警示信号,放心生活!

警惕这些肝功能异常的警示信号,放心生活!

标正常,也不能排除其他可能存在的问题。比如饮食不当、慢性疾病、过度劳累等等都可能导致肝功能出现问题。因此,在平时生活中,我们还要注意合理膳食、适量运动、避免过度劳累等,以保持肝脏的健康。同时,定期进行肝功能检查也是很有必要的。如果在检查中发现任何异常情况,都要及时就医,以便早期发现并治疗肝病。

生活常识 09.19
深圳宝安携手政府部门助力无户籍未成年人入户上学,打造全国一体化教育资源网

深圳宝安携手政府部门助力无户籍未成年人入户上学,打造全国一体化教育资源网

《家长愁寻未上户口男孩 笔记本电脑里寻回失散的记忆》 -- 深圳宝安检察院联合多方帮助“无户籍”未成年人入学 --- 原因揭示、破解谜团:少年儿童身份证问题与亲子关系等多地沟通协调;揭开真相!女孩家长收到歉意答复——正义伸张,温情脉脉 -- 捐助与参与,未来可期: --- 看见孩子们美好的未来,这个简单的“宝姐姐”未检团队也感受到了使命和责任。——未成年人权益保护,点滴温暖,希望永存。

生活常识 09.19