OpenAI机器人大战擎天柱、奥特曼与马斯克，谁更紧张？

2024-03-25 生活常识关注公众号

《新鲜计划》栏目由腾讯科技推出，挖掘最新鲜的产品，探索年轻一代的最 in 的生活方式，体验智慧浪潮中的 Aha 时刻。

文 / 腾讯科技周小燕郝博阳

机器人赛道又“卷”起来了，斯坦福大学机器人Mobile ALOHA炒菜视频的“火力”劲儿刚过，Figure01又丝滑地将人类指令转化成动作，成为了第一个“递”苹果的给人类的人形机器人。就在前几天，黄仁勋在英伟达GTC大会上秀了一把迪士尼“卖萌”机器人Orange和Green，它们不仅会走路，还会向老黄“撒娇”。

（黄仁勋“招呼”迪士尼机器人）

但是这些机器人还停留在实验室阶段，距离投入市场应用还遥遥无期，或许马斯克可以考虑在下一个特斯拉AI Day，发布一点关于Optimus令人惊艳、可投入生产应用环节的成熟技能，才能应对大家对各种机器人“秀”的审美疲劳。

马斯克最近或许有点“亚历山大”，很多人猜测，Figure01的火爆会让一直“不待见”Open AI的马斯克感到恼火，因为担心Figure01会比擎天柱更快到达“通用人形机器人”的状态。

实际上，Figure01的整体实力相比Optimus还有一段距离，Figure创始人Brett Adcock一直高喊要做“有用的”人形机器人，但论应用，Optimus或许会更领先。

业内有一个主流观点，通用机器人等同于“人形机器人”，但要做好一个人形机器人并不容易，需要在软件、硬件、感知、应用等层面都有积累。

Figure01在这则视频中，呈现地更多的是软件层面的技能，它调用Open AI的接口，实现从语言或视觉到动作的顺滑过度。但从本体层面来看，仔细观察视频中Figure01的动作，会发现它只呈现了机器人的“上半身”，重点展示双手的操作，而双手的灵活度比较有限。此外，从Figure01公布的往期视频来看，它的走动能力也并不是所有人形机器人中最好的一个。

所以，仅仅凭借一则2分多钟时长的视频，很难看出Figure01真实实力，也无法得出它代表了“通用机器人”新高度的结论。

人形机器人的核心价值，是替代人类劳动力，人形机器人拥有灵动的双手和聪明的大脑非常关键，但Figure01的“双手”和“大脑”能力并没有超过擎天柱。

01 双手灵活，才能迈向劳作

原始人关注双手，是人类在进化过程中的第一道门槛。人形机器人要想走向应用，必须要有灵活的机械手。

海银资本创始人王煜全对腾讯科技表示，在人形机器人领域，机械手的重要性占据半壁江山。虽然Figure01在智能层面的突破远远盖过硬件层面，但Figure01在机械手方面并没有领先行业的技术突破。

在demo视频里，Figure01全程只展示了“上半身”，而上半身全程几乎只有双手在活动，不论是在双手配合度上，还是在手的抓握能力上，Figure01都没有展现出令人惊艳的成绩。

Figure01双手由神经网络visual-action transformer策略驱动，它可以将像素直接映射到动作，仔细拆解视频来看，Figure01双手一共配合了4次：

第一次是右手拿起苹果，递给左手，再经由左手递给工作人员：

第二次是左手固定住收纳筐，右手将杂物扔进收纳筐中：

第三次是左手拿起杯口，右手握住杯子底部并将其放置收纳筐：

第四次，左手只起了一点衬托作用，将托盘象征性地“推”给右手，右手再将托盘放置收纳框：

从双手配合度来看，Figure01的动作都是简单地从“抓取”到“放下”，并且抓取物体的标的都是“大件”——苹果、杯子和盘子，没有进一步体现诸如“捏”这类精细运动。

马斯克在几个月前公布的Optimus Gen 2也拥有类似的“左手递给右手”双手配合能力，与Figure01不同的是，Optimus Gen 2选取的物体标的是鸡蛋，相比较于盘子、杯子、苹果，抓取鸡蛋的难度更高，因为抓取一枚鸡蛋力气大了会破，力气小了容易滑落。

（Optimus Gen 2）

根据《中国电子报》报道，机器人完成抓取动作，需要具备压力感知、触力感知和柔性微压力感知能力，触力计算出来是力的大小，压力传感检测出来的是压强。Optimus Gen 2捏鸡蛋的原理，是机械手先通过传感器感知判断物体的压力，再计算抓握物体所需要的力度。马斯克选择用鸡蛋作为Optimus Gen 2的标的，或许就是想要证明如果它能够计算出抓握一枚鸡蛋所需用到的力，并完整地完成这一套动作，那么成功抓握其它物体更不在话下。

对比机械手感知驱动的路线来看，Figure01采用的是视觉运动识别路线，Optimus Gen 2采用的是触觉感知反馈路线。前者通过安装在机械手或其工作环境中的摄像头、激光扫描仪等视觉传感器，帮助机械手识别物体形状、尺寸、位置、运动状态等信息，这也是机械手中最常用的感知系统。后者通过触觉传感器来收集物体的质地、硬度等信息，使得机械手模拟人类的触觉反应，帮助机器人做更精细的操作，比如抓握易碎的脆弱物体等。

机械手是一个非常“卷”的行业，能匹敌Optimus Gen 2的并不多，但超越Figure01的潜在对手却很多。

首先，Optimus Gen 2机械手拥有11个自由度，Figure01只有6个自由度，老牌人形机器人波士顿动力旗下的Atlas也在不断扩张手部自由度，Atlas去年年初才开始在手臂末端装上“螃蟹夹”，在最新的演示视频中，Atlas也才刚刚进化成三根手指和两个关节，手指在手掌处共用一个枢轴点，能够徒手抓住比自己手臂还粗的螺丝，将其搬运到目标位置。

(Atlas)

然而，Atlas的手更适合搬运重物，虽然它没有测试过是否能拿捏好一枚鸡蛋，但Atlas曾在尝试拿起一块木头时，因力度不适导致木头被损坏。

其次，不断有新的玩家涌入机械手领域，行业竞争激烈。比如1月份火爆的Mobile Aloha，可以通过远程操控帮助机器人完成模仿学习，并结合静态Aloha数据，顺畅完成炒虾仁的一整套动作。

李飞飞团队也在研发类似的机械手，它能够拧开茶叶杯盖，用夹子抖落茶叶到茶杯中，整个泡茶动作行云流水，并且无需远程操控，凭借一副特殊手套，就能通过传感器捕捉手部精细运动。

MIT在2023年开发了一款“指形传感器”GelSight Svelte，MIT官方显示，GelSight Svelte具有柔性骨架，通过测量手指触摸物体时脊柱的弯曲程度，便可以估计施加在传感器上的力，它可以执行多种抓握操作，包括捏握、横向捏握以及使用三个手指的整个感应区域的动力握持。

（使用GelSight Svelte传感器的机械手）

除了学术派，企业派也非常积极，他们执着地追求机械手无限逼近人类。比如，机械手领域里不乏尝试做人造皮肤的公司，今年2月份，2021年成立的初创公司Clone Robotics推出了其第18版合成手，它拥有27个自由度，就像真人的手一样，包含骨骼、肌肉和韧带。这款机械手的骨骼由成本低廉的碳纤维组成，其余部分由软材料构成，包括37块肌肉，可以承受15磅的重量。

(Clone Robotics)

“执着派”们除了追求触感接近人类，也追求形态无限逼近人类，比如他们认为机械手也应该做成五指，而不是停留在二指、三指。

但人手结构非常复杂，拥有27块骨头、多个关节、超过100条肌腱，想要模仿类似人类的双手，并完成复杂运动的协调和精准的精细动作，会面临非常大的挑战。

人的双手也非常灵活，能够适应各类物体的形状、大小和质地，并且人类的感觉神经能够提供关于触摸、温度和疼痛的反馈，而机械手要完成同样的能力，需要集成先进的传感器来模拟这种感知能力，并且实时调整机械手的行为，这就需要复杂的工程和算法设计。

在机械手赛道上奔跑的玩家接连不断，相比较而言，Figure01展示的机械手，并没有更高一筹。

02 变聪明，才能“与人为伍”

如果人形机器人“听不懂”人类的语言，“人机协作”会困难重重，拥有聪明的脑袋对人形机器人应用至关重要。

Figure01的智能确实令人惊艳，但这个能力不是Figure自己“长”出来的，它归功于Open AI，其它机器人想追赶上也并非难事。

Figure技术负责人、原谷歌Deep Mind科学家Corey Lync在X上分享了这款人形机器人的技术原理，Figure01智力的构建可以被拆解成三个层面：

第一层，模型层，从图像中获得常识推理，Figure01在这一层搭载了Open AI的能力；

第二层，神经策略层，帮助Figure01实现快速灵巧操控；

第三层，控制层，驱动Figure01运动；

(Figure的技术原理）

根据戴盟首席科学家及联合创始人、香港科技大学机器人学院院长王煜教授介绍，如果类比人类，这三个层面的相互转化涉及到“大脑”和“小脑”两个能力模块：

● 大脑阶段，即涉及机器人交互，信息输入及任务决策的过程，就相当于人类将看到的环境图像，转化为信息存储在大脑，并根据环境决策结合指令，规划如何完成任务。如果映射到人形机器人身上，就是通过大语言模型理解人类信息，并利用视觉传感器获取图像信息的过程。这里所调配的大脑能力，用到的是类似PaLM-Saycan的模型，Palm-Saycan是谷歌两年前就研发出的方法，它可以帮助机器人通过思维链提示和执行请求的方案，来更好地完成复杂任务。

● 小脑阶段包括两个部分，第一部分是动作执行能力，相当于大脑将图像信息进行处理后，转化为运动指令，并驱动机器人运动的过程，这里所调配的是小脑能力，用到的是类似RT-1的模型，它承接“大脑”环节给出的指令，输出机器人听得懂的操作，来控制机器人的运动。第二部分是全身控制功能，在人形机器人在进行诸如行走或其他可能影响到他人和自身平衡性的动作时，能够保证其安全和平衡。

拆解下来后，不难发现Figure01采用的是pipeline形式，即从接受信息到运动的整个过程，都是环环相扣的流水线般的流程，王煜教授表示，“Figure01之所以采用pipeline形式，是因为这样便于每个阶段都可以被追溯到，如果训练整个一套模型数据量非常大，pipeline状态能够最快地让机器人变得有用起来。”

在王煜教授看来，这次Figure01主要展示的是添加“大脑”之后，机器人处理复杂事务能力的提升。这次OpenAI提供的GPT接口对机器人任务进行了一定的优化，使得其环境判断能力更强，响应速度更快。但PaLM模型本身的实现，对于任何具有多模态能力的模型来说都不困难。

马斯克前段时间刚刚开源了自己的大模型Grok，虽然这款3140亿参数的大模型还不具备多模态能力，其Benchmark也不及GPT 3.5。但根据xAI官网称，Grok接下来还会重点发展长文本理解和多模态能力。因此在机器人通过API接入下一代Grok后，实现与Figure01类似的能力也并非难事。

最后，相比较于Optimus，Figure01的“小脑”能力如何？可以从运动的流畅度、速度和平衡性几个方面，来考察它的“小脑”能力。

在12月Optimus Gen2的演示中，马斯克的团队特别提到其能够完成诸如拿鸡蛋、分物品的能力是“端到端”的，这说明虽然并未接入高级大脑层的应用，但Optimus Gen2也已经加载了类似RT-1的功能。从基础控制算法框架应该和Figure01差距不大。

但Figure01另一个让人惊艳的能力，是其动作的迅捷和流畅速度。王煜教授表示，“Figure01 10Hz的图像识别能力和200Hz的动作控制水平已经超越了Optimus”，因此，Figure01的动作才十分流畅，几乎没有“延迟”。

虽然Figure01在动作流畅性上更胜一筹，但它在身体控制层面上并没有超越Optimus。

在官方视频中，Figure01具备很多技能，比如走路、腰部扭动、搬箱子、制作咖啡拉花等。Optimus的表现也不差，它不仅会走路，还会深蹲、做瑜伽、根据颜色对物体进行归类放置等。

（Optimus做瑜伽）

从已有的视频观察，Optimus在平衡度上更胜一筹，毕竟它能做到以单腿站立姿态稳稳地做瑜伽。通过观察二者的步态，Optimus迈步的顺滑度略强于Figure01，而后者步行姿势更像“裹脚”迈碎步的姿态。

从底层的运动规划算法来看，Optimus可以继承特斯拉在自动驾驶领域的积累，比如对复杂环境的感知、对他人行为的预测、复杂任务的决策和执行等。虽然二者应用场景不同，但它们在算法和技术理念层面，尤其在神经网络层面的技术积累上，存在很多共通之处。

总体而言，与其说Figure01展现的互动是人形机器人的成功，不如说是OpenAI迈向平台化的成功。“OpenAI如果能将训练人形机器人的那部分模型系统化、标准化，那么它将会非常有竞争力”，王煜全对腾讯科技说道。

虽然人形机器人几乎成为通用机器人的代名词，但王煜全认为，如果过于执着于做人形，方向就走偏了，还可能会因此带来很多不必要的成本。他认为，做机器人的思路应该切换到应用上，如果聚焦应用，其实机器人的手指最多3-4根就足够了，也不必关注让机器人行走起来的是双腿还是轮子。

在经济学中，人是绝对理性、只考虑利益最大化的。但在实际生活中，却存在着很多为了寻找理想而选择牺牲成本的人。

就像Figure、Optimus这些人形机器人背后的人，他们一直孜孜不倦地追求着理想中的“机器人”。

参考资料：

https://news.mit.edu/2023/finger-shaped-sensor-enables-more-dexterous-robots-1004

https://www.youtube.com/shorts/SFKM-Rxiqzg

https://www.freethink.com/robots-ai/humanoid-robots-clone-hand

结论：尽管Facebook推出的Figma Pro平台展示了创新的人工智能产品和服务，但是在推动AI商业化方面仍然面临挑战。首先，相比于特斯拉的Optimus AI Day，马斯克可能感到担忧，因为他的机器人尚未达到通用人形机器人的标准。其次，通用机器人的概念与人形机器人有着本质的不同，表现在力量、灵活性和准确度等方面。在这个过程中，Figma Pro和YouTube看似成功的例子并不能反映出这一点。总的来说，想要推动人工智能的发展，我们需要更加注重实用性和经济性，而不是纯粹追求创新。同时，马斯克和他的团队需要考虑到未来可能出现的各种可能性，如物理障碍和伦理问题。

上一篇:存储走向中央，得一微不断开拓
下一篇:今晚 8 点，一起开启 iPhone 效率新世代

更多更酷的内容分享

猜你感兴趣

特斯拉“擎天柱”展示，马斯克称即将普及人类工作：《特斯拉新秀“擎天柱”正式亮相》

金·卡戴珊正在展示她最新的高科技豪华玩具，包括特斯拉机器人。在她的最新视频中，特斯拉机器人模仿跑步、挥手和舞蹈，而且比以往任何时候都更能彻底改变世界。在视频片段中，特斯拉第二代人形机器人（即“擎天柱”）的生产到 2026 年将全面展开，但特斯拉最早可能在明年就在公司内部使用它们。此外，还有两个金色特斯拉机器人以及一辆尚未上市的金色特斯拉赛博皮卡。有人推测马斯克是想利用卡戴珊的影响力为自家产品做宣传。

热点资讯 11.19

微软、英伟达投资的人形机器人公司，挑战马斯克的擎天柱！

美国AI初创公司Figure AI宣布获得6.75亿美元新一轮融资，投资者包括微软、英伟达、OpenAI和贝佐斯等。该公司将利用这笔资金加速开发人形机器人，并与OpenAI合作开发下一代人工智能模型。人形机器人已成为科技界的热门领域，吸引了大量资本投资。

热点资讯 03.01

马斯克大手笔投入，钢铁侠与奥特曼大战的背后故事

“铁甲勇士”奥特曼与“神勇的战士”X AI在OpenAI融资大战中展开激战。X AI以其强大的数据处理能力和超乎想象的计算能力，在短短一年半的时间里迅速崛起，并获得了近70亿美元的估值，成功压倒OpenAI，成为硅谷最受瞩目的独角兽企业之一。尽管面临内部冲突和经济压力，但X AI凭借其出色的商业头脑和强大的研发团队依然保持强劲的增长势头，显示出明显的竞争优势。随着全球人工智能市场的爆发，这场充满争议的战争最终将在科技巨头之间展开，决定未来的科技发展趋势。

热点资讯 09.30

特斯拉CEO马斯克称‘擎天柱’机器人仍处于早期试验阶段，计划在2023年年内推出

特斯拉新计划推出的人形机器人“擎天柱”在实验室内进行试验，预计将于明年年底上市，这是其人工智能领域的重要突破。许多人形机器人都正在押注特斯拉，以满足未来可能出现的劳动力短缺和单调重复的任务。目前，特斯拉已推出第一代“大黄蜂”，并成功在工厂内叠上了自己的衬衫。

热点资讯 04.24

六页小学语法知识详解：让你的孩子英语成绩无忧

此内容涉及学习英语语法，其中涉及了名词的分类和一些基本规则，如可数名词和不可数名词的定义以及一些口诀。该信息提供了完整的套学习资源，包括二维码和数据颜色方案。

生活常识 11.22

校长恳请家长勿对举报现象产生误解，解读家校沟通中的潜在问题

近日，辽宁省大连市一所小学校长回应家长投诉称，若孩子出现问题，家长不应报警和举报，应直接找他解决问题。事件引起广泛关注，引发对学校与家长关系、以及教育政策等问题的讨论。虽然该校长初衷是好的，但他的一些语言措辞存在问题，需要进一步核实。目前，人们普遍认为，家校间的信任不足是矛盾冲突增加的原因之一。因此，有必要将这个问题放在更大背景下考虑。

生活常识 11.22

康复中的杨衿记主任揭示肺癌患者脑转移灶彻底消退的秘密

一位50多岁的肺癌患者经历了靶向联合化疗，脑部疾病完全消失，并接受了手术治疗。关于肺癌脑转移的症状，可以发现晕眩、头痛、恶心、呕吐、情绪波动或记忆障碍等症状，可配合影像学检查确定是否存在转移病灶。此外，还可通过血癌标志物、腰椎穿刺等方式排除脑膜转移可能性。该疗法为肺癌脑转移患者的临床获益显著，如脑转移病灶被彻底消除，患者成功接受手术治疗。随着医学发展，靶向联合化疗已成为肺癌治疗的重要选择。

生活常识 11.22

探秘质子治疗：卓越疗效与罕见病例的科普解析

果优于其他治疗手段）眼鼻咽部、耳鼻喉、口腔癌、乳腺癌、结直肠癌、前列腺癌、子宫颈癌、肺癌、甲状腺癌和胃癌的治疗患者等。研究表明，质子治疗对眼部、头部、神经系统的肿瘤具有较高的疗效。同时，质量子治疗还可以用于乳腺癌、结直肠癌、前列腺癌等多种癌症的治疗，展现出广阔的应用前景。

生活常识 11.22

南京男子误食过多花生后被紧急送往医院

李先生听说花生可以增强记忆力，有效降低心脏病、癌症、糖尿病等疾病风险，特意前往乡间采购。回家后出现了腹胀腹痛等症状，经诊断是急性胰腺炎，并且病情十分危急。秦海东主任立即协调EICU床位，为挽救李先生的生命健康开启了“绿色通道”。经过医护人员的通力协作，李先生最终成功康复。

生活常识 11.22

怀九胞胎当事人为保孕妇安，丈夫发声呼吁平安分娩

25岁南昌女子怀上9胞胎引关注，待第二次减胎手术。据此前报道，该女子曾因身体状况不佳受挫，此次计划减胎四个胎儿。

生活常识 11.22

中国角成功举办 COP29 青年行动世界未来主题边会

团青年们积极响应联合国气候变化框架公约关于青年行动"世界未来"的主题，首次以"穿越南极出征"的方式，向全球传递了他们对地球未来的美好愿景与坚定决心。在这个过程中，各国部长就应对气候变化的策略、国际合作与青少年的责任等问题进行了深入交流，并共同承诺致力于推动人类走向更美好的未来。

生活常识 11.22

几十年的秘密被揭示：科学家最新发现自来水中隐藏的化学物质具有毒性

告被广泛应用于自来水消毒。然而，研究人员最近发现，这种已被忽视的消毒副产物氯硝酰胺阴离子对人类健康构成潜在威胁。氯硝酰胺阴离子是一种尚未被纳入监管范围、部分水样检测含量远超规定上限的化学物质。尽管其是否会对人体造成伤害仍不得而知，但科学家已经指出，研究该物质在饮用水中的潜在影响迫在眉睫。这项新研究揭示了氯硝酰胺阴离子早在上世纪初就已经出现，并且逐渐进入公众供水系统。这意味着，一旦这些水分进入了人们的饮用水中，他们就可能会面临潜在的危害。因此，科学家建议人们正确理解经过消毒的清洁饮用水带来的好处，并注意可能存在的危险。以上信息源于腾讯混元大模型。

生活常识 11.22

蓝色漩涡预示着西伯利亚的更大范围即将出现，全面风暴即将到来：下半年的大暴雪将带来显著影响

区将会迎来一场罕见的降雪，尤其是东北地区。专家建议市民注意防范积雪覆盖、风吹雪引发的低能见度以及可能的停电和道路封闭等次生灾害。中亚地区正经历一股异常强烈的暖潮，对整个北半球大气环流产生了深远影响。预计在未来几天内，这股涡旋会迅速下沉，首先于11月24日侵袭我国的西北地区，随后以迅猛之势席卷整个北方大部分区域。这股寒潮的强度和覆盖范围都属于下半年来最大范围，值得我们高度关注做好准备。

生活常识 11.22

小天才少年打破多项科学奇迹：掌握20多种语言、创立物理学定律，却鲜为人知

岁就会这样想：这是什么鬼玩意儿，这么有趣？我想看看。不过，别看他现在出名了，他的才华早在18岁时就显现出来。那时他在一所大学任教，这所大学也是附近的一个知名学府。虽然他不是那种传统的教授，但他凭借出色的数学和物理能力，成为了学生们的宠儿。很快，他就获得了师生们的一致认可。而且，他并不是唯一的天才。他的哥哥是一位语言学家，他的妹妹是一位数学家，他们的父母都是各自领域的佼佼者。他们家里培养了一群人才，因此，哈密顿才能在各个领域都有出色的表现。可以说，他的家庭背景为他提供了最好的资源和支持。遗憾的是，哈密顿并没有把所有的精力都放在科学上，反而更多地投入到了语言的学习上。因为他的父亲的工作很忙，所以从小就由他的叔叔照顾。这位叔叔是一个很有威望的语言学家，拥有众多的语言天赋，但哈密顿并不满足于此。他通过努力学习语言，最终成为了一个知名的数学家和物理学家。今天，我们叫他“语言天才”，他的名字虽平凡，但却充满了不凡的力量。他用自己的天赋创造了自己的世界，也照亮了别人的人生道路。

生活常识 11.22