吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

热搜大全 > 新闻热搜 > 科技热搜 > 正文

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

热搜大全 2024-01-11

机器人的 ChatGPT 时刻，真来了！初创公司 Figure 自家机器人看了 10 小时视频，学会了煮咖啡。另一边，东京大学 GPT-4 加持的 Alter3 机器人，能够模仿人类做出任何动作。而人类只需发出自然语言指令即可，完全不需要编程！

机器人，本周果然迎来了 ChatGPT 时刻！

初创公司 Figure，就做出了一个能学人类煮咖啡的机器人。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

就在昨天，Figure 创始人在社交平台上，提前预告了自家实验室取得的重大突破。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

而东京大学则让 GPT-4 和仿人机器人 Alter3 相连。

人类只要给出自然语言命令，GPT-4 就能把这些指令转换为可执行的代码，让机器人模仿人类做出任何动作，包括弹吉他、自拍、扮鬼等等，甚至还能去电影院偷别人的爆米花。

心情很闲适，喝杯茶。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

拿着吉他玩摇滚。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

假装我是一条蛇。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

来张自拍，像网红们一样摆出俏皮浮夸的表情。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

在电影院边吃爆米花边看电影，忽然发现，自己吃的是别人的爆米花，顿时尴尬地笑起来。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

看人类煮咖啡 10 小时，学会这项技能

名叫 Figure 01 的这个机器人，采用的是端到端的人工智能系统。

它只需观察人类煮咖啡的录像，就能在 10 小时内学会制作咖啡的技能。

这个机器人是通过神经网络来处理和分析视频数据的。通过观看录像，它能够学会人类的动作和手势，然后模仿这些动作，来学习制作咖啡的过程。

这个过程证明了，无需通过编程，机器人完全可以自主学习技能！

只要跟它说：Figure 01，你可以帮我做一杯咖啡吗？

它就会把咖啡胶囊放入机器内，用手按按钮，过不了多久，一杯香气四溢的咖啡就做好了！

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

这个过程中难能可贵的一点是，机器人能学习如何改正自己的错误，比如咖啡胶囊放得不对，它就会矫正自己。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

Brett Adcock 解释了视频数据训练为何如此重要的原因。

之所以说这具有开创性意义，是因为如果你能获得某个应用的人类数据（如煮咖啡、叠衣服、仓库工作等），就可以在 Figure 01 的基础上对 AI 系统进行端到端的训练。

这是可以扩展到每种应用的一种方式。当机器人数量扩大时，从机器人群中收集更多数据，重新进行训练，机器人就能实现更好的性能。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

值得一提的是，许多网友对机器人冲咖啡的速度表示惊讶。官方对此回应称，视频并没有加速。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

东京大学的扮鬼机器人

而东京大学的这个人形机器人，之前就曾经因栩栩如生的「扮鬼」行为而出圈过。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

东京大学的研究人员，把这个叫做 Alter3 的仿人机器人和 GPT-4 相连。

利用指令，它就可以完成一系列人类行为，比如弹吉他、自拍、扮鬼等等，甚至可以去电影院偷吃别人的爆米花。

这个过程中，LLM 将书面指令转换为可执行的代码，从而让机器人模仿出多种人类的动作。从视频效果上看，属实是吊打了最近风头正劲的斯坦福家务机器人。

也就是说，Alter3 之所以能戏精上身，将「鬼」模仿得如此出神入化，还是因为 GPT-4 的 prompt 给得好啊！

「0 创造恐惧的睁大眼睛的面部表情，张开嘴巴发出无声的尖叫」，

「1 迅速向后倾斜，仿佛被突然的幻影吓了一跳」，

「2 举起双手，在脸上挥舞，模仿幽灵般的动作」，

「3 张大嘴巴摇头，表现出恐惧的戏剧性反应」，

「4 将上半身从一侧移动到另一侧，仿佛被幽灵的存在所困扰」，

「5 双手握在胸前，表现出极度焦虑」，

「6 眼睛从一边瞟到另一边，仿佛目睹了一场诡异的活动」，

「7 先前倾，然后后倾，模仿鬼魂的漂浮动作」，

「8 慢慢回到休息位置，同时保持惊恐的表情」

通过代码，将人类动作映射到机器人身上

Alter3 是怎样使用 LLM 生成自发运动的呢？

具体过程，就是将 GPT-4 集成到了 Alter3 中，从而有效地将 GPT-4 与 Alter 的身体运动结合起来。

通常，低级机器人控制是依赖于硬件的，这超出了 LLM 语料库的范围，这给直接基于 LLM 的机器人控制带来了挑战。

不过，研究者在 Alter3 上，实现了突破——通过程序代码，他们将人类动作的语言表达映射到机器人的身体上，这就让直接控制变得可行了。

这种方法无需对每个身体部位进行显式编程，直接就可以让 Alter3 采用各种姿势，比如自拍或扮鬼，还能随着时间的推移生成一系列动作。

这充分证明了机器人的零样本学习能力。

甚至，口头反馈都可以调整机器人的姿势，无需微调。

比如，用 GPT-4 告诉机器人，「播放金属音乐」，它就接收到了信息，开始有模有样地弹起了电吉他，脑袋还跟着节奏晃动。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

「0 创造一种强烈兴奋的面部表情，睁大眼睛，微微张开嘴巴，露出狂野的笑容」，

「1 积极地向前倾斜，仿佛准备潜入音乐中」，

「2 模仿左手握住吉他琴颈的动作」，

「3 用右手开始弹奏空气，仿佛在演奏沉重的即兴演奏」，

「4 有节奏地上下摇晃头部，模仿与金属音乐相关的甩头动作」，

「5 举起左手，仿佛伸手去弹更高的吉他音符，眼睛锁定在想象中的指板上」，

「6 用右手模仿戏剧性的吉他弹奏，仿佛击中有力的和弦」，

「7 右手在假想的吉他弦上慢慢扫过，模仿吉他独奏」，

「8 模仿将想象中的吉他砸在地板上的动作，体现金属音乐的狂野精神」，

「9 逐渐恢复到休息姿势，但保持激烈的面部表情，表现出挥之不去的兴奋」

LLM 把人类从迭代工作中解放出来

在 LLM 出现之前，为了让机器人模仿一个人的姿势，或者及假装一种行为，比如端茶、下棋，研究人员必须按照一定的顺序控制所有的 43 个轴。

这个过程中，需要人类研究员手动进行许多改进。

多亏了 LLM，现在人类研究者可以从迭代的工作中解放了出来。只要使用口头指令，就能控制 Alter3 的程序了。

研究者先后应用两个用自然语言编写的思维链协议，并不需要学习过程的迭代（也就是零样本学习）。

如图所示，研究人员使用了以下协议。

需要注意的是，GPT-4 是非确定性的（non-deterministic ) ，即使在 $$temperature=0.$$ 时也是如此。

因此，即使输入相同，也可以产生不同的运动模式。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

使用口头指令控制 Alter3 人形机器人的程序。通过使用 Prompt1、2 输出 python 代码，从而使用自然语言控制 Alter3，这个架构是基于 CoT 的

语言反馈

Alter3 无法观察自己的世代对任何物理过程产生的影响，这在人类意义上是非常不自然的。

因此，Alter3 无法准确理解「手举多高」等细节，也就无法相应地改进自己的动作。

通过经验性地通过反馈来开发和利用外部记忆，Alter3 的身体模型可以与 GPT-4 集成，而无需更新其参数。

现在，Alter3 可以根据人类的语言反馈重写代码。

比如，用户建议「自拍时手臂抬高一点」，然后 Alter3 就可以将修改后的动作代码作为动作记忆存储在数据库中。

这样就能确保下次生成该动作时，机器人会使用经过改进和训练的动作。

通过这种反馈，机器人就积累了有关自己身体的信息，记忆就可以有效地充当一个身体图示。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡

上图说明了 Alter3 中的语言反馈系统。

这个过程中，用户会提供语言反馈，来指导 Alter3 在每个运动分段中的调整，比如「将轴 16 设置为 255」或「更有力地移动手臂」。

在这个过程中，用户只需提供口头指令，无需重写任何代码，然后，Alter3 就会自动修改相应的代码。

一旦动作被完善，它就会被保存在一个带有描述性标签的 JSON 数据库中，例如「握住吉他」或「深思熟虑地敲击下巴」。

对于使用 prompt2 生成动作，JsonToolkit 有助于数据库搜索这些标签，LLM 会决定内存使用和新动作的创建。

textbf{ ( b ) } 比较有反馈和没有反馈的分数，有反馈的运动比没有反馈的运动得分更高。

结果

为了量化 GPT-4 生成动作的能力，研究人员评估了 9 种不同生成动作的视频，将其分为两类。

第一种情况是「即时手势」，包括「自拍」和「喝茶」等日常动作，以及「扮鬼」和「扮蛇」等模仿动作。

第二种情况是一段时间内的动作，包括更复杂的情景。就比如「在影院边吃爆米花边欣赏电影时，发现自己吃的其实是旁边人的爆米花」这样的尴尬情节，以及「在公园里慢跑时，世界似乎在讲述一个古老的生存故事，每一个脚步声都回荡着亘古不变的存在」这样的情感场景。

这些动作均由 GPT-4 生成。提示 1 的温度设置为 $0.7$，提示 2 的温度设置为 $0.5$。受试者（$n=107$）是通过 Prolific 平台招募的。

他们观看了这些视频，并对 GPT-4（gpt-4-0314）的表达能力进行了评估（评估采用 5 级评分法，1 为最差）。

在对照组中，研究人员采用了 Alter3 的随机动作，并附加了由 GPT-4 生成的随机动作符号作为这些动作的标记。

这些贴有标记的对照视频被巧妙地纳入调查，其中 3 个被分散在向参与者展示的主要实验视频中。

为了确定对照视频与其他视频之间的评分是否存在显著差异，研究团队首先采用了弗里德曼检验法（Friedman test）。结果显示，不同视频之间的评分存在明显差异。使用奈曼尼检验（Nemenyi test）进行的进一步事后分析表明，虽然对照组视频之间的 p 值没有显著差异，但对照组与其他视频相比，p 值明显更小，这表明存在显著差异（见图）。

因此，与对照组相比，GPT-4 生成的动作评分明显更高。这表明，GPT-4 生成的 android 动作与对照组的感知不同。这一结果表明，该系统可以生成各种动作，从自拍、喝茶等日常动作到模仿鬼或蛇等非人类动作。

吊打斯坦福炒虾机器人，GPT-4加持Alter3扮鬼玩吉他，Figure 01看视频学会煮咖啡