本文作者:访客

“美国版宇树”Figure回应“机器人进宝马”质疑,60分钟无剪视频宣称“三个月性能猛增”

访客 2025-06-08 16:45:09 47491
“美国版宇树”Figure回应“机器人进宝马”质疑,60分钟无剪视频宣称“三个月性能猛增”摘要: 近期,“美国版宇树”Figure AI 与宝马的合作关系受到质疑,有报道称其进展不及预期,对此 Figure AI 曾强...

近期,“美国版宇树”Figure AI 与宝马的合作关系受到质疑,有报道称其进展不及预期,对此 Figure AI 曾强烈否认,Adcock 甚至公开威胁要起诉相关媒体。

然而,公司联合创始人兼首席执行官Brett Adcock在6日的彭博科技大会上的表现,与其竞争对手形成了鲜明对比。当Agility Robotics和Boston Dynamics都在现场展示其机器人产品时,Figure AI却选择了缺席。

面对记者关于为何不进行现场演示的追问,Adcock给出的理由显得颇为牵强:

"我们的理念是不参加很多活动,我认为这是巨大的时间浪费。坦率地说,我必须带一个团队来这里展示机器人,他们本可以在办公室工作。"

Adcock补充称,公司正通过视频展示机器人。

6月8日,Figure AI的回应视频来了。公司发布了Helix机器人60分钟无剪辑物流分拣视频,声称仅仅三个月的物流环境部署后,Helix的操作速度和灵活性已开始接近人类水平。

Figure机器人:三个月内逼近人类?

Figure称,公司研发的 Helix 机器人在人形机器人领域展现出多项令人印象深刻的亮点,特别是在物流和操作任务方面取得了显著进步。

Helix的平均包裹处理速度从5.0秒提升至4.05秒,效率提升近20%,同时还能处理可变形塑料袋和扁平信封等复杂包裹类型,非常接近人类操作员的效率。更令人震撼的是条形码扫描成功率从70%飙升至95%——这意味着机器人不仅更快,还更精准。

当Helix遇到褶皱的塑料包装袋时,它会先轻拍平整表面,确保条形码完整读取。这都是通过端到端学习直接从数据中学习到的,无需显式编程。

Figure:Helix拥有先进的感知和控制架构

Figure表示,工程师为Helix植入了三大关键模块,让其具备了短期记忆、运动历史感知和力反馈能力:

  • 视觉记忆:引入短期视觉记忆模块,使机器人能够记住过去的视觉信息,从而进行更智能的多步操作,消除冗余动作,提高任务成功率。
  • 状态历史:通过整合机器人近期状态的历史数据,实现了更快速、更灵敏的控制,让机器人在操作过程中保持连贯性,并能及时应对突发状况。
  • 力反馈:整合了触觉感知能力,机器人能够感知与物体和环境的接触,从而实现更精确的抓取和操作,提高了系统对物体差异的稳健性。

Figure的受控实验显示,Helix训练数据从10小时增加到60小时,处理时间从6.34秒降至4.31秒,扫描成功率从88.2%升至94.4%。表明其基于学习的方法具有强大的可扩展性。

公司表示,Helix正在稳步缩小学习型机器人与真实世界任务需求之间的差距。一个由人形机器人在速度、效率和灵活性上与人类并肩工作的未来不再是科幻,而是即将到来的现实。

以下为Figure AI官网原文:

《扩展 Helix:人形物流领域的新突破》
2025年06月07日
自我们首次将 Helix 系统部署在物流环境中仅仅三个月,该系统的功能和性能就取得了飞跃性进步。Helix 系统如今能够处理更广泛多样的包装类型,并且正逐渐接近人类水平的灵巧度和速度,使我们离实现完全自主的包裹分拣又近了一步。这一快速进展凸显了 Helix 系统基于学习的机器人方法的可扩展性,能够迅速转化为实际应用中的成效。
新型包裹类型——Helix 系统如今能够像处理硬质纸箱一样可靠地操纵可变形的聚乙烯袋和扁平信封,针对每种形态因素调整其抓取方式和策略,动态地处理各类物体。
更高的处理速度——尽管处理的包裹类型变得更加复杂多样,执行速度也提升至每个包裹4.05秒(从约5.0秒降低),实现了约20%的处理速度提升,同时保持了准确性。
更高的条形码扫描成功率——如今,运输标签的朝向在约95%的情况下都能正确地面向扫描仪(从约70%提升),这得益于更好的视觉和控制能力。
自适应行为——机器人展现出了从演示中学习到的细微行为,例如轻拍塑料信封以抚平褶皱,从而提高条形码的读取率。
小型包裹物流,如这里所示的例子,是人工智能学习的理想环境,因为每个时间步的包裹和场景都在不断变化,这使其非常适合神经网络。
这些改进是通过数据扩展和模型架构改进实现的:
时间记忆——一个新的视觉记忆模块赋予了 Helix 系统有状态的感知能力。如今的策略还结合了过去状态的历史记录,能够实现时间上延伸的行为,并提高了对中断的鲁棒性。
力反馈——力感应被整合到状态输入中,提供了一种触觉代理,从而实现了更精确的抓取和包裹操纵。
在这里,我们分析了这些提升的来源,考察了增加演示训练数据(从10小时增加到60小时)如何影响性能,以及上述每项架构增强如何有助于 Helix 系统在包裹处理的速度和准确性方面取得进步。
扩展包裹种类和自适应行为
Helix 系统的物流策略已经扩展到能够处理更广泛多样的包裹。除了标准的硬质纸箱,该系统如今还能管理聚乙烯袋(聚乙烯袋)、加衬信封以及其他可变形或薄型包裹,这些包裹带来了独特的挑战。这些物品可能会折叠、起皱或弯曲,使得抓取和定位标签变得更加困难。Helix 系统通过实时调整其抓取策略来解决这一问题——例如,通过快速甩动软袋使其动态翻转,或者使用捏握方式处理扁平邮件。尽管形状和质地的多样性增加,Helix 系统却提高了其吞吐量,平均每个包裹的处理时间约为4.05秒,没有出现瓶颈。
该物流任务的目标是将包裹旋转,使条形码朝下以便扫描。一个值得注意的行为是 Helix 系统在尝试扫描之前倾向于拍平塑料包装。如果运输标签位于弯曲或起皱的表面(常见于填充松散的聚乙烯袋或起泡信封),策略会通过短暂按压和平整表面来做出反应。这种微妙的“平整”动作是从演示中学习而来的,确保条形码能够完全被扫描仪读取。这种自适应行为突出了端到端学习的优势——机器人从未明确硬编码的演示策略中学习,直接从数据中学习,以克服现实世界中包装的不完美之处。
至关重要的是,这些新能力并没有降低效率。吞吐量随着多功能性一起增加。Helix 系统每个包裹的平均处理时间从大约5.0秒(在简化的一组包裹上)降低到了4.31秒,即使随着新包裹类型的出现,任务变得更加困难。这种速度提升使性能更接近人类操作员的速度。同样,条形码方向的成功率也上升到了约95%。这些改进共同表明了一个更加灵巧且可靠的系统,能够在广泛的现实世界包裹范围内接近人类水平的速度和准确性。
Helix 系统视觉-运动策略的架构改进
上述许多提升都是通过针对 Helix 系统1视觉-运动策略的改进实现的。在过去的两个月里,我们引入了新的记忆和感知模块,使控制策略更加具有情境感知能力和鲁棒性。这些增强功能使 Helix 系统能够更好地感知世界的状态,并感受其正在做的事情,补充了最初部署时建立的视觉和控制基础。在这里,我们详细说明每一项改进以及它如何有助于 Helix 系统的物流性能。
“美国版宇树”Figure回应“机器人进宝马”质疑,60分钟无剪视频宣称“三个月性能猛增”
视觉记忆
Helix 系统的策略如今维护着其环境的短期视觉记忆,而不仅仅是基于即时的相机帧进行操作。具体来说,该模型配备了一个模块,该模块从最近的一系列视频帧中组合特征,为其提供了一个时间上延伸的场景视图。这种隐式的视觉记忆使得有状态的行为成为可能:机器人可以记住它已经检查过包裹的哪一面,或者传送带的哪些区域是空闲的。例如,如果初始相机视图没有完全揭示标签,Helix 系统可以回忆起之前的部分瞥见,并决定将包裹旋转到记得标签可见的角度。因此,记忆模块有助于消除冗余动作(机器人不会“忘记”并重新检查同一侧两次),并通过确保考虑了物品的所有必要视图来提高成功率。本质上,视觉记忆赋予了 Helix 系统一种时间上的上下文感,使其能够在多步骤操作中更具战略性地行动。这正是将条形码方向成功率提升至95%的关键——如今的策略可以可靠地执行多步骤操作(例如多次小旋转或视角调整),以找到条形码,由视觉回忆引导,而不是依赖于一次幸运的瞥见。
状态历史
我们还将 Helix 系统的本体感知输入与近期状态的历史记录相结合,从而实现了更快、更具反应性的控制。最初,策略是以固定时长的动作块进行操作的:它会观察当前状态并输出一系列运动轨迹,然后重新观察,如此循环。通过将过去机器人的状态(手、躯干和头部位置)的窗口纳入策略的输入中,系统在这些动作块之间保持了连续性。重要的是,状态历史保留了上下文,因此即使重新规划的频率更高,策略也不会丢失其正在进行的操作或使操纵变得不稳定。最终结果是对意外或干扰的更快响应:如果包裹移动了或者尝试抓取没有完美落地,Helix 系统可以在运动中途进行纠正,且几乎没有延迟。这一增强功能对每个包裹的处理时间的减少做出了显著贡献。
力反馈
为了赋予 Helix 系统基本的触觉,我们将力反馈整合到了策略的输入观察中。Helix 系统对环境和它操纵的物体所施加的力现在成为了输入神经网络的状态的一部分。这些信息使策略能够检测接触事件并相应地进行调整。例如,当 Helix 系统伸手去拿一个包裹时,它能够感知到第一次接触到物体的时候,或者当一个包裹被按压在表面上时。它学会了利用这些线索来调节运动:例如,在检测到与传送带接触时暂停向下的运动。通过与触觉形成闭环,Helix 系统实现了更精确的处理,最终提高了动作的成功率和一致性,使系统对物体的重量、硬度和放置位置的变化更具鲁棒性。
结果与讨论
为了量化这些改进的影响,我们在不同的训练数据制度和模型配置下对 Helix 系统的物流性能进行了受控评估。我们测量了两个关键指标:包裹处理速度(每个包裹的平均秒数,越低越好)和条形码扫描成功率(正确朝向扫描仪的包裹百分比,越高越好)。以下结果分解了额外的训练数据和新的架构特性对 Helix 系统整体性能提升的各自贡献。
扩展训练数据
首先,我们考察了扩展人类演示数据量对 Helix 系统熟练度的影响。我们将训练数据量约为10小时、20小时、40小时和60小时的演示轨迹的模型进行了比较(网络架构和超参数相同)。如下面的图1所示,增加训练数据在吞吐量和准确性方面都带来了明显的改进。
“美国版宇树”Figure回应“机器人进宝马”质疑,60分钟无剪视频宣称“三个月性能猛增”
图1:训练数据量对包裹处理性能的影响。更多的演示数据带来了更快的平均处理速度(每个包裹的秒数,越低越好)和更高的条形码扫描成功率。下面的所有模型都是相同的,都使用了带有记忆和反馈模块的最新 Helix 系统1架构。
从10小时增加到60小时的训练演示,Helix每个包裹的平均处理时间从约6.84秒降低到了4.31秒,吞吐量提高了58%,条形码成功率从88.2%上升到了94.4%。这些回报表明,我们仍然处于低数据阶段,因为随着数据量的增加,模型性能仍在稳步提升。
记忆和反馈模块的贡献
接下来,我们评估最近的架构增强——视觉记忆、状态历史和力反馈——对性能的贡献。我们进行了消融研究,比较了带有这些模块启用或禁用的Helix模型的不同变体。在这个比较中,所有模型都是在相同的60小时数据集上训练的,因此任何指标上的差异都反映了这些新功能的有无。图2总结了这次消融研究的结果,列出了处理速度和成功率。
“美国版宇树”Figure回应“机器人进宝马”质疑,60分钟无剪视频宣称“三个月性能猛增”
图2:添加视觉记忆、状态历史和力反馈的性能影响。每一行展示了一个Helix策略的变体(在60小时数据上训练),启用了某些模块。完整模型(最后一行)包含了所有增强功能。我们报告了每个变体的平均处理时间(秒/包裹)和条形码成功率。
在图2中,我们展示了每个模块如何消除特定的瓶颈。单目基线缺乏深度和时间上下文,抓取位置不准确,而且由于无法判断停留在某个状态的时间,常常会长时间暂停。增加立体视觉解决了深度问题——抓取更加干净利落,吞吐量也有所提高——但长时间暂停的问题仍然存在。解决暂停问题的一个方法是增加动作块的长度,但这会以降低反应时间为代价。相反,引入视觉记忆可以让策略回忆起袋子是否已经被翻转,或者标签是否曾经可见,消除了冗余的重新定向,并从循环中再削减了半秒。当加入状态历史和力反馈时,机器人获得了时间流逝和触觉的感知:它不再停滞不前,更好地调节对硬纸箱的抓取力,并更好地控制对周围施加的力以避免失去平衡,使首次条形码扫描成功率提升至94%。最后,通过将网络的Transformer解码器头参数数量增加50%来扩展网络,利用这些更丰富的输入,将平均处理时间降低到4.05秒,同时保持准确率在92%以上。
视觉条件反射:人机交接
尽管Helix在物流场景中的主要目标是自主分拣,但相同的端到端模型可以轻松适应新的交互。一个例子是通过视觉条件反射实现的人机交接行为。我们仅提供了一些额外的演示片段,其中一个人等待包裹交接(这些片段是在主要数据收集过程中随机收集的),从而让策略将人伸出的手解释为交接物品的信号。没有明确编程新的技能;网络只是学会了,在有人伸手的情况下,合适的动作是将包裹交给对方而不是放在传送带上。这种行为使用了与其他所有动作相同的神经策略和权重——差异纯粹来自Helix对人的观察以及它从那些额外示例中学到的上下文。
结论
我们展示了如何通过扩展高质量的演示数据集,并结合视觉记忆、状态历史和力反馈等架构改进,显著提升了Helix在现实世界物流中的性能。结果是一个通用的视觉-运动策略,能够以接近人类水平的速度和高可靠性处理各种包裹——与两个月前的初始能力相比,这是一个显著的进步。这些改进不仅解决了包裹处理中的即时挑战,还为Helix的控制系统带来了普遍的好处,这些好处可以延续到其他用例中。通过启用有状态的感知和力感应,我们在不牺牲效率的情况下,使策略更加稳健和灵活。至关重要的是,策略既从数据扩展中受益,也从架构改进中受益,仅靠其中任何一项都无法推动策略性能的提升。
Helix正在稳步提升其灵巧性和稳健性,缩小了学习型机器人操作与现实任务需求之间的差距。正在进行的工作将继续扩大其技能集,并确保在更高的速度和工作负载下保持稳定。。

阅读
分享