对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻_IT产业网_IT科技门户
首页 > 资讯 > 评论

对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻

2026/01/20 16:07      具身研习社


  作者:彭堃方

  编辑:吕鑫燚

  出品:具身研习社

  具身智能的数据卡点还没解决,但好在我们走到了“数据平权”时刻。

  此前,困住数据的无非是一个“荒”,百万小时级的数据集别说还只是“望梅”阶段,都不一定止渴。其本质在于当前数据量级远没有达到理想可行状态,尤其是质量更高,数据金字塔最顶端的真机数据,其遥操作的采集方式,存在着结构性限制:本体成本高、部署复杂、采集效率低且数据受限于本体构型等。

  遥操作存在明显量级卡点,有量级优势的仿真数据又有填不平的Embodiment Gap。

  用一个并不严谨的比喻来说,数据就像是饥荒,但真机和仿真路线,一个有饭、一个有菜,谁都凑不出一桌能吃饱的饭菜。

  今天,这番景象正在发生变化。

  一个迈向规模化、多样化、高质量的真实数据采集路径,被真正走通了。它比仿真数据有着更小的GAP,比真机遥操作数据有更明显的量级优势:UMI(Universal Manipulation Interface,通用操作接口)。

  简单来说,它是一种通过手持夹爪、摄像头和位姿估计算法,将人类手势动作直接转化为机器人可学习轨迹的低成本数采方案。这种新范式,解决了真机数据采集成本高、效率低、数据跨本体不可复用、数据多样性受限等一系列问题。

  “2026年,我们希望建立起100万小时规模的具身真机数据产能。”鹿明机器人联席CTO丁琰博士在对谈中说道。穹彻智能RoboPocket的产品负责人吕峻博士也表示,他们已经开始进行众包数采小规模测试,“全员数采的时代,可能比我们想象中来得更早”。

  从范式本身来说,UMI通过更低的硬件成本,更高的产出效率让数据不再只是昂贵的稀缺资源,也不再只是少数头部企业的先天优势。从生态来说,得益于umi范式的特殊性,数据采集不再需要困在数据采集工厂,而是走向真实物理世界中,还原更多真实任务。

  UMI正在开启一场某种意义上的“数据平权”。

  在新技术的“向阳面”之下,新的问题也随之而来。能通过简单硬件轻松获取数据,是否陷入了过度追求量级的极端路线?这场暴力美学如何平衡数据高质量与多样性?

  更重要的是,于具身智能而言,UMI意味着什么?

  近一段时间,UMI的升级与改良产品密集出现,具身研习社围绕UMI,对话了国内代表性企业的技术专家,鹿明机器人联席CTO丁琰博士和穹彻智能RoboPocket产品负责人吕峻博士。透过技术视角,我们将看到更真实的数据采集境况与未来发展趋势。

对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻

  UMI是什么?

  在最初斯坦福的论文中,UMI被描述为一种“夹爪+ 视觉系统”的采集方案:通过在人类操作者手部或末端工具上部署轻量级传感器与摄像头,直接记录操作过程中的轨迹、时序与环境反馈。

  后来,Generalist、Sunday等团队在此基础上,将UMI从学术界带到了产业届,开启大规模真机数据生产。(Sunday联合创始人迟宬「ChengChi」,正是2024 年 UMI 论文的两位一作之一。)

  国内来看,鹿明的丁琰在美国读博时曾尝试用手柄遥操作机械臂采集数据,发现过程非常笨重且累人。他当时就有个愿望:能不能把笨重的机械臂“卸掉”,人直接拿着夹爪去操作 。2024年3月看到UMI相关工作后,他发现这与自己想“偷懒”、只关注前端操作的思路完全吻合 。

  穹彻的团队早在2021年就开始做遥操作数据集,但发现“数采工厂”模式存在三大瓶颈:成本极高、操作不直观(隔空取物导致动作机械)、场景单一(远不及真实世界)。因此,他们逐渐开展由“本体”到“外骨骼”再到“UMI”这种脱离机器,远离实验室环境的采集方案。

  所以,今天我们看到UMI,其实某种程度上是用人代替机器人“本体”,让人流动在现实环境中,让人去操作一个机器夹爪产生操作数据。那如果一定要给UMI数据一个形态定义,它更像是介于Robot Data与Human Data之间的一种中间态:既不同于利用纯互联网视频学习人类数据,也不同于强耦合的本体遥操数据。

  但需要强调的是,这三者之间并非逐次替代关系,更谈不上孰优孰劣。现实情况是,具身智能企业会根据自身的数据利用能力,进行混合使用、按需使用。

  那么,为什么UMI会在短时间内让一众厂商“拍案称绝”?这就是UMI数采范式最明显的特点之一,就是价格足够低。

  最直观来看,有两个原因:一是它不断刷新真实数据可规模化的上限,让“真机数据难以规模化”这一长期共识出现松动;二是UMI数据与模型训练之间形成了明确闭环,证明这类数据不仅能采,而且能训出效果不错的模型。

  对整个具身智能行业而言,这是一场震动。行业并不只是为某一种采集技术而兴奋,更是因为数据不再只属于“头号玩家”。

  图片来源:鹿明机器人

  以鹿明为例,其FastUMI Pro在成本与效率上相较传统遥操方案有数量级的下降,仅测算人力成本UMI方案是遥操方案的1/5,如果计算硬件成本,则达到惊人的1/200;采集效率提升3倍。

  图片来源:穹彻智能

  此外,穹彻智能另辟蹊径,RoboPocket直接采用iPhone作为核心硬件方案,最大化复用现有智能终端,压缩前期研发与部署成本。在吕峻博士看来“手机是一个很好的硬件”,想要超过它也并不容易。

  这意味着,大规模真实数据,不再只是财力雄厚的头部厂商的“专属游戏”。过去受困于数据成本的第二、第三梯队企业,也第一次具备了参与数据竞争的可能。

  与此同时,UMI在数据层面实现了对机器人本体的解耦。同一套采集数据,可以适配不同构型的机械臂。这使得企业不再因为“数据绑定”而被迫锁死构型选择,也不必为某一既有数据框架所附着。

  从结果来看,数据成本的下降,意味着行业不再只是“最多本体,谁就能暴力生产数据”。

对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻

  事实上,在过去几个月里,UMI并非一直被摆在台面上讨论。核心原因在于,业内始终对其数据质量存有疑问。毕竟,没有高质量数据,UMI不只是无效,甚至可能成为一种“投毒”。

  曾有说法认为,先前UMI方案采集的数据中,真正可用的比例可能只有10%。因此,一个关键问题长期悬而未决:用UMI采集的数据,真的能训出一个可用的模型吗?

  在2025年底,情况开始发生变化。海外具身智能厂商在UMI数采范式下,先后训练出了如Generalist 的 GEN-0、Sunday 的 ACT-1等模型,初步证明这条路径是可走通的。

对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻

  图片说明:Sunday数采岗位JD,其中第一条即是要求遵循SOP,确保数据质量

  也正是在这一阶段,行业开始意识到,围绕UMI真正需要被讨论的,不是能不能采到很多数据,而是这些数据如何被治理,以确保质量。

  UMI容易被误解成“用相机记录人操作夹爪的过程”。但实际上,UMI是AI对物理世界的理解、对齐,并且在物理空间里面可以复现的交互行为记录,必须在轨迹精度、时序一致性、画面质量等多个维度同时达标。

  丁琰博士曾撰文回答过为什么大量UMI设备采不出“能训练模型的数据”,其中包括核心硬件性能不足,导致信息密度先天受限;设备并非系统级产品,而是传感器拼装体等原因。而这些导致采集的数据质量不够高,无法进入训练管线。

  他认为“数据本质上是可Replay的具身交互轨迹”,从真实数据学习就是想要复现这种动作轨迹,如果数据质量得不到保证,如轨迹偏移、断裂等等,机器人就无法把人类示教的动作复现。用他的话来说“这就像开卷考试,答案本身都不对,抄得再多也拿不到高分。”

  这便催生出“前馈式”数据治理的解决方案。

  鹿明机器人选择重数据采集SOP,创立了含有8道工序的工业级数据质量评估体系。此前丁琰曾带队11 个人在3个月时间里,采集了10万条真机数据(FastUMI -100K),2000+小时的数据,带给其团队丰富的数据理解和大规模数据治理经验。并且,FastUMI Pro设备可以直连电脑,用户在采集过程中即可实时校验数据有效性,从源头避免低质量数据,将数据有效率提升至95%以上。

  穹彻则更注重对采集人员的管理,在穹彻看来,数据采集人员在无本体、分布式采集过程中,会缺乏“约束”,即前者会使得采集人员缺乏与机器人本体同构的硬件约束,人类工作空间可能和机器本体出现出入;后者会使得采集人员的间接管理出现问题,包括远程采集的指导、纠正、效率保障等。

  穹彻智能此次发布的RoboPocket则将其对模型训练的理解融为一个“数据导师App”,它能够下发任务指导、实时交互提醒、多维度质量打分,也是通过采集阶段的质量控制,避免后续数据处理存在的大量无效数据。据透露,穹彻智能内部正在小规模测试众包数采模式,未来甚至可能将数据采集分包给更广泛的普通人群。

对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻

  图片来源:穹彻智能

  如吕博所说,穹彻将来可能面向普通用户推出百元级的RoboPocket小型硬件套装,用户可通过手机搭配该硬件,在家庭场景中完成数据采集任务。此举既能持续压低数据采集成本,又能获取多样化的真实家庭场景数据,进而反哺模型优化迭代。

  总之,在数据规模之上,数据还应该为训出模型负责,而只有真正有用的高质量数据才能锻造出能够精细操作的模型。

对话穹彻、鹿明:UMI登场,具身智能数据的平权时刻

  近日著名投资机构a16z投资合伙人Oliver Hsu撰文《物理AI的部署鸿沟》中,指出横亘在机器人落地过程中的第一个问题便是“分布偏移”——单一数据导致使实验室模型在真实环境中失效。

  “一个在机器人实验室训练的物体操作策略,在仓库中会遇到不同的光照、不同的背景、不同的物体纹理和不同的物理特性。”所以,一个最简单的办法就是让机器人见过更多真实环境数据。

  图片来源:鹿明机器人

  实际上,UMI本身正是为了解决数据多样性不足而诞生的。

  如果你细看UMI产品的“定语”,无论是鹿明的FastUMI Pro,还是穹彻的 RoboPocket,都反复强调一个关键词——“无本体”。不过,摆脱机器人本体,并不只是因为本体成本高,更重要的是,它寄希望于让数据采集走出实验室。

  穹彻在AirExo-2外骨骼产品阶段就提出过“生产伴随式数据采集”的概念:让操作者在真实环境中完成生产任务的同时,自然完成数据采集。无论是在便利店上下货,还是在仓储、家庭等日常场景中,数据采集都可以被嵌入其中。

  “人的想象力始终是贫瘠的”,“模型需要见到足够多的数据,但数采厂任务场景有些局限,难以解决多样性问题”。UMI让数据采集以一种更分布式、更贴近日常生活的方式发生,从而获得更丰富的场景数据。

  但问题随之而来,这是否意味着真机遥操作采集,已经走到“穷途末路”?

  截至目前,全国已有数十家人形机器人训练中心。能走出数采厂的UMI出现,看似对传统真机数采工厂提出了挑战。丁琰博士透露,在2024–2025年,遥操采集占据数采市场的绝大部分份额,但他判断UMI的份额将迅速提升,目前已有近百家企业咨询或采买 FastUMI Pro设备。

  然而这并不意味着“替代”。

  吕峻博士指出,UMI本质上并非真机数据,仍然存在Embodiment Gap。丁琰博士也认为,在危险化工、重载搬运等场景中,遥操作机器人仍具备不可替代性;在某些高负载任务中,遥操反而更省力。

  因此,更合理的判断是:UMI数采与本体遥操数采,并非替代关系,而是一种长期的竞合关系。

  在中短期内,UMI这种重 SOP、重人员管理的数据采集方式,反而更适合与现有数采工厂结合。它可以充分利用既有数采厂的管理经验,在原有体系中引入新的采集范式,推动数采工厂升级,释放更大的数据产能与价值。

  据二位透露,目前鹿明机器人、穹彻智能都计划在今年推动与G端、企业合作,建设数采厂或进入更多真实场景之中。

  UMI的出现,并不是一次技术奇观,更不是对既有路径的“胜负裁决”。它之所以在这个时间点被迅速放大,本质原因只有一个:具身智能在真实世界的数据瓶颈,已经无法再单一靠堆本体、堆人力、堆预算来解决了。

  因此,与其说UMI带来了某种“颠覆”,不如说它提供了一种结构性缓解方案。它让真实数据第一次有机会脱离重资产与实验室,向规模化、分布式和日常化扩展。但这种扩展,并不意味着一条路线可以覆盖所有场景。

  历史经验反复证明,单一路径的“过度共识”,往往比技术分歧更危险。当一种方案被过早地视为“标准答案”,行业很容易忽视它的边界条件,也容易低估那些暂时看似低效、却在关键场景中不可替代的能力。

  UMI也是如此。它可能并不会取代真机遥操作、仿真数据或其他人类行为数据。更现实的图景是,未来的具身智能数据体系,将是多源并存、按任务分层、按阶段取舍的。

  放在产业来看,具身智能的“数据荒”问题,或许并不会因为UMI而彻底消失,但它正在被拆解、被分流、被重新定义。而这,或许正是具身数据开始走向成熟的信号。

IT产业网微信二维码logo

  榜单收录、高管收录、融资收录、活动收录可发送邮件至news#citmt.cn(把#换成@)。

海报生成中...

分享到微博

扫描二维码分享到微信

分享到微信
一键复制
标题链接已成功复制

最新新闻

热门新闻