选择城市
更多
点赞
评论
收藏
分享
当前位置:
具身智能研发不要“为难人”,更不要“为难机器”?
飞说智行
车家号·0浏览·2025-12-19 22:29 · 浙江

文/周雄飞

数据难获取,成为目前具身智能行业产品量产一大阻碍。

智能汽车和具身智能机器人,已被行业视为让AI从数字世界进入物理世界的两大终端产品,但这其中具身智能机器人相比于智能驾驶,更加面临着高质量数据的断崖式缺口。

以特斯拉FSD V14为例,按照特斯拉自动驾驶副总裁阿肖克·埃鲁斯瓦米在今年ICCV会议上介绍,他们每天可接收相当于500年驾驶时长的数据,相当于人类驾驶员驾驶400万小时。

但据商汤科技联合创始人、执行董事、大晓机器人董事长王晓刚对飞说智行表示,当前具身智能领域的真机数据量级仅为10万小时,与智能驾驶行业的数据积累量可谓是差距甚大。而具身智能研发则需要更大量级的数据作为支撑。

商汤科技联合创始人、执行董事、 大晓机器人董事长王晓刚

“具身智能机器人可以让AI更深入的探索物理世界,因此需要的数据规模不仅远超数字世界,也远超智能驾驶的道路场景数据。”小鹏汽车CEO何小鹏曾这样公开表示。

之前,具身智能获取数据的方式主要有三种——真机遥操、动作捕捉和模型生成,其中真机遥操是通过海量收集各类机器人的本体数据,再让机器人学习训练,这个过程不仅推高了数据采集成本,并且还让数据深度绑定指定的硬件,本质上让人去解决机器人的多样性、无穷尽问题。

再来看特斯拉、Figure AI等机器人玩家,正试图让机器人通过观看海量视频(真机和生成),来学习人类的连贯动作和节律。但这种学习方法会让机器人缺少对于真实物理世界的实践,从而对于力学规律、物理属性和动作意图难以理解,很难跨越“现实鸿沟”。

就像王晓刚说的那样:“这两种路径均无法理解人所处世界的物理规律和人类行为的因果一致性,以至于前者是“为难人”,后者是“为难机器”。”

为了解决这个问题,大晓机器人他们提出了“以人为中心(Human-centric)” 的ACE具身研发范式,其中环境式数据采集技术作为该研发新范式的核心技术之一。

简言之,基于动作捕捉技术,用第一视角和第三视角、以及多模态感知(视觉、触觉、语音、力学传感器)来采集我们人类做特定动作的动作意图、行为逻辑和交互需求。

与此同时,我们做任何动作都会与物理世界的事物发生关系,由此可以采集被交互相应物体的物理属性、力学规律、交互反馈。而上述的“人”和“物”都会处于一个环境或者场合之中,从而还要采集特定环境的空间结构、场景约束、动态变化。

基于以上三类数据,就构成了大晓机器人他们口中的“人-物-场”环境式全要素数据。

具备超10个视角、8种模态、4大类物品属性的多模态数据升级,实现全要素覆盖;支持分钟级、数百种原子动作的复杂任务;交互精度达到亚像素级标准,可精准追踪人手精细化操作等复杂动作,以及能快速完成从十万小时到千万小时的海量数据积累。

“人-物-场”环境式数据采集

目前这套新范式,大晓机器人已在零售物流和家庭服务两个场景中应用,其中零售物流场景是通过人和机器人协作,来完成商品的分拣和打包任务,按照王晓刚规划,未来通过在全国各地建设只有机器人的闪购仓,来实现无人零售的商业化规模落地。

数据采集完成之后,下一步就是供具身智能机器人学习和训练,为此大晓机器人他们发布了首个开源且商业化应用的世界模型——开悟世界模型3.0,融合物理规律、人类行为和真机动作,通过CoT(思维链)和仿真训练,让不同形态和类型的机器人都能学习和理解物理世界。

基于开悟世界模型3.0,大晓机器人还推出了开悟具身智能世界模型产品平台,“文生世界、像驱世界、迹塑世界”等多模态生成能力。目前开悟世界模型3.0已面向全行业开源。

除了以上“软”的部分,大晓机器人还打造了具身智能机器人的“大脑”——具身超级大脑模组A1。

基于大晓机器人团队的纯视觉无图端到端VLA模型研发经验,搭载该AI模组的机器人或四足轮式机器人可实现无需预采高精地图即可适应复杂、动态的陌生环境并且自主行动。

依托云端模型平台,搭载AI模组的机器人还能在复杂环境中自主完成自主巡检、跟随、避障等多样任务,以及能根据自然语言指令精准完成任务。

就目前来看,A1模组只能适配机器狗和各式四足机器人,但据王晓刚向飞说智行透露,AI大脑模组还会继续进化,从而做到更加集成来适配更多形态机器人,和解决机器人本体遇到的更多问题。

在以上软硬平台和产品发布的同时,包括飞说智行在内的媒体们与大晓机器人董事长王晓刚也进行了深度的交流,以下为交流对话内容,略有删减和修改:

飞说智行摄

Q:与遥操数据采集或者仿真的数据相比,环境式数据采集的成本降低多少?数据质量能提升多少?

王晓刚:遥操采集需投入几十万机器人采购成本与人力成本,性价比低;而环境式采集无需额外干扰正常工作生活,工作人员在闪购仓等场景中佩戴设备即可边干活边采集数据,不仅效率大幅提升,还具备极强可复制性,无需专门建立实验室以及雇人采集。

这种规模化复制模式,让具身智能数据从原有10万小时可跃升至千万小时(提升两个数量级),核心就在于能让更多人参与数据采集。这类似自动驾驶领域的特斯拉:其靠数百万量产车的司机边驾驶边反馈数据,而非自建采集车队,才实现了海量数据积累,这是自建车队完全无法企及的规模。

Q:开悟世界模型3.0以后,能平衡商业化收益吗,开源意味着收益的降低?

王晓刚:今天发布的世界模型包含两部分,一个是云产品的平台,这个产品的平台是云服务的,基于与腾讯云的合作,用户可通过网页创作机器人视频、机械臂参数等数据,还能实现数据共享,形成兼具创作、分享功能的平台。

平台提供算力与存储支持,产品化体验优良,易吸引用户使用。二是开源层面,方便开发者进行软硬件适配、了解核心技术,类似DeepSeek开源后助力国产芯片适配的逻辑,我们也能从中获益。

世界模型的数据并非无中生有,需依托真实场景的创作起点——用户上传照片、明确任务指令,这些反馈能助力模型快速迭代,积累更多场景数据。

在国产化芯片成为主流趋势的当下,开源的重要性愈发凸显。英伟达时代模型无需多做适配,而国产芯片需针对性适配,模型影响力越大,对芯片的价值加成越高,如今国产芯片公司的高估值,背后正是优质模型的支撑。

Q:现在很多机器人做的是导览一些工作,那做这种工作的机器人是属于整个行业发展过程中的一个阶段,还是说它是未来一种比较成熟的产品?

王晓刚:这类机器人可算作产品,但形态与市场规模相对有限,比如展厅应用所需机器人多为个位数,也常作为研发平台使用。不过在行业起步阶段,它的普及价值至关重要,能让大家亲自接触机器人,直观了解其功能边界与实际表现,这和人工智能早期通过工业应用完成普及的逻辑一致。

新技术的落地往往遵循“POC试用→价值验证→规模化量产”的路径:初期先满足直观体验需求,后续则需考量实际投入产出(ROI)、运用成本与效率,待价值被验证后,再推进量产规模化。

Q:对于AI模组硬件,个头比较大,里面除了芯片之外还有摄像头、模组等一些零部件,可使机器人具备自主巡航的功能。但从机器人行业来看,一些产品也具备一些像激光雷达摄像头的硬件模组,并且在功能性上面也具有一些相似的功能点。那么大晓为何要做看似“重复造轮子”的布局?

王晓刚:我们的核心出发点是让机器人产品更好地满足场景实际需求,因为我们发现现在很多机器人硬件存在诸多不足:比如传感器视野狭窄,导致机器狗无法看清路况和识别红绿灯;现有机器狗跟随功能仅支持120度范围,超出后便无法跟随。

针对这些问题,我们的解决方案是搭载360度UWB信号,让机器人在任意位置都能实现稳定跟随,最终具备空间自主能力,但这并非终点,我们还将持续迭代。一方面计划选用更具性价比的国产化芯片、优化软硬一体设计,降低硬件成本;另一方面着力降低设备功耗,全程紧密结合场景需求推进优化。

Q:目前行业对于VLA路线有一些分歧,今天大晓提出ACE的新的技术范式以后,以人为中心收集环境的数据,去优化世界模型的路径,它会是技术收敛足够清晰的技术范式吗?如果是通过人的行为去收集真实环境的数据,就涉及到无穷无尽的场景、动作,它是可以去穷举的吗?

王晓刚:(以人为中心收集环境的数据)这个方向是正确的。此前未说清的是,VLA本质仍是“以机器为中心”的研发范式,它无需理解世界本质,仅需按输入指令完成任务,这导致训练出的模型受困于机器人本体,即便不计成本海量采集数据,也难以突破本体局限。

而世界模型采用的是更本质的路径,我们探索具身智能,正是希望从数字世界走向物理世界,通过与物理世界的交互产生真正的智能,这也是世界模型的核心价值,其目标是覆盖更多场景、适配人类各类动作,为机器人打造具备通用性的 “强大大脑”。

关键在于这套研发范式是否具备强拓展性,能否吸引上千、上万人参与数据采集并形成有效回流,这就是我们开源世界模型的原因。

Q:过去一年可以看到整个具身智能领域、人形机器人领域,有不少的团队是很草根的,商汤这样的大公司也入局了。这两种不同的背景力量进入这个赛道,各自的优势是什么?

王晓刚:具身智能是长期赛道,需持续创新,绝非单点突破就能成功。我们的核心优势在于团队配置,汇聚了顶尖教授团队与产业化落地经验丰富的团队,二者优势互补;同时,我们也明确需补齐规模化量产、体系化运营等能力,目前正积极补强团队短板。

此外,我们的核心竞争力还源于深厚积淀:深耕人工智能领域11年,对行业场景应用与客户痛点有着深刻理解,这让客户对我们布局具身智能充满期待。例如商汤方舟平台,十年前就已接入大量静止摄像头,如今结合机器人升级为移动平台,精准直击应用需求痛点,二者的融合大幅放大了价值,这也是我们依托商汤背景的独特优势。

Q:目前看具身智能机器人功能还是比较同质化,未来行业会有功能非常强大的大模型,涵盖所有的应用,赢家通吃,还是未来有专注特定的领域或者场景的细分场景的机器人出现?会取代工业机器人吗?

王晓刚:大家对机器人的核心期待是更强通用性,但这必然是渐进过程,不可能立刻出现能搞定多领域任务的机器人,若能在单一领域实现任务通用化,就已极具价值。

不过这并不影响底层能力的共享,世界模型所具备的世界理解、思维链等核心能力,可让各垂直领域直接受益,而“一个大脑搞定所有事”仍需时间沉淀。

此外,传统工业机器人基于多年积累的物理模型与规则,聚焦特定任务,通用性较弱但可靠性近乎百分之百;当前的机器人与它并非替代而是互补关系,柔性产线恰好需要机器人具备一定通用化能力,这正是当前机器人的发展空间所在。

Q:能汽车产业和机器人产业链之间有哪些共通点?大晓坚持软硬一体的模式,用模型定义硬件,现在要下场造硬件,那么门槛在哪里?

王晓刚:机器人与汽车在体系化建设、供应链管理上有诸多相通之处,但机器人产业链目前远不成熟。而在产业链生态不完善的阶段,唯有实现端到端拉通,才能有效降低成本,否则各环节都会付出高额代价。

我们始终以场景和产品为导向,聚焦客户需求、控制成本,优先依托生态伙伴的力量协同推进;但对于部分无法通过合作解决的关键部件,也会选择自主研发。

Q:现在具身智能行业都在推世界模型,那么基于该技术未来机器人能力上会有哪几步或者关键的变化?

王晓刚:在世界模型的加持下,机器人对物理世界的理解将显著提升,有望突破现有VLA架构难以实现的复杂长程任务,包括操作与移动相结合、包含多个步骤的复杂行为。

同时,任务泛化性也将迎来突破:比如前置仓场景有上万SKU,VLA架构仅能覆盖几十个到上百个物体的采集,难以支撑如此大规模的类别覆盖,而新范式下这一目标具备实现可能。

Q:随着现在算法突破,具身智能对于算力的需求是会像大语言模型持续的增长,还是说会在某个阶段达到一个临界点。现在的产业当中充斥着算力焦虑的声音,这种焦虑的本质是什么?

王晓刚:当前具身智能的积累数据量远未达到大语言模型的级别,因此现阶段算力并非阻碍其发展的最大问题。但从长期来看,随着环境式采集积累千万级小时的多模态数据(涵盖多摄像头视频及其他感知维度),其对算力的需求将远超仅处理文字的语言模型,长远算力需求巨大。

算力需求呈现螺旋式上升规律,当数据价值未充分发挥时,遵循scaling law规律,持续扩大规模、增加算力能带来显著收益;而当数据价值挖掘接近饱和,算力会成为瓶颈,此时再增加算力的收益将大幅降低,这会推动人们通过新方式产生数据,开启下一轮scaling law循环。

Q:大晓机器人对于具身智能行业重点看好的场景有哪些?未来3-5年,哪些场景会带来真实的应用和变化?会呈现出什么样的趋势或者规模?

王晓刚:当前机器人规模化落地的场景,多是跳舞、打拳等提供情绪价值的表演类应用,几乎不涉及物体交互。而搭载我们大脑A1模组的四足机器人,凭借稳定的硬件基础与空间智能自主能力,已跨过工业应用的核心门槛,在多个垂直领域具备大规模落地前景。

未来两三年,商业服务领域的闪购仓值得重点关注。这类零售场景增长迅速且相对标准化,适配规模化落地;工业场景则面临明显难点,可复制性差,且工厂数据敏感、不愿开放,导致机器人通用化推进受阻,即便在单一工厂落地,也难拓展至其他场景,商业价值受限。家庭场景则属于更远期的目标,预计五年后才会逐步落地。

本内容来自汽车之家创作者,不代表汽车之家的观点和立场。
文章标签
点赞
评论
收藏
分享
举报/纠错
2025/12/21 19:36:18