云启研报 | 具身智能深度洞察:核心痛点与落地路径

云启资本·2024年10月29日

走向通用还有多远?

2024年以来,"具身智能"频频出现在科技圈的聚光灯下,各大行业展会上亮相的具身智能概念产品多到令人直呼"脸盲"。

这些产品内在蕴含的技术路线有何不同?哪些产品更贴近真正带来质变的具身智能?它们商业化落地还有多远?聚光灯熄灭后,围绕这些关键问题的研究和实践一直在进行。

具身智能是云启长期深耕的领域,本期「云启研报」精选了云启投资团队的新近研究中的精华内容,我们一起从具身智能的技术路线出发,探究具身智能的核心痛点和商业化落地路径。

核心观点速览

· 从智能到本体,具身智能产业链中的多个环节短板待填,面向不同算法和本体实现数据闭环亦是一个关键痛点

· 不同技术路线直接影响具身智能商业化场景和进度,进而影响数据闭环的形成。

· 具身智能商业化的关键是ROI优化和新任务的学习成本下降。

· 具身智能的落地场景很大概率由低泛化程度、低失效成本向高泛化程度、高失效成本渐进。

· 通用的具身智能方案短期难以出现,快速找到场景、建立数据闭环、有效应对技术迭代风险,是关键路径。

伴随AI技术的进化,具身智能成为传统机器人之后又一个承载了智能化愿景的物理载体。其能够感知环境、理解任务,进行自主感知-规划-决策-执行,相比以视觉为核心的传统机器人更强调泛化性,也更契合人类对交互性、柔性、可自适应的各类场景的智能化需求。因而成为近年科技创投行业关注的重点赛道之一。

目前具身智能的探索实践尚处起步期,行业技术路线尚未收敛。各类玩家正沿着多种路径,在有限但具有一定差异化的场景下摸索技术迭代和商业应用的路径。**而这场投入不菲的探索将以怎样的方式靠近真正的具身智能?**这是每一个局中人都尝试回答的问题。

我们认为,不同技术路线直接影响具身智能商业化场景和进度。本文将从具身智能的技术路线出发,分析具身智能的核心痛点及应用落地路径;继而回归现状,从创业玩家的技术路线选择中,探讨走向具身智能过程中需要突破的壁垒。

一、具身智能的技术路线

1. 以算法结构分类

分层模型&端到端模型

分层模型将任务拆分为不同层级的多个神经网络分别训练,以pipeline方式连接。现有实践中,**大部分机器人操作都采用分层模型。**以Figure为例,上层由OpenAI的多模态大模型提供视觉推理和语言理解能力,中层依靠神经网络策略进行运动控制并生成动作指令,底层接受动作指令进行控制的执行。

分层模型示意 来源:云启团队研究

端到端模型通过一个端到端神经网络完成从任务目标输入到行为指令输出的全过程。相对而言,传统控制算法难以高效解决复杂场景和长尾问题,端到端模型则给了更高的想象空间。

但端到端模型面临着数据量、算力等现有资源的挑战。譬如机器人的末端操作频率很高,而现有端侧算力无法支撑实时、高频的计算需求。我们认为,抛开法律法规对相关方案落地的影响,端到端模型技术收敛至L4级别自动驾驶要求至少需要5年以上时间

端到端模型示意 来源:云启团队研究

2. 以学习方法分类

模型训练方法包括监督学习、无监督学习、强化学习、模仿学习、迁移学习等,通常需要大量标注数据进行训练。

其中强化学习是目前最主流的机器人控制模型训练方法之一,是指机器人与环境的持续交互、不断尝试不同动作,依据所获得的奖励或惩罚来逐步学习到最优的行为策略。

迁移学习是在实践中得到采用的另一种重要训练方法,指将在一个任务或领域中学习到的知识和模式,应用到其他相关但不同的任务或领域中。以采用此方法的Google RT-1为例, RT-1硬件没学过箱式抓取,但库卡机械臂箱式抓取的数据给RT-1学习可以使 RT-1也能初步掌握箱式抓取的技能。

按学习方法分类的技术路线 来源:云启团队研究

3. 以数据来源分类

具身智能数据主要包括机器人数据集和人类数据集两类。

其中机器人数据集通常包含与机器人感知、运动、环境交互等相关的数据,这类数据在机器人训练中能提供广泛的策略和行为模式,但其获取需要高额的时间和资源成本,并且需要复杂的数据标注。

人类数据集是指通过收集人类动作、姿态、物体交互等信息训练机器人,这类数据泛化性强,在工厂生产线、家庭场景等较为固定和规范的场景中表现较好,但对算法和机器人硬件形态耦合的要求更高,可能导致后续迭代难度更高。

从数据来源而言,技术路线又可分成真实数据集和生成数据集两种。

理论而言,在实际场景中直接收集的真实数据是最直接能够用来训练的数据集。但能达到训练数据精度要求的真实数据获取难度大、成本高,生成数据则成本相对低,且容易大规模获取。生成数据的路径有二,一是通过有遥操作或迁移学习等方法手机机器人数据,第二是由仿真器为机器人提供仿真环境,以低成本的方式生成海量数据。

按数据来源分类的技术路线 来源:云启团队研究

二、具身智能的痛点及商业化路径

1. 核心痛点

大规模、高质量的真实世界数据是具身智能通往智能化最重要的因素之一。形成产品力、数据规模与质量、智能程度、商业价值的飞轮效应是具身智能最终落地的关键。围绕这个目标来看,面向不同算法和本体实现数据闭环是具身智能核心的痛点之一。而当前达成这个闭环的主要难点在于数据、硬件异构

1)数据异构

数据异构是指收集和处理的数据在种类、来源和结构等维度具有多样性。这意味着即使机器人领域已经积累了丰富的开源数据,但数据集很难被共同利用,需要收集每个机器人、任务、环境的特定数据。

从这个角度来看,具备大量私有数据的初创公司具备一定竞争优势。另外,采用仿真器、高效数据采集装备等也是弥补数的路径。但目前的仿真器还很难满足产业化条件,仿真环境和真实世界存在Sim2real domain gap,即使仿真环境中的成功率达到100%,也难以完美迁移至真实世界。

2)硬件异构

硬件的异构主要指具身智能的硬件并非标准化,不同硬件的机器人在自由度、末端执行器、运动控制器和工作空间配置等本体体感上不尽相同 ,算法在不同硬件上的发挥会有精度损失。

3)创业公司的闭环路径

为了能快速收集数据,尽可能接近算法和本体的数据闭环,我们看到,目前大部分创业公司均选择算法和本体的联合优化。但中长期而言,我们仍期待看到软硬件逐渐解耦,硬件壁垒降低。不同应用场景需要不同硬件架构以高效服务,因此算法需要能够迁移到不同本体,能够建立面向不同算法的和本体的数据闭环,由数据驱动的算法成为核心竞争优势。

2. 商业化标志及落地路径

现有具身智能方案依赖于大量数据训练,因而在工业分拣等短期应用场景下,其ROI低于传统工业机器人。但长期而言,由数据和模型驱动的具身智能具备突出的规模效应,智能化水平提升的边际成本将逐步降低,逐渐有机会与现有的解决方案竞争。

简而言之,ROI优化和新任务的学习成本下降,是具身智能商业化能力的提高重要标志。而这需要通过在具体场景中高效收集数据,从而不断迭代和收敛具身模型来实现。

考虑不同场景的泛化性程度和失效成本,我们认为,具身场景早期适合在科研这样的泛化要求低、失效场景低的场景落地,中长期逐渐拓展到工业、商业服务,家庭服务是终局想象。

在不同阶段下,具身智能的操作任务、硬件形态等也有所不同。

**· 短期落地场景特点:**单任务,并完成操作任务内的有效泛化(操作对象泛化);场景容错度较高。

· 中长期落地场景特点: 算法逐渐成熟、硬件形态稳定,算法和硬件开始在简单场景能够解耦,能在部分环境下进行操作和被操作物体的泛化。模型结构逐渐向端到端转变。

以商业服务场景为例,短期内,具身智能适合在封闭/半封闭场景下操作对泛化能力有一定要求的简单任务,减少与人交互交互的频率,代替小部分人类工作,例如零售盘货、补货等。中期则进化至操作对泛化能力有要求的相对复杂任务,与人类在同一空间交互,例如外卖送餐。长期能操作专业度和复杂度更高的任务,与人类处于同于同一空间,例如公共服务。

形态上,有一定概率从轮式底盘+机械臂+夹爪向商业清洁机器人+机械臂+灵巧手(工商业场景)和轮式/双足+高自由度的机械臂/灵巧手(家庭服务场景)演进。

三、创业公司的技术路线差异

1. 路线选择如何影响商业模式?

如前所言,不同技术路线直接影响具身智能的商业化场景和进度。目前市场上的活跃"玩家"的产品形态和落地应用的路径选择不尽相同,这与其技术路线有密切关联。我们认为,虽然技术路线长期没有壁垒,但短期内技术路线的选择会影响算法和硬件的耦合性要求,进而影响公司的商业模式和进展。

以不同算法结构下技术路线为例,目前多数创业公司采用分层模型,即把任务拆分为不同层级的多个神经网络分别训练,以pipeline方式连接。而独立神经网络越多,对硬件联合训练要求更高,就越难解耦。因此,采用这类技术路径的公司在训练阶段要就要将硬件和算法深度绑定。

因此能够看到,这类公司的商业模式多为机器人联合出货,甚至一些公司的硬件自研含量很高。早期的落地场景也聚焦在泛化要求低、操作精度要求高的细分领域。例如Figure,其硬件架构和部分核心零部件均为自研,早期围绕工业装配应用。

对于选择端到端模型路线的公司而言,联合硬件并非必须项,此路线下的部分创业公司的商业模式是纯软件交付,目前看来离商业化落地相对较远。

2. 从不完美的起跑线出发,如何走得更远?

短期来看,适配所有场景、各种操作的具身智能方案短期内很难出现,60%-70%的操作成功率距离落地还有较远距离。而这段距离的弥合有赖于在算法、数据、硬件等多重要素的关键瓶颈上实现破局。

以数据这一要素为例,找到差异化的落地场景,从而更早部署、收集数据,并在新任务和新能力的学习中逐步降低边际成本,不断趋近由数据和模型驱动的规模效应,是释放具身智能核心价值的一个重要路径。同时,当面面临技术路线切换时,找到有效应对随之产生的数据迁移成本的路径也至关重要。

除此,算法结构的迭代、算力资源的进化、本体与算法耦合程度的提升、硬件端的降本提效等,均是具身智能商业化落地道路上的重要课题。围绕这些问题,我们将伴随具身智能研究和商业化进展持续思考与实践。

(:欢迎同样持续关注具身智能的你与我们联络交流