2025，具身智能迎来“ChatGPT时刻”了吗？| 峰瑞研究所

峰瑞资本·2025年5月30日·51·1

具身智能的“三角博弈”：成功率、通用性和成本

2025年，人形机器人领域持续火热，“科幻走进现实”的场景不断涌现。 4月，全球首场人形机器人半程马拉松鸣枪开跑，各具特色的机器人选手在真实世界的跑道上迈步；5月，在全球首个以人形机器人为参赛主体的格斗竞技赛事中，机器人完成了勾拳、侧踢、闪避等一系列格斗动作；8月，世界人形机器人运动会也将拉开帷幕，设有田径、体操、足球等丰富多样的比赛项目。一年前，我们在《通往具身智能之路》报告中提到，供应链成本效率优势的持续提升和第二、第三产业场景需求的快速增长，或成为具身智能赛道的持续性机会。一年过去，具身智能赛道发生了哪些变化？涌现了哪些新的机会？在「What's Next｜科技早知道」的播客节目中，峰瑞资本执行董事刘鹏琦和「声动活泼」联合创始人&「科技早知道」主播丁教Diane，以及「科技早知道」节目监制雅娴，围绕具身智能赛道所处的新阶段与核心挑战，探讨了以下问题，包括但不限于：

当下这一波具身智能热潮的起点在哪？为什么都在追求“人形”和“通用”？
人形机器人的软硬件发展与哪些因素有关？目前面临哪些核心挑战？
人形机器人的商业化落地情况如何？有哪些趋势和机会？

我们截取编辑了播客的部分内容，希望能带来新的思考角度，欢迎跟我们一起持续观察和探讨。也欢迎移步小宇宙APP 或 Apple podcast，搜索并订阅「What's Next｜科技早知道」收听完整版。期待与大家持续交流，如果你是具身智能领域的创业者，欢迎联系峰瑞资本执行董事刘鹏琦（pengqi@freesvc.com）。

互动福利 在具身智能领域，你看到了哪些创新机会？欢迎你在评论区和我们聊聊你的看法。截止至2025年6月5日17:00，留言最走心的3位读者将获得《比尔盖茨自传：源代码》一书。在AI热火朝天的时代，我们不妨回望计算机的发展历史及其背后的创新者画像。

/ 01 / 造机器人，为什么要追求 "人形"和"通用"？

雅娴： 不久前的机器人马拉松很受关注，世界人形机器人运动会也将于8月开赛。为什么这波具身智能这么火爆？ 刘鹏琦： 这次亦庄举办的人形机器人半程马拉松赛事挺出圈的。除了投资圈的小伙伴，我观察到很多跑步群里也在讨论，关注机器人到底能不能完成比赛。这是人形机器人第一次走出实验室环境，在现实中完成这么长时间的马拉松挑战。从结果上看，机器人完赛率大概是30%，第一名比很多人类选手还要快，其实挺了不起的。特斯拉宣布入局人形机器人，是这波热潮的一个标志性起点。 2021年，特斯拉官宣人形机器人计划，提出"Tesla Bot"概念；2022年，特斯拉正式发布人形机器人Optimus（擎天柱）原型机。同年，Figure AI成立，专注开发通用类人形机器人。与此前成立的人形机器人企业不同，Optimus和Figure AI的目标非常明确，它们并不局限于做出一款能实现复杂、炫酷动作的机器人，还能将机器人送进工厂、参与生产。 2022、2023年前后，国内很多团队也相继成立，押注具身智能方向，比如智元机器人、银河通用、逐际动力。为什么大家选择这个时间节点下场？可以从软件和硬件两方面来理解。在硬件层面，过去十年，新能源产业、工业自动化、消费电子等行业的产业化、规模化水平有所提升，从而推动了包括电机、传感器、电池在内的硬件以及零部件上下游体系的成熟，降低了搭建机器人的门槛。在软件层面，从2022年底开始，大模型的出现被认为有机会用来提升机器人的算法模型能力，尤其是在感知决策方面。这给了行业很大的想象空间，去设想未来做通用机器人的可能性。雅娴：2017年，宇树推出的四足机器人，已经能完成很多任务了。再比如工厂里，机械臂操作组装汽车、做一些精细的操作，都非常熟练。那为什么一定要把机器人做成"人形"？为什么一定要追求"通用"？ 刘鹏琦： 某种程度上，"人形"反映了人类内心深处对于未来通用机器人终极形态的普世性想象。大量的科幻电影、电视剧呈现的机器人形象也与人相似，比如动画电影《超能陆战队》里的智能机器人"大白"。在技术方面，人形体现的技术和通用能力可能看起来更高阶，也因此，很多公司把"人形"视作一个目标。但就狭义的人形和非人形而言，"是不是有腿"主要表现出的是移动能力上的差异。在移动能力上，可以说80%-90%的场景不需要人形，轮式底盘就足够用了。所以现在可以看到，更多的公司开始把资源放在机器人的上半身，尤其是操作能力的研发上，这也许是更能发挥商业价值的地方。

▲ 欢迎扫码收听播客对谈。 雅娴： 那机器人需要具备哪些能力，才能被称为"通用"呢？ 刘鹏琦： 我们现在讨论通用机器人、人形，和在大模型领域讨论AGI的逻辑是相通的。通用是我们追求的终极目标，但挑战在于整个世界的资源有限。在追求通用的同时，我们也需要平衡效率、成功率、成本等因素。比如，在工业、制造业等领域，相比于是否能通用，效率、成功率、成本这些因素显然更重要。但在家庭服务的场景中，通用性就更重要。我们可能会允许机器人牺牲一定的成功率和效率，但相对而言能做更多的事。目前业界对于通用机器人需要的能力还没有形成共识。我觉得可以参考自动驾驶，从L1到L5来分级、定义通用机器人的能力，划分指标可以看覆盖多少场景、不同场景下覆盖多少任务。 丁教： 在机器人领域，无论是研究阶段，还是具体到应用场景，更多需要的是收敛，而不是泛化？ 刘鹏琦： 偏学术派的创始人，可能更加认可直接追求全场景泛化的路线。偏产业背景的创始人，可能会在通用这个方向上做减法，选择把一个垂直场景的问题解决好，未来再去做其他场景。但也不能一概而论。

/ 02 / 智能机器人需要的软件和硬件发展得怎么样了？

雅娴： 现在机器人需要哪些类型的硬件，不同硬件如今发展到了什么阶段？

刘鹏琦： 机器人的硬件可以简单分成几大类：机械部分（类似人的骨骼、肌肉、肌腱）、传感（类似人的五官、触觉）、控制（类似人的大脑、小脑、神经系统），以及配套的供能系统、通信系统等。

从投资角度来看，不同类型的硬件模块处于完全不同的发展阶段，这和模块相关产业的成熟度有关。

目前成熟的硬件单元，不少是新能源车、工业自动化、消费电子等成熟产业规模化发展后的外溢成果。

比如关节减速器，是机器人普遍采用的一体化关节的重要组成部分。关节减速器在新能源车、工业自动化行业中已经发展比较成熟，成本也在不断降低，稍微定制就能用在机器人产业。

再比如传感器，得益于自动驾驶、扫地机器人的行业发展，激光雷达、毫米波雷达等视觉感知模块的成本较低，可以让机器人"拿来即用"。

相反，还有一些不太成熟的硬件单元，其核心零部件过去在其他产业方向上没有什么产业化、规模化的积累，需要为具身智能定制研发。这其中也存在着创业、投资的机会。

比如灵巧手（一种新型的机器人末端执行器，是机器人与环境相互作用的最后环节与执行部件）和相关的触觉、力觉传感器。2024年以前，灵巧手的使用场景以假肢和科研为主，近几年具身智能行业热度提升，才把灵巧手"带火"，吸引更多资金、人才进场，推进它的发展。

因时机器人是一个特别有意思的案例。2021年，峰瑞在A轮投资因时机器人时，这家公司已经有灵巧手的产品demo了，但当时我们更关注的是它的核心零部件微型伺服电缸（人形机器人的线性关节，也叫线性执行器，是集成伺服电机、减速器、丝杠等零部件的一体化运动单元）。

当时，因时机器人的微型伺服电缸已经在新能源行业、医美行业有较为成熟的应用，灵巧手虽然营收占比不高，却是技术实力的佐证。现在看来，可能是当时靠着其他规模化产业的带动，微型伺服电缸的核心零部件技术逐步成熟、成本逐渐降低，最终为灵巧手的产品化积累了关键能力。如今，因时机器人在灵巧手赛道上先发优势明显，在行业内出货量领先。

所以说，人形机器人的零部件、硬件模块的成熟度，早期非常依赖其他成熟产业的支撑。如果仅靠具身智能产业自身，会比较慢、比较难。

丁教： 让我想到了乐森机器人，之前做伺服电机，后来转做玩具行业，反而在商业上获得了挺大的成功。

刘鹏琦： 公司在其他产业上积累、卷出来的能力，用在新兴市场上，可能反而更符合市场逻辑。

雅娴： 聊完硬件，我们再来看软件层面。机器人控制系统有两条比较主流的发展路线。

一条是端到端架构（end to end，指让大模型直接理解问题，给出决策或答案）的VLA模型（visual language action，指从语言视觉端投射到行动端），特斯拉汽车的FSD（Full-Self Driving，完全自动驾驶）是端到端的典型代表。

另一条是传统控制系统，把机器人运动组件分为感知、决策、控制等模块，分模块结合AI大模型来实现各种功能。

刘鹏琦： 我觉得这两条路线不是"非零即一"的状态，存在非常多互相借鉴的折中方案。

比如，分层模型的一到两个模块可以用大模型来实现部分端到端；而VLA内部也可以被设计成一个分层的结构，比如分为快慢不同的两个系统结构。

企业需要根据自身的定位、场景、商业模式，选择适合的路线。

自动驾驶过去十年的发展情况，可以给具身智能行业提供参考。

在自动驾驶行业发展早期，市场上有一上来就做终极L4（高度自动驾驶）方案的公司，也有先做L2（部分自动驾驶）方案的公司。做L2方案的公司，通常会先把足够多的产品推向市场，采集数据后再训练模型。

特斯拉的FSD也不是最初就实现了端到端的模型。它可能也是先做分层模型，积累了足够多的用户数据，再反过来训练端到端模型。

当然，端到端模型也不一定是"终局"。业界有人认为，端到端模型最多起到模仿学习的作用。是不是需要把更多其他方法、数据加进来训练端到端模型，主要看企业的定位和想法。

雅娴： 端到端模型的优势是什么？

刘鹏琦： 最简单的理解就是，端到端的模型结构看起来更加简单干净。如果有足够多的数据算力，有可能发挥Scaling law（OpenAI提出的规模化法则，认为大模型的最终性能主要与计算量、模型参数量和训练数据量有关）的优势，直接把模型跑出来。

问题在于，在具体的应用场景里，模型最终实现结果的成功率到底有多高，比如准确度是否能够达到行业目标。以自动驾驶为例，端到端模型的上限是否是实现百公里左右接管一次？百公里一次的频率就足够好么？

雅娴： 目前大模型应用在通用机器人上，有哪些挑战？

刘鹏琦： 在偏机器人大脑的部分，挑战在于，机器人需要和物理世界进行交互，需要感知环境的3D信息和物理性质，但目前大模型能给机器人提供的这类关于"真实世界"的信息比较有限。自动驾驶之所以能够使用大模型，在于车辆和环境的交互需求比较少，尽量避免和外界的接触和碰撞。

在规划、控制操作等偏小脑的部分，现有的大模型可能远不能满足机器人需要的准确度和响应速度。比如，机器人的末端控制系统可能需要几百甚至上千赫兹的信号更新频率，目前大模型Transformer结构（一种新型深度神经网络结构，是当下主流大模型的基础结构）比较难实现这样的更新频率。

换个角度来看，具身智能，其实就是一个面向物理世界的AI Agent（智能体）。一个好的AI Agent需要环境感知和记忆，还需要推理决策能力，更重要的是Tool use（工具使用，指 AI Agent 有效利用外部工具来增强其执行任务的能力）。具身智能作为一种AI Agent也同样需要具备上述特性。具身智能的环境感知和推理决策能力可以随着大模型能力演进而提升，但和物理世界交互的Tool use显然面临更大的挑战。

投资热潮下，具身智能赛道有哪些趋势和机会？

雅娴： 人形机器人的商业化处于什么样的阶段？落地情况如何？

刘鹏琦： 先从技术角度来看。包括端到端模型在内的很多技术处于非常早期的研究阶段。

因此，很多公司考虑的核心问题并不是商业化。目前，大家的战略重点集中在怎么获取更多资源、推进前沿技术研发。

从投资角度上看，具身智能是明显过热的状态，可能处在Gartner技术成熟度曲线上第一波高点的位置。

▲ 2024年新兴技术成熟度曲线。图片来源：Gartner

"热"的好处在于，可以加快推进相关技术和产业成熟。比如灵巧手，获得了资本支持后，行业里出现了很多还不错的解决方案。

即便后续具身智能产业进入资本低潮和冷静期，也会产生很多"沿途下蛋"的机会。其中，具身智能产业研发出来的模型、算法和核心零部件，可能会外溢到其他行业，比如增强现有服务机器人的能力，做出现在难以实现的机械臂形态。一些工业机器人现在只能在非常固定的工位活动，未来可能在更泛化的场景里，执行多任务。

从量产的角度来看，国内目前能实现规模化量产的具身智能公司还不多，最大的挑战之一是还没有找到PMF（Product Market Fit，产品和市场达到最佳的契合点），现在更多还是服务科研场景和展示需求。此外，软件层面的上肢操作能力，和硬件层面的机械性能、稳定性和成本的平衡，都还有优化空间。

如果讨论未来人形机器人如何落地，需要去平衡"不可能三角"（指一件事情同时存在三个要素，三者不会同时存在），在具身智能领域主要指成功率、通用性和成本。

▲ 欢迎扫码收听播客对谈。

在中国市场，人形机器人需要实现比人工操作更高的成功率，在垂直场景下实现泛化性，尤其适合切入附加值相对更高的产业。

例如，生物医药领域的人工实验环节或许能够由机器人完成。一来，实验室所需要的操作相对有限，对机器人的通用性要求不高。其次，在具体的实验环节中，机器人在控制实验条件、规范操作方面可能比人工更精准。此外，实验操作人员通常需要本科及以上学历，并具备化学或生物等学科背景，属于高技能劳动力。人形机器人如果能做这类替代性工作，能创造的经济附加值相对也会更高。

相比之下，人形机器人或许不容易在劳动力密集的场景中落地，比如仓储物流或者工业场景，其中一个原因是这些场景的附加值较低。此外，国内人工成本较低，海外人工成本较高。因此，海外市场更需要人形机器人替代人力。

当然，我们也观察到了机器人在工业领域的尝试，比如造车，但目前机器人更多可能只是做一些质检、随机的搬运等工作，真正进入核心生产环节还有较长的路要走。

国内外做人形机器人的公司的画像有很多不同。

美国比较知名的人形机器人公司包括特斯拉、Figure AI、Physik Instrumente（PI）等，新兴公司数量不多，但单个公司估值和融资额很高。整体而言，美国公司偏向追求技术的领先性，研发重点集中在软件、算法这些机器人的大脑部分。除了Optimus和Figure AI等少数公司之外，自研机器人本体的公司并不多。

中国入场人形机器人的公司数量很多，除了遥遥领先的第一梯队，还有数不胜数的第二梯队、第三梯队。2025年上半年，还有非常多创业者入局，据新战略人形机器人产业研究所估计，数量超过数百家。此外，看起来中国的具身智能企业可能更想实现"全能"，比如既做软件，也做本体硬件，既要展示很炫酷的技术demo、也要有落地的思考和布局。

从市场环境来看，中国具备孕育人形机器人产业的独特优势：完备的产业链基础、规模化的市场需求、积极的政策引导，以及广阔的出海机会。

雅娴： 对于未来的人形机器人，公众可能有一些"机器人进家庭"的想象。从现在的技术发展阶段来看，机器人进入家庭场景是不是需要更长的时间？

刘鹏琦： 确实。机器人进家庭，除了要考虑"不可能三角"中的成功率、通用性、成本这些问题以外，也有很多伦理问题、哲学问题需要解决和克服。

丁教： 希望在资本的助推之下，具身智能行业能够迎来一个技术突破的节点，一点一点往前推动，我觉得最终应该可以实现这个目标。

刘鹏琦： 如果只靠一波就把它推到了最终的高度，那这件事一定不是一个大事。一件大事一定是需要几波浪潮，把它推到终局。

雅娴： 那现在机器人是否到了"ChatGPT时刻"？

刘鹏琦： 我觉得还远远没到。

2024年5月，我们发布了一篇报告《通往具身智能之路》。

跟一年前比，我觉得具身智能变得更热了，更多团队出现、更多机构进场。不变的是，整体行业仍然处于早期阶段，虽然机器人马拉松等很多现象"出圈"，但商业化落地还很少。

在硬件领域，大量新的创业公司和团队布局力传感器、触觉传感器、灵巧手等。在机器人小脑数据这个细分方向，出现了提供遥操作、动捕以及合成仿真数据的公司或者平台。这也符合此前在报告中的判断。

未来，新的趋势和机会可能会出现在大小脑的控制算法方面，这是目前具身智能的最大瓶颈之一。解法可能在于，先选择一个兼顾成功率、通用性、成本的落地场景，用现有技术能力形成闭环解决方案，积累场景数据，再逐步演进新算法架构。

如果把时间轴拉长，人形机器人终极形态的出现，可能会晚于量子计算和核聚变的实现。人形机器人可能就像漫威中钢铁侠一样，把可控核聚变作为能源装置、量子计算作为计算单元，从而真正实现通用人形机的形态。