陈昱对话自变量、元戎启行:AI 落地物理世界,最难啃的硬骨头怎么啃? | 云启实干派
跨越虚拟到现实的沟壑

2025 年,物理 AI 的叙事重心正在发生变化。具身智能、辅助驾驶不再只是"讲故事"的行业,交付量、上产线、收入与订单开始成为话题焦点,市场讨论越来越多地围绕"商业化跑得快不快"。
但在商业化之外,一个底层问题仍需要不断审视:当 AI 加速落地物理世界,脚下这套技术地基完全打牢了吗?
在近日举办的清科"第二十五届中国股权投资年度大会"上,云启合伙人**陈昱与两家被投企业创始人兼 CEO——自变量机器人王潜、元戎启行联合创始人周光展开深度对话。**这场以「创新与边界:AI 落地物理世界」为题圆桌讨论将话题焦点拉回到更多技术基座问题上:
数字模型与物理行动力之间的 gap 如何跨越?语言、触觉、视觉在提升物理 AI 学习效率和系提供安全性上的必要性和局限性分别是什么?
当然,身处行业一线的嘉宾们也没有回避市场当下格外关心的问题:物理 AI 将以什么样的商业化节奏和规模化路径落地?众多新思考和行业干货,本期**「云启实干派」**和你分享。

Key points

物理AI的基础模型与定位
·物理世界与虚拟世界差异巨大,需要一个完全生于物理世界、服务于物理世界的基础模型,它应平行于语言模型而存在。
·物理模型所需的知识总量远小于大语言模型(LLM),因此其参数规模预计会比语言模型小。

落地物理世界的
关键挑战(Sim-to-Real Gap)
·最大的难点是"物理鸿沟": 在模拟器中跑得很好不代表模型在现实中可行,核心问题在于仿真器模拟的物理规律不准确。
·操作(Manipulation)的特殊性: 操作与局部运动(Local Motion)和导航(Navigation)性质差异巨大;即使是非常微小的误差(如摩擦、碰撞),也会导致操作结果截然不同,因此它可能是 AI 领域最后走通的部分。
·实时性要求: 具身智能本质上是一个实时系统,需要即时反馈,不能像大语言模型那样花时间思考多个路径。

数据策略、预训练与模态作用
·语言在训练过程中是极其重要的监督信息,能帮助模型快速学习和收敛(如明确停车原因);在部署阶段,它能增强系统的可理解性,提升用户的安心感。
·未来的物理世界基础模型需要在一定程度上摆脱语言,语言难以描述精细的空间位置关系和短时间的动作实践变化,但语言模态会一直在。
·触觉信息"极度重要",但并非完全必要。纯视觉方法可以获得大量信息,但操作性能远不及有触觉的情况。仍需要大量的触觉训练才能接近或超越人类水平。

商业化、规模化时间表
·自动驾驶规模化: 实现端到端约需 1 万台车,实现 VLA 约需 10 万台车的规模。
·具身智能商业化节点: 2026 年将是具身智能商业化具有标志性意义的一年,届时将批量出现真正具有正投资回报率(ROI)的场景。

陈昱
今天很高兴能和两位在 AI 落地物理世界最前线的创业者,一起聊一个当下非常重要的话题——AI 如何从模型能力真正走向物理世界。过去两年,我们看到生成式 AI 的飞速发展。模型变聪明这件事变得很快,但让 AI 在真实世界可靠地执行,则需要完全不同的体系能力。
今天我们邀请到物理 AI 领域的两家独角兽公司——自变量机器人和元戎启行,和他们共同探讨 AI 进入物理世界时会遇到的挑战,以及其中的想象空间。首先,请两位介绍一下各自公司和正在做的事情。

自变量机器人

元戎启行

王潜
自变量是一家做具身智能基础模型和通用机器人的公司,我们做机器人大脑、整机,也包括更上游的灵巧手。就核心而言,我们是一家 AI 公司,一家基础模型公司。
今天很多人还是认为具身智能是一个 AI 的垂直应用,或者是大模型在物理世界的衍生。但物理世界本质上和虚拟世界的差异实在太大了,**我们需要的是一个完全生于物理世界、服务于物理世界的,平行于语言模型、多模态模型的一个基础物理模型。**自变量的定位首先是基础模型公司,其次是人形机器人公司,最终给客户提供软硬一体直接面向终端消费者和客户的产品。

周光
元戎做自动驾驶很久了,见证了这个行业的起起伏伏。早期的自动驾驶是基于高精度地图技术、模块化的,后来到端到端,以及最近比较热的 VLA。**自动驾驶是机器人领域第一个能够走量、能够以海量数据集做好预训练的行业。**我们也发现数字世界到物理世界差距非常大,在物理世界打造一套数据模型挑战是巨大的。目前来说,我们在这方面有着相当不错的成绩,我们的产品已经跨越了实验室 demo 的阶段,成功服务广大的消费者。
目前累计有 20 万辆搭载元戎辅助驾驶系统的车进入了消费者市场,2026 年预计有百万级的车辆会搭载我们的系统。在见证海量级数据之后,在经历了从模型难到行动难的过程,我们还是挺有感触的。
模型聪明不等于能行动:
AI 落地物理世界的核心瓶颈
陈昱
接下来我们展开聊一下。做模型已经是很难的一件事情,而要把模型变成真正具有行动力、能够在物理世界落地的系统,难度会更高。在模拟器里跑得很好,并不代表这个模型就 work ,因为真正到物理世界会遇到各种各样的问题。
所以请两位分享一下,AI 落地物理世界时,最大的难点在哪里?你们在过程中会碰到哪些在实验室环境没有遇到过的问题?怎么解决数字模型落地物理世界的瓶颈?

周光
我们有超过 20 万台车辆在道路上行驶,持续采集第一视角的数据。基于采集到的海量数据,首要任务是做好预训练,这并不简单。端到端加上语言模型之后,由于语言本身涵盖丰富的语义知识,对数据量的需求显著降低,预训练的学习速度也得到明显提升。
在自动驾驶领域,无论是特斯拉还是我们,模拟器用得并不多。我们还是觉得先做好预训练,再通过强化学习提升最后的几个关键指标,并不是没有预训练直接上强化学习。而且强化学习的监督信号非常稀疏,通常只在最终给出一个总体奖励。就像我们路上开车,刹车早了 0.1 秒或者迟 0.1 秒,可能人都会很不舒服的,这些情况很难通过模拟器去描述。
我们观察到,在预训练充分的基础上引入强化学习,能够有效提升最后几个关键的安全指标,从而增强系统的安全性。

王潜
模型落地物理世界主要是三个大的方向:第一个是 Local Motion(局部运动),现在大家已经做得非常好了;第二个是 Navigation(导航),基本上也走通了。

周光
在很大程度上这是依赖于高精度地图(SD Map)的。在小区、写字楼这些复杂环境内不借助 SD map 还是比较困难,但现在在 VLA 模型的加持下,就有了一定的成功率,因为 VLA 已经在未知环境中已经展现出一定的自主导航能力。

王潜
或者说自动驾驶基本上已经把普遍意义上的 Navigation 包得住,但是 Manipulation(操作),也就是我们主要做的部分,性质上和那两个领域差异非常大。
一是数据比较难收集,没有那么多的训练数据。从问题性质上来说,还有另外一个很严重的问题,涉及到的物理过程比较复杂。我们可以想象,自动驾驶没有什么特别多的物理过程,基本上都是感知问题,涉及到的控制没有特别多的随机性或是发生很多难以预测到的过程。
稍微难一点的是刚才提到的 Local Motion,要翻跟头、跑步、跳舞。但相对来说,Local Motion 也是简单的,因为它一直对抗的是持续的、恒定不变的重力场,跟地面接触稍微偏一点没有太大的关系。
但手上操作,在这个层面和所有其他领域都很不同的一点是,即便非常微小的误差,就会导致最后的效果差异非常大。微小的误差是日常过程中忽略的物理过程所引发的,比如一些轻微的摩擦、碰撞过程。
从这个角度来讲,刚才陈总提到的一点很重要。为什么在模拟器里跑很多东西跑的很容易,基本上不会出任何问题,一拿到现实世界中就会出现所谓的 Sim-to-Real gap?当然肯定有很多所谓的 perception gap,看到的东西和模拟器里面的不一样,但最主要的还是 physical gap,在仿真器模拟出来的物理规律不对。
绝对的刚体问题到今天仍然没有完全解决,一样会有穿模的问题。在非常高频率的模拟之下会有碰撞上不精确的地方,非常微小的不精确,对最后的结果影响还是非常大的,这是 Manipulation 非常特殊的一点,也是为什么它是在刚才提到的三个领域最后走出来的,也是 AI 领域里最后走出来的。

周光
对人抓取东西而言,触觉是非常重要的。这类触觉信息,往往是通过人手上的三种不同类型的神经元来采集的,当前机器人主要通过压力传感器来模拟此类功能,还达不到人的采集精度。

王潜
传感器是一方面,其实是可以通过纯视觉的方法获得足够的信息量,并不一定要有完美的触觉才能做,但前提条件是这个过程一定得是对的,如果在仿真器里面哪怕有非常好的数据,效果也是差的,因为本身做的物理过程是不对的,获得正确的物理过程是非常重要的。
视觉、触觉、语言:
为什么缺一不可?

陈昱
如果大家相信纯视觉可以解决问题,视频数据确实相对是最容易获取的。但在缺乏触觉或其他信息的情况下,模型能够更好地学习物理规律吗?

王潜
首先肯定不能完全靠视觉,通常来讲视觉能够获得的信息量比一般意义上的要多很。但实验显示,一个人打上麻醉剂,剥夺掉触觉,通常来讲所有事情还是能做的,只是做得很差,成功率就会变得很低。经过学习,成功率可以恢复,但还是和有触觉的表现下差距非常远。我们认为触觉某种意义上极度重要,但 not so necessary。

周光
比如说人类的痛觉,人是从小有痛觉,然后形成了痛觉相关的神经通路。人如果因为疾病失去痛觉了,之后还可以活得很久,但天生没有痛觉是很难活得久。

王潜
视频预训练是很重要的,我们可以获得大量的信息做预训练,这一定是得有的,而且这是免费的数据,如果免费的数据都不能充分利用起来,凭什么说能够用得起(仿真)那么贵的数据,这肯定不合理。
第二,机器人操作最后一定还是要有大量熟悉触觉的训练,最后才能接近达到人类或者超越人类的水平。

陈昱
语言模态是否是必须的?大家都在讲 VLA 这个概念,但也有一些声音认为语言模态未必是必须的。你们是怎么看的?

周光
理论上来说,语言是个能帮你在学习过程中快速学习的一个能力。可以这么理解,你去学开车,如果只是天天跟着教练看,不知道在这个路口停下来是因为红灯还是因为有人。语言是个非常好的监督信息,告诉你说这次停车是因为有红灯,下次停车是因为行人。这些信息帮助你快速收敛,在训练过程中语言是极其重要的。
另外,在推理过程中不再是黑盒,对用户来说增强了安心感,这十分重要。尽管在开车的时候并不时刻需要通过语言进行交互,但在训练过程中,语言所承载的监督信息至关重要。若缺乏此类语义引导,模型的学习将难以有效收敛。因此,语言的核心作用在于训练阶段提供明确的行为指导,并在部署阶段提升系统的可理解性与可信度。

王潜
具身和智驾还是不太一样。在地图上点一个地方,(汽车)开到那个地方就行了,人形机器人是要说话的,而且要密切、详细地说话,语言这个模态需不需要,我觉得没有什么争议,一定是需要语言。
**现在大家在人形上争议比较大的地方是:**有一些单点的垂直场景需不需要具身智能专用模型?我的看法是,需要带有语言能力的统一具身基础模型蒸馏出来一个小的模型放在某个单点的场景上可能是更合理的做法。
自从这一代大模型出现之后没有看到任何专用模型在能力上限上超过操作通用模型。如果我们追求极致的性能,一定要先做通用模型,之后再抽取专用的部分,这是合理的。
其次,为什么语言今天很重要?因为它实质上是我们之前训练多模态模型的核心部分。大家刚开始做多模态还会争议:应该以语言为核心?还是以视觉为核心?现在做出来效果比较显著都是以语言为核心。
利用已有的多模态模型的"遗产",我们没有办法绕开这个部分,肯定还是要以语言为核心的多模态模型为基础,再探索怎么用到具身领域。
对于未来的看法,语言未必会在以后统一的物理世界基础模型占据核心位置。"说话"通常来讲和动作的实践、空间的尺度是不匹配的,语言很难描述非常短时间的过程,很难描述非常精细的空间位置关系。
比如拧开水瓶,很难用语言表述这个轨迹是怎么样的,往哪个方向用力,因为时间很短,空间只有几度的差别,没法用语言去说。
从这个角度来讲,未来物理世界基础模型还是要在一定程度上摆脱语言。但是语言这个模态永远会在这儿,人类还是有跟机器人说话的必要性,不仅是情感需求,还是做任务时,都要通过说话这个交互界面,所以把语言融入在整体模型架构里是自然的选择。

陈昱
你坚信物理基础模型最后是被训练出来的。但这件事和大语言模型不太一样,大语言模型收集语料成本相对来说是比较低的,物理基础模型要穷尽所有可能的动作、看过所有的物体以及它们的材质之类的,这里面的成本会特别高。

王潜
时间倒退回 15 年前,我们刚开始做 AI。或者再往前倒退,比如倒退 100 年,有AI概念的时候,为什么大家相信 AI 能做出来?本质上是因为已经有一个 Intelligent system 摆在我们面前——就是人。如果我们承认世界是唯物的,承认人脑是比较大一点的神经网络,没有任何理由没法训出来。
回到能不能训出物理世界的模型,一方面我认为今天收集数据的总量已经有一个大概的认知了,之前在我们内部一直是保密状态,今天有一些友商,比如 Generalist 放出来了一些对于具身领域的 Scaling law 预测,和我们自己的预测还是非常接近的。
按照这个预测,是可以在合理的时间范围和合理的资源投入下,收集到足够的数据,去训练真正意义上的基础模型。在那之后,可以从现实世界中把卖出去的机器人数据收回来,至少冷启动这一步完全是在可控的范围之内,对此我们还是有充足的信心。
人类的预训练的过程需要的数据量没有那么大。从生下来开始,长到 10 岁,基本上是万小时到几十万小时的数据量。但在几十万小时的数据量训不出来像人一样的系统,因为训练机制是不一样的,包括数据的特性也是不一样的。
可能有人说耗尽地球的资源都做不出来。但信息量肯定是够的,只是需要更巧妙的方法把它利用起来,哪怕目前没有,我们有比较好的估计,有相对比较充足的信心,应该在未来某个时间点达到某个水平,这个估计相信各家都有,也是大家比较坚定做具身智能的原因,相信大家心里还是有足够好的判断。
商业化"开始了"
但真正能跑通的路径有几条?

陈昱
刚才我们讨论了很多技术上的话题,现在来讨论另外一个大家感兴趣的话题——规模化和商业化。自动驾驶在这两年当中发展非常迅猛,几年前还很少能看到高阶辅助驾驶的量产车,而现在十万元以上的新车基本都慢慢开始标配了。你们是怎么看待这个产业的变化?比如说元戎,从实验室的一台车,到小规模量产,到今天 20 万台车,明年百万级规模,整个量产的过程当中,最核心依赖的能力是什么?又是如何保证这件事可规模化复制?

周光
早期自动驾驶技术主要基于传统方案,没有规模,通过构建高精度地图并通过写规则来实现,这是比较简单的,直到今天依然有很多人用非常传统的方法来做。
在 2024 年我做过一个估计,要想做好端到端得要 1 万台车,做好 VLA 则要 10 万台的规模,现在来看是比较符合预期的。技术落地需要循序渐进,最初我们构建端到端的基础能力,实现量产后逐步形成健康的商业闭环,这并不是说一下子就替代掉人。随着车辆规模从 1 万提升至 10 万,系统可以引入语言模态增强学习能力,并进一步优化模型性能。
这中间有很多工作需要做,就比如工程层面的工作,处理万级车辆规模的时候,需解决物理设备管理等问题,这一过程涉及大量繁琐但关键的工作,包括数据挖掘、样本筛选和质量校验。
当前 20 万台车,每天产生的数据是海量的,需根据模型容量进行精细筛选,而非盲目追求学习能力。同时,电耗、训练效率、参数规模等资源限制要求工程层面优先解决 low hanging fruit 的问题。我们清晰地感受到,在车辆规模达到 10 万级的时候,数据多样性已足以支撑基础感知与决策,但进一步提升性能则需引入语言模态。

陈昱
具身行业现在有点像十年前的自动驾驶——大家都还是处于 demo 的阶段,技术没有收敛,场景也没有收敛。

周光
技术路径不一样,不会用十年前那样的做法了。

陈昱
我们也看了很多家企业,路径并不那么统一,自动驾驶也经历过很多技术范式的迭代,从一开始的分段式到端到端,现在的具身路线也是百花齐放的。在商业化方面,不同公司有不同的考量,有些企业在技术还不完全成熟时就尝试商业化,想尽快进入资本市场,而自变量更加聚焦基础模型的研究。想问一下王潜总,你自己怎么看待具身行业的商业化节奏?你认为这个行业什么时候才真正准备好做可规模的商业化?

王潜
这个事我最近感触非常深。到年尾了很多人来问:"两年前你在干什么?"想到两年前的时候,几乎所有一级市场的投资人,包括大部分的创业者,快速要挑一个垂直场景去落地,在这个垂直场景跑起来,有一个正的现金流,有很好的循环,很快就能长的很大,对于站在那个时间点的认知来说无可厚非。
但是现在,很多当时持有这个观点的投资人跑回来讲:"终于明白你当时的观点是对的,Foundation model才是核心,过早的做商业化有点浪费时间、浪费资源。"今天很多投资人过来这么和我讲。某种意义上我们还是要求真,计较一个事应该怎么样,或者说它客观发展规律是什么样的。客观规律是没有办法靠人的主观意愿来撼动的。
两年前的状态,没有基础模型,只是做某一个单一场景,确实做不动,当时说过很多次,如果真的能做出来,过去80年间早就做出来了。刚刚张院士的演讲,基本上汇聚了以前大家所做的事情,没有做基础模型的时候大家所能够达到的巅峰。
**说回到今天,基础模型的发展已经达到临界点了,2026 年应该是具身智能商业化非常具有标志性意义的一年。
2023-2024年几乎能给市场消费者、客户提供的只有情绪价值,或者是平台价值、资源置换价值,没有任何一个场景可以看到具身智能公司给客户提供有用层面上的价值。这种商业化,你说它不是商业化吗?当然也是商业化,可以撑起一些收入去上市,但可持续性或者是特别大的持续作用,我个人还是不太认可的。
2026年,我相信一定会批量地出现一些真正意义上有正 ROI 的场景,真正给客户提供超越机器人价值的具身机器人,狼来了喊了两年,这一次可能真的是狼来了。

陈昱
你觉得最可能是什么的场景?

王潜
实际上有两类场景,一类是 1X,或者像 Sunday 展示的场景。

周光
对,1X 我觉得不错,用的是全世界的劳动力薪酬差,去获得数据。

王潜
理论上想做的不是简单的劳动力传输。

周光
它是为了做完成数据上的逻辑闭环,要解决隐私性问题。

王潜
具身智能不可能一下子成为今天的手机或车这个级别的事,早期的渗透肯定是明年会开始出现,在美国和墨西哥之间,或者是日本和东南亚之间,欧洲和土耳其之间,这种劳动力差距,足以支持商业价值的出现。

周光
同时解决了技术模型真实数据来源的问题。

王潜
还是得提醒一点,具身智能没有那么容易做,这件事还是高度困难的事。

周光
对,不仅仅是技术层面。

王潜
各个层面都很难,技术层面也不简单,今天普遍意义在做的,是适用于强化学习做后训练的简单任务,最近感觉强化学习这一侧也有比较明显的进展,当然这些进展说白了都是十年前大家都在玩的东西,真正能够把它应用在基础模型上,在这么大的规模上做训练,还是有很多工程上的困难,目前逐渐在解决。现在很多对人来说非常简单,一个动作、两个动作很容易的事情,但确实是以前的机器人完全做不了的事情。在这样一批场景上至少能够完全实现全自主,而且这个事情不会特别远,大概就是 2026 年。
物理 AGI:
3–5 年的窗口,还是更远的未来?

陈昱
我们期待 2026 年具身智能商业上的爆发。大模型领域大家讨论 AGI 很多,但现在物理 AI 的 AGI 时刻还很少被提及,大家认为物理 AI 的 AGI 时刻意味着什么?现有的技术路线真的能够走到那一步吗?

周光
我觉得对具身智能来说移动的能力是看得比较清楚的。这一轮自动驾驶技术出来后,移动能力的基础模型会比较快收敛,目前有一百公里自动驾驶测试的监管,如果不是在行车这样的特殊场景,换机器人场景,是能实现商业化的。

王潜
我们估计是 3-5 年的周期内,有一个 Scaling law 的的估计,以及按照这个路线能做到什么水平,基本就是这个时间线,不会特别远,不会是 8-10 年。

周光
是的,自动驾驶与具身智能不会需要这么久。

王潜
这个事说到最后,无论如何有一点信仰的成分,你相不相信 Scaling law 的成分,或者是相不相信 Scaling law 在机器人、车上的存在。

周光
还有一点,我觉得芯片也是一个问题,今天为什么各家都在做第一代 VLA,包括 FSD V14 也是类似的架构,算力是一个无法忽略的问题。从 200 多 TOPS(每秒万亿次运算能力) 到 1000 TOPS,我认为还是不够的,1B 左右的参数模型依然很难做一些复杂的工作。

陈昱
刚刚王潜总也提到,已经有人脑这种 Intelligent system 作为模板,但人的大脑功耗只有大约 20 瓦,没有这么高的算力,我们也不可能无穷地堆叠算力。

周光
我觉得在终端设备上完成常规的工作是足够了的。

王潜
参数上的规模,少部分是有关于任务的难度,驾驶真的比 IMO(基于视觉的交互操作任务) 简单吗?并不觉得,我很确定的说 manipulate 不比 IMO 简单。

周光
但是生物是进化了 10 亿年才达到现在的程度。

王潜
核心影响参数量的还是 knowledge 的总量。语言模型为什么那么大?要记住一大堆,从整个维基百科到互联网所有的 knowledge,所以信息编码这么多,它肯定还是需要那么多的参数量。这个是逃不掉的。
不管是开车还是具身操作,它用不了这么多的 knowledge,大量的信息都是 common sense,都相对来说压缩密度比较大,所以我肯定还是同意周光说的,肯定会比语言模型小很多。

周光
不管是开车还是做一个 App,所需要的实时 Token 都是多的,要想描述整个行为,需要一定的算力,这不只是一个仅靠内存的问题。

陈昱
和大语言模型不太一样,具身本身是一个实时系统,大语言模型解决问题的时候一次不行就 5个 path、10 个 path,甚至可以花一个小时思考,但具身智能需要做即时的反馈。
感谢两位既硬核又脑洞大开的分享,也希望在场的各位能从他们的实践中感受到物理 AI 的真实挑战与新的可能性。谢谢大家!