具身领域每家公司可能都是靠谱的，关键看是否想清楚自己要成为谁 | Linear Voice

线性资本·2026年2月2日·51·0

具身数据基础规模是1000万小时或更多。

2024年11月，华为车BU前首席科学家陈亦伦投身具身智能创业。不久后，「它石智航」浮出水面——由陈亦伦和百度前自动驾驶事业部负责人李震宇等联合创立。

成立不足半年，它石先后完成1.2亿美元和1.22亿美元的天使轮与天使+轮融资，创下中国具身智能领域天使轮融资纪录。线性资本作为其最早轮次投资方，连续两轮下注支持。

近期，在与《晚点》的对话中，陈亦伦分享了许多看似"离经叛道"的路线选择与背后的技术思考。以市场关注的具身数据为例，他认为所需要的数据基础规模1000万小时或更多。以下是陈亦伦博士与晚点的精彩对话。

「它石智航」自成立以来，便为市场所热烈关注。

近期，在与《晚点》的对话中，其创始人陈亦伦却展现了略显"离经叛道"的技术思考，分享了很多反主流的判断。例如：

他认为当前具身模型的主流架构VLA（视觉-语言-动作）模型是 "视网膜信息"，但它石则开发了AWE（AI World Engine），追求表达时间、空间、力和环境交互等物理量和 "世界信息"。
VLA的主流做法是从LLM（大语言模型）得到 VLM（视觉-语言模型），再在 VLM 基础上训VLA。陈亦伦对此却非常不认同，他认为具身一定会有自己的独立模型，而不是在VLM上长出一个动作的 "头"。
当数据是具身智能当前的核心卡点时，陈亦伦在创业之初也没有做遥操作数据采集，而是选择自研了采集数据的可穿戴设备。

敢和其他人不一样，可能来自他最早尝试自动驾驶端到端的切身经验。曾有业内人士告诉《晚点》，在华为期间曝光度不高的陈亦伦是华为智能驾驶研发团队的技术 "灵魂人物"。

这也带来疑问：**智驾的技术演进过程，会在具身智能上押韵吗？**二者都属于物理AI范畴，但大语言模型带来了全新的技术环境。这个问题没有现成回答，取决于不同从业者的不同bet。陈亦伦讲述了他的bet。

▍你在大疆和华为做过无人机与无人车，这都属于机器人的分支，最早关注机器人是什么时候？

陈亦伦：上学时就开始了。我是物理竞赛保送清华的，但读的是电子系。后来去美国读机器学习博士时，我也很羡慕做机械专业的室友，因为他们做的东西能动，我天生喜欢 "能动" 的东西。

2007年在美国，我看到波士顿动力用液压驱动的机械狗，它在冰面上摔倒后依然能保持平衡，非常震撼。博士毕业后，我没有选择AI领域最主流的路径去一个互联网大公司，而是去了一家非常有名的机电系统公司，在那里学会了如何做电机、伺服控制和液压系统——因为当时我认为机器人应该是液压驱动的，我在第一家公司也带过液压伺服控制产品线。

所以**我的职业生涯一直有一个信念：总有一天我要做出理想中的机器人。**但作为学算法出身的人，我过去认为技术还没Ready，只能写出一些简单的程序，那不是我想要的机器人。

▍何时发现技术条件更成熟了？

陈亦伦：2020-2021年，我在华为第一次尝试端到端系统时。那时我已经在华为带团队做了2、3年研发，我们的自动驾驶系统至少有200万行代码。它虽然能工作，可以处理复杂的城市道路情况，但维护成本极高。

2020年，我和丁文超（注：它石首席科学家，曾被华为 "天才少年" 计划招募入自动驾驶部）等同事想试一下：**能不能训练一个神经网络，把这200万行代码精简掉？最终我们用3万行代码训练了一个网络，直接让网络去规划无人车的轨迹。**那就是最早的端到端自动驾驶，只不过当时我们做的是 "两段式"（注：感知环节是一个端到端网络，规控环节是另一个端到端网络）。

▍2020年开始做端到端，是受到特斯拉AI Day等行业信号的启发吗？

陈亦伦：没有，2020年的特斯拉AI Day还没讲端到端，讲的是在感知环节如何恢复3D环境，即 BEV（Bird's-Eye-View，鸟瞰视角）。对我们来说，感知是已知解，它是开放问题，有数据、有标注就能做。

我最头疼的是规控，这是一个闭环AI：你产生的每一个动作都会影响下一刻的环境。比如你选择 "加塞"，对方可能让行，也可能加速抢行。这种闭环AI怎么训练？当时没人有把握，但靠传统规则方法一个个描述corner case（极端情况），代码已经堆到了200万行，发现问题的速度已远超解决问题的速度。所以必须用新的方法。

▍具体怎么探索端到端的？

陈亦伦：我们需要大规模采集人类驾驶数据，这在之前还没人做过。我们当时调拨了约100辆车的车队，专门干这一件事。丁博（丁文超）每天在现场教司机开车，定义什么是 "好司机" 的行为。

起初没看到显著进展，但当数据积累到几千小时后，你会发现网络真的学到了东西，而且越来越厉害。 我们选了一个极难的测试场景——一个人车混行、完全非结构化的城中村，通过规则算法几乎无法通过。我们大胆用神经网络去试，原则是 "后处理越少越好"。结果车非常流畅地穿行了过去。那一刻就是我的 "GPT Moment"，我意识到AI可以做Planning了。

▍为什么这之后不久，你就离开华为，加入了清华大学智能产业研究院（清华 AIR）？当时智能驾驶正处于上量和质变的前夕。

陈亦伦：因为我一直就想做机器人，而端到端的成功让我看到了机器人加速发展的时间点就要到了，但那时我还不知道具体怎么做，所以我选择先回到学校，给自己一些研究的时间。

▍从加入清华到2024年底开始筹备它石，通用机器人的哪些变化让你觉得创业时机到了？

陈亦伦：我看到了三道曙光。一是Locomotion（运动控制）的解锁：2020年左右，ETH（苏黎世联邦理工学院）走通了一条路：用强化学习（RL）来解决机器狗的控制问题，而以前用的是非常复杂的WBC（Whole-Body Control，全身控制），机器狗动作很呆板。

这其中又有两个核心模块：一是高并发的仿真器（Simulator），仿真的计算基础从CPU到GPU的转变大幅增加了并发能力，能获得很多数据；二是缩小 "Sim-to-Real Gap"，即数字世界到到真实世界的差距。像宇树这样的硬件和运控做得很好的公司，核心能力就是用各种方法缩小这个gap，所以现在我们能看到机器人流畅地运动、跳舞。

第二道曙光是以GPT为代表的大语言模型，它提供了机器人领域以前最难的任务规划能力。 自动驾驶的任务规划相对简单，就是从A到B，而且有地图这种现成的导航数据；但机器人任务复杂得多，而且进家、进工厂都缺乏数据，而GPT则非常擅长任务规划。

三就是我自己验证过的端到端。 本质上，所有机器人任务的逻辑都是输入传感器信息和指令、输出动作。但传感器数据极高维，指令又极低维，过去堆叠二者的方式就是靠写规则。规则要穷尽自动驾驶的corner case已经很难了，在机器人上更是不可能，所以端到端能奏效这个认知非常重要。

▍自动驾驶和具身智能等物理AI领域有几个经常一起出现的概念：端到端、VLA、世界模型，你怎么理解和区分它们？

陈亦伦：端到端的本质是尽量用神经网络解决所有问题，至于底层是模仿学习还是强化学习，都是可选的方法。

VLA（Vision-Language-Action 视觉语言动作模型）则是一种神经网络，它输入视觉和语言信息、输出机器人的动作。至于中间是怎么训的，现在也有不同理解。

世界模型的定义就更多了，但从信息论角度讲很简单，就是输入此时的状态，生成下一个状态。 这个状态可以用3D信息、视频或物理交互的变化来表达，所以现在说起 "世界模型"，有人说的是3D生成、有人说的是视频生成、有人说的是理解物理交互。它的用途也千奇百怪，有的是给元宇宙或游戏做的，有的想给具身和机器人用。

▍虽然你认为一些条件更成熟了，但整个具身的进度远落后于大语言模型，瓶颈是什么？

陈亦伦：我认为AI要解决一个大型复杂问题，需要跨越三道墙。

第一道是数据墙。 只有足够的数据量才能支撑足够复杂的网络。大语言模型在这一点上是被祝福的，因为互联网上已经有海量语料，而要获得具身智能所需的数据则很难、很贵。

第二道是算力墙。 为什么不是算法呢？因为越复杂的系统，往往算法结构越简单，这才能经受住海量数据。所以进入预训练scaling阶段后，差异不在算法，而是算力比拼。

接下来，当扩大算力带来的边际效应递减或算力本身不够用之后，就会遇到第三道墙，进入后训练。这时不能再靠堆资源，而是要针对具体问题找到精妙的解法，这会是一个很有创造力的阶段。

现在，大语言模型和自动驾驶都已经过了第二阶段，而具身智能还在第一道墙下，就是数据。**具身智能目前的核心痛点就是如何低成本、大规模地获得高质量数据。**一旦数据问题解决，行业会收到一波巨大的红利，智能能力会突飞猛进。

▍听起来你并不担心具身智能的算法和模型该怎么设计？

陈亦伦：首先，缺乏数据时，你对算法是无能为力的。同时，神经网络的算法和传统算法也不太一样。传统算法要仔细推敲怎么设计，而神经网络本质是一个函数，最重要的是定义输入和输出，其他很多设计不在算法本身，而在算法之外：比如如何最大化利用算力，如何尽可能降低获取数据的成本。

▍但是我们看大语言模型的发展，互联网海量数据早就存在，而直到Transformer这种模型架构出现，后来又从BERT发展到GPT，整个领域才有大的转折。（注：BERT和GPT都是Transformer架构的大语言模型，BERT有编码器和解码器，GPT结构更简单，只有解码器。）

陈亦伦：我认为GPT最伟大的不是架构本身，而是想出了next-token-prediction这个训练任务。

其实很早时，在OpenAI和特斯拉都工作过的Andrej Karpathy就写过一篇著名的技术博客，叫《循环神经网络（RNN）的惊人效果》（The Unreasonable Effectiveness of Recurrent Neural Networks，发表于2015年）。他展示了让一个不大的RNN模型不停预测下一个character，它竟能写诗、写代码。我那时看到的第一反应就是：能不能把这套逻辑用在自动驾驶上？这种通过简单任务训练出复杂能力的想法确实了不起。

▍当时都还没有Transformer（注：最早在2017年被提出）。

陈亦伦：对，所以关于模型架构，还是我前面说的——重剑无锋、大巧不工，越复杂的任务、越海量的数据，网络结构反而要越简单、越返璞归真。

GPT就是这样，在小数据集上没有明显优势，但有了更大的数据后，大家都不约而同地走向了它。

▍如果大语言模型的成功是定义了 "预测下一个token" 这个目标。那么在具身智能领域，好的训练目标是什么？

陈亦伦：这是一个特别好的问题。自动驾驶领域对具身智能有两个非常棒的启发：一是2020年特斯拉AI Day上提出的BEV（鸟瞰视野），本质就是一层空间重建。现在有很多人通过VLA做端到端，但再怎么引入语言，也逃不掉空间重建。

其实从更本质的角度去想，什么表达是更好的？**最经典的物理表达就是最好的。**你可以用图像去理解世界，每个像素都是一个色彩值，这样从不同角度去看一个物理实体，会有多种组合，但其实它还是同一个实体，它有时空概念，占据了一定的时间、空间；然后当它运动，它有力学的概念，力学会指引它下一刻变成什么状态。这种物理表达远比RGB要精简得多，因为它更本质。如果能让神经网络学到这些物理的东西，很多任务都会变得非常容易。

这（空间重建）是Physical AI（物理 AI）独有的，跟大语言模型没关系。

然后第二类要训练的目标是和世界的交互。这一点机器人比自动驾驶难，因为自动驾驶是一个不碰撞系统，而机器人是一个接触物体的系统，它会对操作对象施加力，比如操作布料、线束等柔性物体就很难。

▍所以很多具身智能公司会用叠衣服、团袜子、整理餐巾纸来证明自己的技术实力，你们也展示了刺绣。

陈亦伦：是的。如果只是把刚性物体，比如金属零件整齐地抓取、放置，这早解决了。这一代机器人的使命就是要完成上一代技术做不了的任务。

它石机器人展示刺绣它石Logo

▍总结一下，你认为具身的两个重要训练目标是空间重建和与世界的交互。那如果真做到了这些，会看到具身领域像大语言模型那样出现何种智能涌现？

陈亦伦：**涌现的本质是内插。**大语言模型看起来聪明，是因为面对一个prompt，它在海量数据中回溯到了相似的片段并生成了新组合，并不是 "真的懂了"。具身智能现在也一样，但已能展现惊人的效果。

▍表面的 "涌现" 并不是真的泛化？

陈亦伦：这套方法论是泛化的。虽然预训练本身不是让模型 "真的懂和理解"，但可以通过补充数据增强一个垂直领域的能力。比如大语言模型的一个落地方向是 coding，那就要给它各种代码的数据。FSD也是一个例子，它在美国跑得很好，但到了中国、日本等其他地区不能马上开得很好，但可以通过扩展相对少的本地数据提升表现。

机器人也是同理，当基座模型的能力越来越强，就可以通过补充特定任务的数据来适应多样的任务。这个部署时补充的数据量不需要那么大。

▍这套方法也许能实现一些场景的商业应用，但它还是不能像人那样快速学习新任务。

陈亦伦：你说的对，现在这套方法还是相对heavy，本质是疯狂的数据生成器和数据模拟器。而人会主动靠自己的一些先验判断高效地找到需要的数据，并吸收和学习。比如Ilya最近分享过，人依靠某种机制，可以在开始一个任务之前或做到中途时就想象结果、获得反馈，这可能通过情绪起作用的，比如我们开始一件事之前，往往就有畏惧或兴奋，而机器的强化学习不是这样，它要遍历所有可能的解，在完成一个任务后，才能得到reward。（注：Ilya是OpenAI前首席科学家和Safe Superintelligence的创始人，2025年11月，Ilya接受Dwarkesh访谈时提及了这个想法。）

所以如果真能解决这个问题（像人那样学习新任务）将是非常非常重大的影响力，让 AI 学习效率翻很多倍。但在目前阶段，大家找到能展现强大效果的东西，依然是这套数据生成和拟合方法。

▍来讲讲它石是具体怎么做数据和模型的吧。你们发布的 "Human-centric"数据引擎，是一对轻量化的手套加第一视角摄像机构成的采集设备，让人戴着它们去工作。为什么想到这种方法？

陈亦伦：我是把数据问题想明白才创业的。2024年的第一份BP里就写了现在的思路，但饱受质疑。因为当时特斯拉Optimus和Physical Intelligence等都在用遥操作——即由人操控机器人采集全量数据。但它又贵又慢，很难达到具身数据的基础规模。

它石自研数据采集套件 SenseHub，采集设备由手套（有五指手套和两指手套两个版本）、第一视角摄像机组成

▍具身数据的基础规模是多少？

陈亦伦：1000万小时或更多。 自动驾驶系统要做到持续可用，需要约100万小时的数据；具身智能的复杂度更高，数据量也多一个数量级。

▍仿真或者从视频数据里学习，是否也能低成本、大规模地获取数据吗？这也是一些公司的选择，如银河、Hillbot都侧重仿真数据。

陈亦伦：这都是我们过去踩过的坑。

先说互联网视频数据。做自动驾驶时，我们就扒过很多Youtube的行车视频。但一是，它的量其实没那么大，二是大量这类视频是车在正常行驶，并不匹配我们要解决的驾驶问题，不能建立 "指令-动作" 的映射。所以很多这个方向的团队后来也弃坑了。这在机器人上也是一样的。

仿真能把图像渲染得很逼真，可以解决感知，但对精细操作的用处不大。唯一的例外是Locomotion（运动控制）仿真，因为它不需要关心复杂的环境。

▍所以除了数据量，想清楚什么类型的数据有用也很关键。

陈亦伦：对，数据在具身领域是第一性的，后面要做什么算法，也要匹配数据类型。

总体来说，具身数据有两种来源：一是从人身上来，一是从世界来。从人身上来，更直接、更快。而能记录人的行为的数据，本质就是传感器数据，于是问题就变成了：应该怎么设计传感器，才能自然、低成本、大规模地拿到人的行为数据？而且这些数据应该是人在真实场景里的真实动作的数据。

▍遥操虽然贵，但它是真机数据，不也是真实场景、真实动作吗？

陈亦伦：其实遥操大部分情况下做不到真实场景，因为遥操的机器人现在无法像人那样灵活的工作，还会干扰别人干活，所以它很难进到真实的工厂、咖啡馆或家庭。

遥操的动作也不够真实，因为操作员要一会儿做这类任务，一会儿做那类任务，并不能像这些场景的专业劳动者那样去工作。

▍你怎么看有公司做了大规模的数采工厂，生产大量机器人，然后用遥操来采集数据？

陈亦伦：当年自动驾驶，也有人花巨资修测试场，模拟各种道路环境，看起来像个小世界。但在这里疯狂开车训练出来的神经网络并不能直接上路。

具身也一样：如果一个机器人只在人为设计的环境里运行，它脱离了这个环境就会出问题。

▍你们这套数据采集方法有什么缺陷吗？

陈亦伦：我们这套采集方法效率更高、数据更真实、更容易规模化，在架构和功能设计上没有发现缺陷，但是对于AI能力的要求更高。

▍它石现在实际的采集量级和增速如何？

陈亦伦：非常快。**我们从2025年8、9月开始大规模采集，目前已有约10万小时数据。**我们用了很多方法压缩成本，现在可以开始scale了，明年数据量会暴涨很多倍。

▍成本有多低？比遥操能低多少？

陈亦伦：至少低两个数量级（即 1/100）。遥操作需要弄一堆昂贵的机器人放在那儿，动作慢、成功率低，还要额外雇操作员花钱采数据。而我们这种方式可以跟场景方合作，让劳动者戴上手套工作，不干扰生产。我们最大的成本其实在算力上，以及要建立一套把原始数据变成训练神经网络所需的数据的pipeline。

超市工作人员佩戴它石自研数采设备理货时获得的数据

▍通过它石这套可穿戴设备，可以采集到什么维度的数据？

陈亦伦：就是全信息地刻画手的动作，包括手在空间中的位姿，即位置和姿态；每个手指的位姿；和动作时施加给对象的力。

▍不需要额外戴传感器在手臂上采集臂的动作吗？

陈亦伦：不需要。我们追求的是尽量让人无感的被动采集，手套要轻、要无线。

▍位姿是靠同时戴着的第一视角的摄像机来获取的吗？

陈亦伦：不是简单靠视觉。比如人叠被子时，手是在被子里的，你看不到自己的手在哪儿，但也能完成工作。总之，我们有一系列的设计，这也是为什么我们要自己做硬件。

▍之前市面上没有现成可用的手套采集设备吗？

陈亦伦：机器人领域没有。其他领域有一些看起来类似的，但都不是为具身智能设计的。比如VR操作手柄，主要依靠眼镜上的摄像头定位。但这种数据对具身来说质量不够，它缺少深度信息，也无法在昏暗光源下工作。电影行业的动捕手套则精度不够。

▍Sunday Robotics在2025年11月发布了skill capture glove（技能捕捉手套），这和你们方法的异同是什么？

陈亦伦：首先做不做手套，涉及对机器人操作终态的设想。我是灵巧手的坚定拥护者，我认为终态的操作终端一定是灵巧手，所以要给他找一个匹配的传感器，也就是手套。而且手套非常容易泛化，可以做各种任务、采集多样的数据。

这个思路下，现在不同团队的实现程度不同，因为手套的工业设计很难。我们是做了能采集全量信息的五指手套。Sunday是做了一个三指手套，这是一个自由度更低的降维版。更简单的做法是让人拿着一个夹具去操作任务。

▍有投资人认为，中国虽然具身智能公司很多，但没什么引领性贡献，比如VLA模型是Google RT-2开启的，用可穿戴手套采集数据的做法也被认为是Sunday等美国团队引领的。

陈亦伦：**大家还是要对中国技术有信心。**我有很多在美国从事机器人行业的朋友，他们现在看到中国的进展压力很大。

因为具身是硬件、数据和算法间的紧密交织，你想做很好的模型，就得知道要哪些数据、用什么传感器、怎么采集，将来要用在什么执行器上。中国有强大的工业制造能力，也有这么多AI人才和工程师，可以更好整合这些要素，协同优化。在具身智能时代，美国创业者不会是中国创业者的对手。

▍你们的模型叫AWE，AI World Engine，即AI世界引擎，听起来它不是行业主流选择的VLA（视觉-语言-动作）模型。

陈亦伦：对。AWE首先追求的是对物理世界的深度表达。**我们投入最多的算力去记录时间、空间、力等物理量或者说 "世界信息"，而不是像VLM那样做 "视网膜式" 的表达。**这些世界信息还记录机器人怎么跟物体交互，比如挤压一个物体，它会怎么反馈。

第二是，为什么把它叫引擎？其实也可以说是模型。但引擎是想强调，它是动态演化的，当机器人的action改变后，它能预测世界接下来的状态，并推荐机器人下一步应如何操作。

▍为什么不做更主流的VLA？

陈亦伦：创业前我就想过，机器人行业是否值得拥有自己的基础模型？如果认为机器人模型只是在VLM多模态大模型上长出一个解决动作（action）的 "头"，那机器人就只是其他行业的下游分支，这个行业就不能独立存在。

▍目前的VLA的主流做法，简单说，就是先用LLM得到VLM（视觉-语言模型），再在VLM基础上做VLA。

陈亦伦：对，我非常不认同这么做。目前的多模态模型大多是 "看图说话" 的问答数据支撑的。**仅靠看图说话，不可能让机器人知道在世界上如何做事。**机器人领域一定会有一套自己的模型。

▍现在很多具身从业者会说，具身智能还没有找到自己的 "Scaling Law"，首先你怎么看这种评价？以及你觉得它什么时候会来？

陈亦伦：我觉得具身已经在scaling了。大家一般看scaling有两种判断依据，一是性能是否已经达到某个状态，二是看增长趋势。如果看趋势，毫无疑问现在就是scaling状态，但明显表现在模型性能能上，还需要时间。

Scaling Law之所以启动比较慢，是因为前面提到的，它要按照顺序经历数据墙、算力墙还有跟环境的交互。在25年，具身行业都在认真搞数据，到27年甚至26年，一定会有效果。

▍到时会有什么早期信号？

陈亦伦：行业从刷视频demo，转向解决垂直领域的具体问题。整个行业的信心指数会不断上升。为数不多的团队可以在一些具体场景上真的做出价值，比如有大客户的真实采购；行业平均上可以展示出更强的具身智能能力。

▍它石会重点落地的场景是什么？

陈亦伦：消费级市场还需要时间。第一波我们会进入工业制造，比如线束（Wire Harness）装配。只要有电的地方就有线，汽车、家电、服务器里全是线。理线、插拔、装配对传统机器人来说太难了，因为线束是立体的、柔性的，而这种高技术门槛的领域正是我们的机会。

▍最后一个问题，现在具身领域有这么多公司，如何判断谁是靠谱的？

陈亦伦：**每个人可能都是靠谱的，关键看他有没有想清楚自己要成为谁。**我们很明确自己要做什么，所以我们会按照正确的方式一直跑下去。

本文经授权转自《晚点AI》，作者：程曼祺**，编辑：宋玮

原标题《对话它石智航陈亦伦：不做 VLA，不仿真，一家具身智能公司的非主流判断》