具身领域每家公司可能都是靠谱的,关键看是否想清楚自己要成为谁 | Linear Voice

线性资本·2026年2月2日

具身数据基础规模是1000万小时或更多。

2024年11月,华为车BU前首席科学家陈亦伦投身具身智能创业。不久后,「它石智航」浮出水面——由陈亦伦和百度前自动驾驶事业部负责人李震宇等联合创立。

成立不足半年,它石先后完成1.2亿美元和1.22亿美元的天使轮与天使+轮融资,创下中国具身智能领域天使轮融资纪录。线性资本作为其最早轮次投资方,连续两轮下注支持。

近期,在与《晚点》的对话中,陈亦伦分享了许多看似"离经叛道"的路线选择与背后的技术思考。以市场关注的具身数据为例,他认为所需要的数据基础规模1000万小时或更多。以下是陈亦伦博士与晚点的精彩对话。

「它石智航」自成立以来,便为市场所热烈关注。

近期,在与《晚点》的对话中,其创始人陈亦伦却展现了略显"离经叛道"的技术思考,分享了很多反主流的判断。例如:

  • 他认为当前具身模型的主流架构VLA(视觉-语言-动作)模型是 "视网膜信息",但它石则开发了AWE(AI World Engine),追求表达时间、空间、力和环境交互等物理量和 "世界信息"。
  • VLA的主流做法是从LLM(大语言模型)得到 VLM(视觉-语言模型),再在 VLM 基础上训VLA。陈亦伦对此却非常不认同,他认为具身一定会有自己的独立模型,而不是在VLM上长出一个动作的 "头"。
  • 当数据是具身智能当前的核心卡点时,陈亦伦在创业之初也没有做遥操作数据采集,而是选择自研了采集数据的可穿戴设备。

敢和其他人不一样,可能来自他最早尝试自动驾驶端到端的切身经验。曾有业内人士告诉《晚点》,在华为期间曝光度不高的陈亦伦是华为智能驾驶研发团队的技术 "灵魂人物"。

这也带来疑问:**智驾的技术演进过程,会在具身智能上押韵吗?**二者都属于物理AI范畴,但大语言模型带来了全新的技术环境。这个问题没有现成回答,取决于不同从业者的不同bet。陈亦伦讲述了他的bet。

▍你在大疆和华为做过无人机与无人车,这都属于机器人的分支,最早关注机器人是什么时候?

陈亦伦:上学时就开始了。我是物理竞赛保送清华的,但读的是电子系。后来去美国读机器学习博士时,我也很羡慕做机械专业的室友,因为他们做的东西能动,我天生喜欢 "能动" 的东西。

2007年在美国,我看到波士顿动力用液压驱动的机械狗,它在冰面上摔倒后依然能保持平衡,非常震撼。博士毕业后,我没有选择AI领域最主流的路径去一个互联网大公司,而是去了一家非常有名的机电系统公司,在那里学会了如何做电机、伺服控制和液压系统——因为当时我认为机器人应该是液压驱动的,我在第一家公司也带过液压伺服控制产品线。

所以**我的职业生涯一直有一个信念:总有一天我要做出理想中的机器人。**但作为学算法出身的人,我过去认为技术还没Ready,只能写出一些简单的程序,那不是我想要的机器人。

▍何时发现技术条件更成熟了?

陈亦伦:2020-2021年,我在华为第一次尝试端到端系统时。那时我已经在华为带团队做了2、3年研发,我们的自动驾驶系统至少有200万行代码。它虽然能工作,可以处理复杂的城市道路情况,但维护成本极高。

2020年,我和丁文超(注:它石首席科学家,曾被华为 "天才少年" 计划招募入自动驾驶部)等同事想试一下:**能不能训练一个神经网络,把这200万行代码精简掉?最终我们用3万行代码训练了一个网络,直接让网络去规划无人车的轨迹。**那就是最早的端到端自动驾驶,只不过当时我们做的是 "两段式"(注:感知环节是一个端到端网络,规控环节是另一个端到端网络)。

▍2020年开始做端到端,是受到特斯拉AI Day等行业信号的启发吗?

陈亦伦:没有,2020年的特斯拉AI Day还没讲端到端,讲的是在感知环节如何恢复3D环境,即 BEV(Bird's-Eye-View,鸟瞰视角)。对我们来说,感知是已知解,它是开放问题,有数据、有标注就能做。

我最头疼的是规控,这是一个闭环AI:你产生的每一个动作都会影响下一刻的环境。比如你选择 "加塞",对方可能让行,也可能加速抢行。这种闭环AI怎么训练?当时没人有把握,但靠传统规则方法一个个描述corner case(极端情况),代码已经堆到了200万行,发现问题的速度已远超解决问题的速度。所以必须用新的方法。

▍具体怎么探索端到端的?

陈亦伦:我们需要大规模采集人类驾驶数据,这在之前还没人做过。我们当时调拨了约100辆车的车队,专门干这一件事。丁博(丁文超)每天在现场教司机开车,定义什么是 "好司机" 的行为。

起初没看到显著进展,但当数据积累到几千小时后,你会发现网络真的学到了东西,而且越来越厉害。 我们选了一个极难的测试场景——一个人车混行、完全非结构化的城中村,通过规则算法几乎无法通过。我们大胆用神经网络去试,原则是 "后处理越少越好"。结果车非常流畅地穿行了过去。那一刻就是我的 "GPT Moment",我意识到AI可以做Planning了。

▍为什么这之后不久,你就离开华为,加入了清华大学智能产业研究院(清华 AIR)?当时智能驾驶正处于上量和质变的前夕。

陈亦伦:因为我一直就想做机器人,而端到端的成功让我看到了机器人加速发展的时间点就要到了,但那时我还不知道具体怎么做,所以我选择先回到学校,给自己一些研究的时间。

▍从加入清华到2024年底开始筹备它石,通用机器人的哪些变化让你觉得创业时机到了?

陈亦伦:我看到了三道曙光。一是Locomotion(运动控制)的解锁:2020年左右,ETH(苏黎世联邦理工学院)走通了一条路:用强化学习(RL)来解决机器狗的控制问题,而以前用的是非常复杂的WBC(Whole-Body Control,全身控制),机器狗动作很呆板。

这其中又有两个核心模块:一是高并发的仿真器(Simulator),仿真的计算基础从CPU到GPU的转变大幅增加了并发能力,能获得很多数据;二是缩小 "Sim-to-Real Gap",即数字世界到到真实世界的差距。像宇树这样的硬件和运控做得很好的公司,核心能力就是用各种方法缩小这个gap,所以现在我们能看到机器人流畅地运动、跳舞。

第二道曙光是以GPT为代表的大语言模型,它提供了机器人领域以前最难的任务规划能力。 自动驾驶的任务规划相对简单,就是从A到B,而且有地图这种现成的导航数据;但机器人任务复杂得多,而且进家、进工厂都缺乏数据,而GPT则非常擅长任务规划。

三就是我自己验证过的端到端。 本质上,所有机器人任务的逻辑都是输入传感器信息和指令、输出动作。但传感器数据极高维,指令又极低维,过去堆叠二者的方式就是靠写规则。规则要穷尽自动驾驶的corner case已经很难了,在机器人上更是不可能,所以端到端能奏效这个认知非常重要。

▍自动驾驶和具身智能等物理AI领域有几个经常一起出现的概念:端到端、VLA、世界模型,你怎么理解和区分它们?

陈亦伦:端到端的本质是尽量用神经网络解决所有问题,至于底层是模仿学习还是强化学习,都是可选的方法。

VLA(Vision-Language-Action 视觉语言动作模型) 则是一种神经网络,它输入视觉和语言信息、输出机器人的动作。至于中间是怎么训的,现在也有不同理解。

世界模型的定义就更多了,但从信息论角度讲很简单,就是输入此时的状态,生成下一个状态。 这个状态可以用3D信息、视频或物理交互的变化来表达,所以现在说起 "世界模型",有人说的是3D生成、有人说的是视频生成、有人说的是理解物理交互。它的用途也千奇百怪,有的是给元宇宙或游戏做的,有的想给具身和机器人用。

▍虽然你认为一些条件更成熟了,但整个具身的进度远落后于大语言模型,瓶颈是什么?

陈亦伦:我认为AI要解决一个大型复杂问题,需要跨越三道墙。

第一道是数据墙。 只有足够的数据量才能支撑足够复杂的网络。大语言模型在这一点上是被祝福的,因为互联网上已经有海量语料,而要获得具身智能所需的数据则很难、很贵。

第二道是算力墙。 为什么不是算法呢?因为越复杂的系统,往往算法结构越简单,这才能经受住海量数据。所以进入预训练scaling阶段后,差异不在算法,而是算力比拼。

接下来,当扩大算力带来的边际效应递减或算力本身不够用之后,就会遇到第三道墙,进入后训练。这时不能再靠堆资源,而是要针对具体问题找到精妙的解法,这会是一个很有创造力的阶段。

现在,大语言模型和自动驾驶都已经过了第二阶段,而具身智能还在第一道墙下,就是数据。**具身智能目前的核心痛点就是如何低成本、大规模地获得高质量数据。**一旦数据问题解决,行业会收到一波巨大的红利,智能能力会突飞猛进。

▍听起来你并不担心具身智能的算法和模型该怎么设计?

陈亦伦:首先,缺乏数据时,你对算法是无能为力的。同时,神经网络的算法和传统算法也不太一样。传统算法要仔细推敲怎么设计,而神经网络本质是一个函数,最重要的是定义输入和输出,其他很多设计不在算法本身,而在算法之外:比如如何最大化利用算力,如何尽可能降低获取数据的成本。

▍但是我们看大语言模型的发展,互联网海量数据早就存在,而直到Transformer这种模型架构出现,后来又从BERT发展到GPT,整个领域才有大的转折。(注:BERT和GPT都是Transformer架构的大语言模型,BERT有编码器和解码器,GPT结构更简单,只有解码器。)

陈亦伦:我认为GPT最伟大的不是架构本身,而是想出了next-token-prediction这个训练任务。

其实很早时,在OpenAI和特斯拉都工作过的Andrej Karpathy就写过一篇著名的技术博客,叫《循环神经网络(RNN)的惊人效果》(The Unreasonable Effectiveness of Recurrent Neural Networks,发表于2015年)。他展示了让一个不大的RNN模型不停预测下一个character,它竟能写诗、写代码。我那时看到的第一反应就是:能不能把这套逻辑用在自动驾驶上?这种通过简单任务训练出复杂能力的想法确实了不起。

▍当时都还没有Transformer(注:最早在2017年被提出)。

陈亦伦:对,所以关于模型架构,还是我前面说的——重剑无锋、大巧不工,越复杂的任务、越海量的数据,网络结构反而要越简单、越返璞归真。

GPT就是这样,在小数据集上没有明显优势,但有了更大的数据后,大家都不约而同地走向了它。

▍如果大语言模型的成功是定义了 "预测下一个token" 这个目标。那么在具身智能领域,好的训练目标是什么?

陈亦伦:这是一个特别好的问题。自动驾驶领域对具身智能有两个非常棒的启发:一是2020年特斯拉AI Day上提出的BEV(鸟瞰视野),本质就是一层空间重建。现在有很多人通过VLA做端到端,但再怎么引入语言,也逃不掉空间重建。

其实从更本质的角度去想,什么表达是更好的?**最经典的物理表达就是最好的。**你可以用图像去理解世界,每个像素都是一个色彩值,这样从不同角度去看一个物理实体,会有多种组合,但其实它还是同一个实体,它有时空概念,占据了一定的时间、空间;然后当它运动,它有力学的概念,力学会指引它下一刻变成什么状态。这种物理表达远比RGB要精简得多,因为它更本质。如果能让神经网络学到这些物理的东西,很多任务都会变得非常容易。

这(空间重建)是Physical AI(物理 AI)独有的,跟大语言模型没关系。

然后第二类要训练的目标是和世界的交互。这一点机器人比自动驾驶难,因为自动驾驶是一个不碰撞系统,而机器人是一个接触物体的系统,它会对操作对象施加力,比如操作布料、线束等柔性物体就很难。

▍所以很多具身智能公司会用叠衣服、团袜子、整理餐巾纸来证明自己的技术实力,你们也展示了刺绣。

陈亦伦:是的。如果只是把刚性物体,比如金属零件整齐地抓取、放置,这早解决了。这一代机器人的使命就是要完成上一代技术做不了的任务。

它石机器人展示刺绣它石Logo

▍总结一下,你认为具身的两个重要训练目标是空间重建和与世界的交互。那如果真做到了这些,会看到具身领域像大语言模型那样出现何种智能涌现?

陈亦伦:**涌现的本质是内插。**大语言模型看起来聪明,是因为面对一个prompt,它在海量数据中回溯到了相似的片段并生成了新组合,并不是 "真的懂了"。具身智能现在也一样,但已能展现惊人的效果。

▍表面的 "涌现" 并不是真的泛化?

陈亦伦:这套方法论是泛化的。虽然预训练本身不是让模型 "真的懂和理解",但可以通过补充数据增强一个垂直领域的能力。比如大语言模型的一个落地方向是 coding,那就要给它各种代码的数据。FSD也是一个例子,它在美国跑得很好,但到了中国、日本等其他地区不能马上开得很好,但可以通过扩展相对少的本地数据提升表现。

机器人也是同理,当基座模型的能力越来越强,就可以通过补充特定任务的数据来适应多样的任务。这个部署时补充的数据量不需要那么大。

▍这套方法也许能实现一些场景的商业应用,但它还是不能像人那样快速学习新任务。

陈亦伦:你说的对,现在这套方法还是相对heavy,本质是疯狂的数据生成器和数据模拟器。而人会主动靠自己的一些先验判断高效地找到需要的数据,并吸收和学习。比如Ilya最近分享过,人依靠某种机制,可以在开始一个任务之前或做到中途时就想象结果、获得反馈,这可能通过情绪起作用的,比如我们开始一件事之前,往往就有畏惧或兴奋,而机器的强化学习不是这样,它要遍历所有可能的解,在完成一个任务后,才能得到reward。(注:Ilya是OpenAI前首席科学家和Safe Superintelligence的创始人,2025年11月,Ilya接受Dwarkesh访谈时提及了这个想法。)

所以如果真能解决这个问题(像人那样学习新任务)将是非常非常重大的影响力,让 AI 学习效率翻很多倍。但在目前阶段,大家找到能展现强大效果的东西,依然是这套数据生成和拟合方法。

▍来讲讲它石是具体怎么做数据和模型的吧。你们发布的 "Human-centric"数据引擎,是一对轻量化的手套加第一视角摄像机构成的采集设备,让人戴着它们去工作。为什么想到这种方法?

陈亦伦:我是把数据问题想明白才创业的。2024年的第一份BP里就写了现在的思路,但饱受质疑。因为当时特斯拉Optimus和Physical Intelligence等都在用遥操作——即由人操控机器人采集全量数据。但它又贵又慢,很难达到具身数据的基础规模。

它石自研数据采集套件 SenseHub,采集设备由手套(有五指手套和两指手套两个版本)、第一视角摄像机组成

▍具身数据的基础规模是多少?

陈亦伦:1000万小时或更多。 自动驾驶系统要做到持续可用,需要约100万小时的数据;具身智能的复杂度更高,数据量也多一个数量级。

▍仿真或者从视频数据里学习,是否也能低成本、大规模地获取数据吗?这也是一些公司的选择,如银河、Hillbot都侧重仿真数据。

陈亦伦:这都是我们过去踩过的坑。

先说互联网视频数据。做自动驾驶时,我们就扒过很多Youtube的行车视频。但一是,它的量其实没那么大,二是大量这类视频是车在正常行驶,并不匹配我们要解决的驾驶问题,不能建立 "指令-动作" 的映射。所以很多这个方向的团队后来也弃坑了。这在机器人上也是一样的。

仿真能把图像渲染得很逼真,可以解决感知,但对精细操作的用处不大。唯一的例外是Locomotion(运动控制) 仿真,因为它不需要关心复杂的环境。

▍所以除了数据量,想清楚什么类型的数据有用也很关键。

陈亦伦:对,数据在具身领域是第一性的,后面要做什么算法,也要匹配数据类型。

总体来说,具身数据有两种来源:一是从人身上来,一是从世界来。从人身上来,更直接、更快。而能记录人的行为的数据,本质就是传感器数据,于是问题就变成了:应该怎么设计传感器,才能自然、低成本、大规模地拿到人的行为数据?而且这些数据应该是人在真实场景里的真实动作的数据。

▍遥操虽然贵,但它是真机数据,不也是真实场景、真实动作吗?

陈亦伦:其实遥操大部分情况下做不到真实场景,因为遥操的机器人现在无法像人那样灵活的工作,还会干扰别人干活,所以它很难进到真实的工厂、咖啡馆或家庭。

遥操的动作也不够真实,因为操作员要一会儿做这类任务,一会儿做那类任务,并不能像这些场景的专业劳动者那样去工作。

▍你怎么看有公司做了大规模的数采工厂,生产大量机器人,然后用遥操来采集数据?

陈亦伦:当年自动驾驶,也有人花巨资修测试场,模拟各种道路环境,看起来像个小世界。但在这里疯狂开车训练出来的神经网络并不能直接上路。

具身也一样:如果一个机器人只在人为设计的环境里运行,它脱离了这个环境就会出问题。

▍你们这套数据采集方法有什么缺陷吗?

陈亦伦:我们这套采集方法效率更高、数据更真实、更容易规模化,在架构和功能设计上没有发现缺陷,但是对于AI能力的要求更高。

▍它石现在实际的采集量级和增速如何?

陈亦伦:非常快。**我们从2025年8、9月开始大规模采集,目前已有约10万小时数据。**我们用了很多方法压缩成本,现在可以开始scale了,明年数据量会暴涨很多倍。

▍成本有多低?比遥操能低多少?

陈亦伦:至少低两个数量级(即 1/100)。遥操作需要弄一堆昂贵的机器人放在那儿,动作慢、成功率低,还要额外雇操作员花钱采数据。而我们这种方式可以跟场景方合作,让劳动者戴上手套工作,不干扰生产。我们最大的成本其实在算力上,以及要建立一套把原始数据变成训练神经网络所需的数据的pipeline。

超市工作人员佩戴它石自研数采设备理货时获得的数据

▍通过它石这套可穿戴设备,可以采集到什么维度的数据?

陈亦伦:就是全信息地刻画手的动作,包括手在空间中的位姿,即位置和姿态;每个手指的位姿;和动作时施加给对象的力。

▍不需要额外戴传感器在手臂上采集臂的动作吗?

陈亦伦:不需要。我们追求的是尽量让人无感的被动采集,手套要轻、要无线。

▍位姿是靠同时戴着的第一视角的摄像机来获取的吗?

陈亦伦:不是简单靠视觉。比如人叠被子时,手是在被子里的,你看不到自己的手在哪儿,但也能完成工作。总之,我们有一系列的设计,这也是为什么我们要自己做硬件。

▍之前市面上没有现成可用的手套采集设备吗?

陈亦伦:机器人领域没有。其他领域有一些看起来类似的,但都不是为具身智能设计的。比如VR操作手柄,主要依靠眼镜上的摄像头定位。但这种数据对具身来说质量不够,它缺少深度信息,也无法在昏暗光源下工作。电影行业的动捕手套则精度不够。

▍Sunday Robotics在2025年11月发布了skill capture glove(技能捕捉手套),这和你们方法的异同是什么?

陈亦伦:首先做不做手套,涉及对机器人操作终态的设想。我是灵巧手的坚定拥护者,我认为终态的操作终端一定是灵巧手,所以要给他找一个匹配的传感器,也就是手套。而且手套非常容易泛化,可以做各种任务、采集多样的数据。

这个思路下,现在不同团队的实现程度不同,因为手套的工业设计很难。我们是做了能采集全量信息的五指手套。Sunday是做了一个三指手套,这是一个自由度更低的降维版。更简单的做法是让人拿着一个夹具去操作任务。

▍有投资人认为,中国虽然具身智能公司很多,但没什么引领性贡献,比如VLA模型是Google RT-2开启的,用可穿戴手套采集数据的做法也被认为是Sunday等美国团队引领的。

陈亦伦:**大家还是要对中国技术有信心。**我有很多在美国从事机器人行业的朋友,他们现在看到中国的进展压力很大。

因为具身是硬件、数据和算法间的紧密交织,你想做很好的模型,就得知道要哪些数据、用什么传感器、怎么采集,将来要用在什么执行器上。中国有强大的工业制造能力,也有这么多AI人才和工程师,可以更好整合这些要素,协同优化。在具身智能时代,美国创业者不会是中国创业者的对手。

▍你们的模型叫AWE,AI World Engine,即AI世界引擎,听起来它不是行业主流选择的VLA(视觉-语言-动作)模型。

陈亦伦:对。AWE首先追求的是对物理世界的深度表达。**我们投入最多的算力去记录时间、空间、力等物理量或者说 "世界信息",而不是像VLM那样做 "视网膜式" 的表达。**这些世界信息还记录机器人怎么跟物体交互,比如挤压一个物体,它会怎么反馈。

第二是,为什么把它叫引擎?其实也可以说是模型。但引擎是想强调,它是动态演化的,当机器人的action改变后,它能预测世界接下来的状态,并推荐机器人下一步应如何操作。

▍为什么不做更主流的VLA?

陈亦伦:创业前我就想过,机器人行业是否值得拥有自己的基础模型?如果认为机器人模型只是在VLM多模态大模型上长出一个解决动作(action)的 "头",那机器人就只是其他行业的下游分支,这个行业就不能独立存在。

▍目前的VLA的主流做法,简单说,就是先用LLM得到VLM(视觉-语言模型),再在VLM基础上做VLA。

陈亦伦:对,我非常不认同这么做。目前的多模态模型大多是 "看图说话" 的问答数据支撑的。**仅靠看图说话,不可能让机器人知道在世界上如何做事。**机器人领域一定会有一套自己的模型。

▍现在很多具身从业者会说,具身智能还没有找到自己的 "Scaling Law",首先你怎么看这种评价?以及你觉得它什么时候会来?

陈亦伦:我觉得具身已经在scaling了。大家一般看scaling有两种判断依据,一是性能是否已经达到某个状态,二是看增长趋势。如果看趋势,毫无疑问现在就是scaling状态,但明显表现在模型性能能上,还需要时间。

Scaling Law之所以启动比较慢,是因为前面提到的,它要按照顺序经历数据墙、算力墙还有跟环境的交互。在25年,具身行业都在认真搞数据,到27年甚至26年,一定会有效果。

▍到时会有什么早期信号?

陈亦伦:行业从刷视频demo,转向解决垂直领域的具体问题。整个行业的信心指数会不断上升。为数不多的团队可以在一些具体场景上真的做出价值,比如有大客户的真实采购;行业平均上可以展示出更强的具身智能能力。

▍它石会重点落地的场景是什么?

陈亦伦:消费级市场还需要时间。第一波我们会进入工业制造,比如线束(Wire Harness)装配。只要有电的地方就有线,汽车、家电、服务器里全是线。理线、插拔、装配对传统机器人来说太难了,因为线束是立体的、柔性的,而这种高技术门槛的领域正是我们的机会。

▍最后一个问题,现在具身领域有这么多公司,如何判断谁是靠谱的?

陈亦伦:**每个人可能都是靠谱的,关键看他有没有想清楚自己要成为谁。**我们很明确自己要做什么,所以我们会按照正确的方式一直跑下去。

本文经授权转自《晚点AI》,作者:程曼祺**,编辑:宋玮

原标题《对话它石智航陈亦伦:不做 VLA,不仿真,一家具身智能公司的非主流判断》