云启x清华 | 5位具身智能“顶流”,聊Physical AI和落地

云启资本·2026年4月6日

探寻具身智能落地的胜负手

具身智能落地,真正的胜负手会落在哪里? 答案正在一线头部玩家的探索中显现。

3 月 28 日,由清华大学电子工程系、清华校友总会电子工程系分会与张江高科联合主办的**"浦江智涌,AI无界——Physical AI前沿探索与产业创新研讨会暨第二十八届系友论坛"**圆满落幕,云启参与协办。

其中,清华大学电子工程系教授汪玉主持的圆桌论坛「具身新境:Physical AI与未来智能体」将五位同时站在具身技术前沿与产业一线的关键人物集中在了同一个讨论场域。

陈亦伦、姚卯青、王潜、丁文伯、李子夷等五位清华电子系系友,围绕技术瓶颈、场景落地等问题展开讨论。其中王潜、李子夷分别来自我们持续陪伴的被投企业自变量机器人、新石器无人车

以下内容转自"THU校友总会电子系分会"

主持人:

汪玉 | 清华大学电子工程系教授(电子系1998级)

圆桌嘉宾:

陈亦伦|它石智航创始人兼 CEO(电子系2001级)

姚卯青|智元合伙人、觅蜂董事长(电子系2005级)

王潜|自变量机器人创始人、CEO(电子系2007级)

丁文伯|清华大学深圳国际研究生院副教授、科研处处长(电子系2007级)

李子夷|新石器无人车CFO(电子系2010级)

论坛圆桌环节

亮点纪实

Part 01

汪玉:

2026年被很多人称为具身智能的元年。请问各位,这个"元年"到底从哪个方向才是真正的胜负手?请每位先用最简单的话介绍自己,再谈这个关键问题。

汪玉主持圆桌环节

陈亦伦:

我是电子系2001级本科和硕士,后在美国密西根大学获得博士学位,研究方向为机器学习。毕业后从事机器人系统研发工作,五年后加入大疆担任总工程师,负责机器视觉与自动化生产系统;之后进入华为,参与自动驾驶系统团队从0到1的建设,主导了多个量产项目。2025年初创立它石智航。

关于2026年,我认为技术会有很大突破。此前具身智能领域严重缺乏数据,今年数据量将显著增长,AI能力随之提升,硬件也已准备就绪。但最关键的是,具身智能必须形成自身独立的价值主张。正如自动驾驶和大语言模型已经证明了其不可替代的价值,具身智能也需要聚焦出能够长期存在的核心价值。

陈亦伦介绍分享

姚卯青:

我是电子系2005级本科。智元机器人成立于2023年,公司名"Agibot"体现了对AGI的追求。从认知智能跨越到决策智能是必经之路,目前行业正处于探索和试错阶段。

2026年是重要的"交作业"年份。过去两年,众多创业公司陆续推出了硬件产品并组建了完整的研发团队。今年需要找到适合具身智能的产业和技术路径,同时明确长期发展中还缺失什么要素,尤其是如何构建独立于语言模型的物理世界发展路径。

姚卯青介绍分享

王潜:

我是电子系2007级本科。自2009年起从事神经网络研究,是早期深度学习研究者之一。后出国攻读博士,研究方向为机器人学,其间曾短暂从事量化金融工作,现回归机器人领域。

我认为今年我们可以开始讨论具身智能领域的"ChatGPT时刻"或者至少是"GPT-3时刻"。前两年业界普遍认为这一时刻尚遥远,因此讨论较少。今年,谁能在模型基础能力上率先达到这一里程碑,其重要性可能超过具体的产业或应用落地。

王潜介绍分享

丁文伯:

我是电子系2007级本科。目前担任清华大学深圳国际研究生院副教授、科研处处长。

我一直关注数据问题:具身智能所需的数据从何而来?如何高效获取并形成数据飞轮?上一代语言模型的数据获取相对容易,因为与互联网行业天然相关。但具身智能涉及物理世界交互,数据获取难度显著增加。如何将人、机器、数字人以及生成式模型有机结合,使仿真数据足够逼真、真实数据易于使用,是需要从技术和伦理两个层面深入思考的问题。

丁文伯介绍分享

李子夷:

我是电子系2010级本科生。2018年联合创立新石器无人车,专注于L4级自动驾驶在物流场景的应用。

当前具身智能的商业化进展,与自动驾驶在2020-2021年的阶段非常相似,已经有了清晰的商业化方向,但距离细分场景的价值验证仍差一步跨越鸿沟的过程。类比登山:要攀登珠穆朗玛峰,必须先登华山;要登华山,必须先登香山。关键在于找到那个"香山",然后逐步推进。

李子夷介绍分享

Part 02

汪玉:

亦伦,你走的是AWE路线,与VLA有何区别?

陈亦伦:

首先补充一些背景。自动驾驶是具身智能的一个子问题,其方法论来源于机器人学。在自动驾驶领域,我们尝试过大量技术路线,许多试错的成本极高。而VLA就是我在自驾领域时,基本已被充分试错的路线,证明效果不佳。基于这些经验,我一开始就放弃了VLA路线。具身智能与自动驾驶一样,需要拥有独立的技术体系。

物理世界AI的规律可以概括为:用传感器感知世界、构建世界表征,然后在该表征空间内通过模仿学习和强化学习提高任务成功率。

汪玉:

智元在模型、数据集、应用实践方面有哪些进展?

姚卯青:

要实现AGI,必须从当前的认知智能演进到决策智能。大语言模型消耗了数百万亿token的互联网数据,但主要停留在语义认知层面。而让智能体与环境交互、动态闭环地完成复杂任务,是下一步的挑战。当前最欠缺的是数据。因此,在模型方面,我们一直在探索从逻辑思维与规划过渡到物理世界控制的中间表征形态。

在落地应用上,当前中国具身智能创业面临"既要探索前沿,又要实现阶段性产出"的双重压力。我们在部分工业场景已实现7×24小时并线运行,单位小时产出超过人工水平。但整体上仍需通过数据飞轮不断迭代,并将硬件的平均无故障时间提升至工业机器人万小时级别。

汪玉:

王潜,你的模型策略是什么?为何尝试家政等to C场景?

王潜:

我们的目标是构建物理世界的基础模型,即"大一统模型"。VLA、世界模型等都只是下游任务。我们真正要学习的是隐藏在这些任务背后的物理规律、物体属性以及基础动作逻辑。手部操作的核心难点在于"物理鸿沟",物理世界存在大量随机性和非线性因素。这在自动驾驶中不突出。因此,我们的模型更接近当前语言模型中的"全模态模型",在同一模型中同时实现VLA和世界模型的功能,通过不同任务的交叉验证来获得对物理世界的本质理解。

为什么尝试家庭场景?因为我们需要的不是人工构造的数据工厂数据,而是足够多样、复杂且高质量的真实交互数据。这是技术导向的必然选择。同时,商业化压力确实存在,但我仍认为,当一个真正意义上的基础模型出现时,之前的所有阶段性成果都将被重新定义。

汪玉:

文伯,触觉传感器及触觉模型发展状况如何?机器人企业是否采用?

丁文伯:

首先给出结论,目前机器人企业普遍认为引入触觉感知会导致大模型的不稳定性,因此实际采用较少。

然而,触觉提供的多模态信息对于精细操作至关重要。以生物为参照:猩猩的体能和肌肉效率远超人类,但人类依靠高智力胜出。我们将雷达技术引入触觉传感,实现多模态信号融合,这得益于电子系所教授的电动力学、光学、信号处理等基础知识。至于产业应用,尽管目前触觉被视为模型崩塌的风险因素,但我认为这是必须克服的障碍。

汪玉:

子夷,自动驾驶行业经历过的困难中,哪些是具身智能必然要面对的?

李子夷:

我的职业路径较为特殊:毕业后未从事研发工作,而是先后在四大会计师事务所、投行、投资机构工作,然后创业。因此,我可能更关注商业模式和场景落地。

**物流行业的第一性原理只有一个:降本。我们用了八年时间,将无人车每公里全寿命周期运营成本压至0.5元人民币,而传统货运每公里收费约4元。这一成果的取得,依赖于在每个发展阶段找到成本与场景匹配的切入点,先实现生存,再向更高难度场景推进。

**硬件方面,我们进行模组自研并整合供应链资源;软件方面,从高精地图+激光雷达方案,演进到BEV,再到端到端无图方案。**这一过程对经营和研发的平衡能力要求很高。具身智能大概率会经历相似的路径。**但有利条件是,当前的外部环境比自动驾驶早期更为成熟,不再是单打独斗,而是生态协同。我们已经在与具身智能企业共同探索新的应用场景,尝试以"自动驾驶+具身"的组合为客户提供更优的解决方案。


汪玉:

**最后,请每位回答三个问题:你认为有哪些事情可以与学校(特别是电子系)合作开展?你预测具身智能领域的ChatGPT时刻和OpenClaw时刻大概何时到来?你公司今年最重要的目标是什么?

陈亦伦:

**与学校合作:**电子系的课程设置和学生能力与机器人领域高度匹配。以我自身的经历为例:开发数据采集手套时,通信原理、雷达信号处理等知识直接派上用场;设计灵巧手时,最核心的软排线问题本质上属于电子系的工艺和系统集成范畴。我愿意全力支持电子系开展具身智能相关的科研工作,在公司能力范围内提供100%的配合。

**GPT时刻:**今年在单点任务上实现完全自主作业没有问题。**OpenClaw时刻:**不同技能之间产生化学反应,使扩展速度显著加快。**我的设想是,机器人可以成为多个顶尖专家能力的集合体,每个单项技能远超人类水平,同时具备方法论层面的通用连接机制,能够持续产生新技能。这一目标大约需要两年。

**今年目标:解决工业界长期悬而未决的一个关键问题。若成功,将带来很高的技术满足感。

姚卯青:

**与学校合作:**具身智能已进入深水区,涉及分布式训练通信、网络协议、硬件可靠性等系统性难题,这正是电子系学生的优势所在。我希望与学校合作推进从底层关节到灵巧手的原创性研发,这些领域目前尚无成熟的供应链解决方案。

**GPT时刻:可能不是"基础模型+垂直应用"的简单范式。如果有一天模型真正理解了物理世界的底层表征,那或许可以被定义为GPT时刻。

**今年目标:持续推进数据集建设与模型迭代。

王潜:

**与学校合作:**AI领域的学习曲线正在变得平缓,高中生已能参与前沿研究。电子系本科阶段即可开展高水平的科研工作。按部就班的教学模式可能造成人才浪费。建议在本科阶段就建立较大规模的、与产业联合的研究机制。

**GPT时刻:我坚持基础模型优先的路线。**具身智能是中国在近几百年中第一次有机会在0到1阶段就取得世界领先的赛道。预计GPT时刻将在2-3年内出现,且产品层面的里程碑可能会先于基础模型的里程碑。

**今年目标:将基础模型做到世界第一。这一目标在去年谈论时尚显虚远,但今年已具备现实可行性。

丁文伯:

**与学校合作:**当前企业界的技术先进性和资源丰富度已显著超越高校。**应当大胆地将学生交给企业进行培养。但本科生的世界观和人格塑造仍需要学校的引导,在清华完成四年教育后再进入企业,与直接进入企业,结果会不同。

**OpenClaw时刻:**OpenClaw这一命名具有深意,外来入侵物种,断肢再生。**如果机器人能够感知自身结构损伤并自主修复或重构,那将是真正的里程碑。但这一目标距离尚远。不过,软件定义无线电曾经降低了硬件研发的门槛,类似地,软硬件的协同与相互尊重也是本行业需要推动的方向。

**今年目标:获取1000万小时的无本体数据,部分来自自研,部分来自合作伙伴。

李子夷:

**与学校合作:我们愿意作为端侧载体,承载电子系在芯片、算法、模型等方面的技术成果。最艰苦的场景探索工作我们已经完成,具备了规模化的端侧能力。我们希望能与系里在人才输送方面深度联动。

**GPT时刻:自动驾驶行业经历了三次起落。如果在一年前问我,我会预测在2029-2030年。但今年DeepSeek的表现极为突出,技术迭代速度超出预期。这一时刻可能会显著提前。

**今年目标:继续扩大无人车交付规模,同时与具身智能企业共同探索新场景。