领投「破壳机器人」天使轮,和许华哲深聊家庭机器人和物理 AGI 的“真门票” | 云启 Attent!on 播客
从智能“破壳”到家庭具身,在AI大浪里死磕原创

从实验室的单点突破,逐步靠近真实世界的通用泛化。2026 年,具身智能开始跃入更具挑战也更具想象力的家庭场景。
近日,云启领投家庭具身公司「破壳机器人」千万美元天使轮融资,这也是交大-云启AI天使基金出手的首批项目。
公司创始人许华哲做客云启品牌播客「Attent!on」,和他的第一位投资人——云启新晋执行董事桑煜展开一场深度对话。
作为清华电子系 2012 级校友,他们一同亲历 AI 1.0 时代的开端,又在毕业十年后,于具身智能航道再度交汇。
本期节目从 AI 技术范式变迁中那些塑造了他们技术信仰与创业/投资路径的人和事聊起,畅谈了从 AlexNet 到具身智能进家,这十几年间的关键技术变量、个人抉择与真实心路历程。有故事有干货,与你分享。

你将听到

- 清华毕业十年再交汇:90 后具身创业者与投资人亲历的 AI 变迁
- 技术路径拆解:强化学习、世界模型、在线学习,谁是通往"物理直觉"的底层解?
- 定义家庭机器人:如何打造主动干活的家庭成员?如何应对"熵增"环境与隐私顾虑?
- 拒绝"蒸馏"跟随:中国具身如何建立原创智能的护城河?
- 科学家创业者的"个人市场化":build in public 是好选择吗?
- 商业探索: 量产喧嚣之外,为什么做那些重要但看起来"不重要"的小事?
本期聊天的人

许华哲 - 破壳机器人创始人、清华大学交叉信息研究院助理教授
桑煜 - 云启前沿科技投资人、执行董事
01 技术长跑:从 AlexNet 到物理世界 AGI

桑煜:
我跟华哲是 2012 年同一年入学清华电子系。那一年正好是 AlexNet 在 ImageNet 比赛断崖式夺冠的那年,论文作者里有 Hinton,有 OpenAI 的 Ilya。AI 的大浪潮如果追溯到 1.0 时代,就是从 2012 年开始的。我们从那个起点开始接触这波浪潮,中间经历了 NLP、自动驾驶、大模型,最终又切入了具身智能。华哲,你 2012 年刚入学的时候,对 AI 的认知是什么?
许华哲:
那时候我对 AI 唯一听过的词就是神经网络,还是高中学竞赛时在机房里随手看到的。2012 年虽然世界已经发生范式变化了,但我们那时候还在刷微积分题。
桑煜:
后知后觉这件事不只是我们,整个学术圈也一样。2012 年之前,你要是在顶会论文里用神经网络做 title,100% 会被拒稿——大家都觉得神经网络就是粗暴的过拟合。从 2012 年开始 CNN 大放异彩,突破了很多技术红线,大家才逐渐看到这个方向的潜力。
许华哲:
三十年河东,三十年河西。在 AI 里可能要除以 10,大概三年就换一轮。后来有意思的是,神经网络火了之后,题目里不带深度学习的 paper 反而中不了了。
桑煜:
从 16 年到 19 年,计算机视觉、目标检测有非常快速的发展,还有 Alphago 打败李世石。你那时在伯克利,应该是国内最早一批深度研究强化学习的学者?
许华哲:
对。伯克利有几个做强化学习非常知名的老师——Stuart Russell、Pieter Abbeel、Sergey Levine。Alphago 之前,强化学习有点靠边站,只能下翻转棋,大家觉得它小众没啥用。Alphago 之后爆火,大家觉得强化学习似乎可以解决一切。但往后看会发现,那个时候强化学习只是把问题定义对了:让机器主动做决策、主动跟世界交互。正确的问题定义有了,但算力和基础设施还没到位。
那时候做出来的东西有什么巨大的应用吗?没有,都是在打游戏、在仿真里搞机器人。但它塑造了我的信仰——我训过、用过,知道这个东西能 work。这对我今天的技术判断产生了巨大的影响。不是从大模型火了之后去看强化学习,那可能会错过很多底层的思考。
桑煜:
19 年到 22 年,大家没有迎来当时预期乐观的机器人大时代,实际上是有点幻灭的。你那时候在经历什么?
许华哲:
19 年确实是一个低谷。那时候 ImageNet 刷到天花板,加了各种 trick,一换真实场景就失灵。大家普遍默认 AI 是一个上限确定的东西,都去找安防、人脸、智慧城市这类应用出口。
但那时候有两颗种子悄悄埋下了。一颗是 ETH 用深度强化学习让四足机器人在真实环境里跑步的论文——这件事只有既懂机器人又懂AI的人才能做出来,后来演化成了春晚机器狗跳舞,再到今天的具身智能浪潮。
另一颗是 scaling law——OpenAI 那群人一直坚持:数据量上来,效果就上来。到 2021、2022 年,李飞飞开始谈 foundation model,在学术最前沿的人已经能感受到那种破土而出的气息了。离圈子越近,感受得越早。往往在最低谷的地方,有最重要的种子。
02 强化学习、世界模型与技术路径选择

桑煜:
破壳机器人的技术路径是怎么选择的?
许华哲:
三条主线。第一是强化学习,更具体地说是如何利用失败数据、如何让机器人从反馈中学习,包括能否规模化地让机器人自主试错。第二是基于世界模型的架构,不以 VLM 作为 backbone,更多是以预测式的模型为基础,做具身世界模型和动作预测。第三是在线学习——不是出厂放一个最好的模型然后水平锁死,而是越用越好用,每隔几个月像升了一级。学了新的、忘了旧的,这样的智能体远达不到我们对真正智能机器人的期待。
桑煜: 做世界模型也一定要从世界里拿到反馈,数据、技术、场景连成闭环,才能真正把模型做出来。
许华哲:
对。每个机器人的世界可能不一样,把主动交互的数据放进世界模型是非常重要的。这更像一种直觉物理——搓塑料袋之前要哈口气或者在衣服上擦手,因为手比较干。如果跟这个世界缺少交互,是预测不出来这样的未来的。
桑煜:
今天强化学习是大家在具身领域越来越多讨论的技术词汇。为什么强化学习对具身智能是关键的?
许华哲:
首先它把问题定义对了。机器人需要参与到物理变化里去,才能学到真正的智能。背课文可以闭着眼睛不动手脚,但倒一杯水、弹一首曲子,没有大量练习是不可能的。每个机器人的身体都不一样,必须通过反复交互才能理解那些细微的物理——手滑了先在衣服上擦一下再拧瓶盖,这种事情我们不需要思考,但机器人需要通过交互才能习得。
另外是数据的问题。目前具身智能的训练还是以示例数据为主,大家普遍忽略了失败数据。那些最靠近"对"的边缘的"错",才是帮助模型建立正确边界最重要的数据。强化学习会充分利用这些数据。Pi 0.7 最近的更新里,在预训练数据中加入了失败数据并做了 1 到 5 分的打分——你不仅要知道什么是对,还要知道什么是错,更重要的是要知道哪些是离对很近的错。
桑煜:
大模型这边 coding 能力、agent 能力都在快速进步,这些跟具身智能会有什么样的交叉?
许华哲:
两种交叉。一种是本质层面的——这个世界有两个 AGI,数字世界 AGI和物理世界 AGI,对在线学习的追求是相似的,方法论是一致的。另一种是直接应用——agentic 的能力可以放在机器人上,通过自主拆分和模块调用,以 agent 的形式完成零样本的任务,比如到某个地方帮我按个按钮、把灯关了、拿个东西。
03 为什么是家庭?为什么是现在?

桑煜:
之前好像没有人坚定地跳出来说我就要选择家庭这个赛道,你是怎么考虑的?
许华哲:
有三层逻辑。第一是个人的——我的长期梦想就是做一个能服务于每一个普通人的机器人,那它一定在家庭里。第二是AI层面的——有人生活的地方熵会自然升高,家里是产出最宽、最难数据的地方,模型的边界会很宽。第三是商业层面的—— ToC 永远是足够大的市场,也更可能诞生一家真正伟大的公司。
桑煜:
你们的家庭机器人,具体是个什么样的产品?
许华哲:
它同时兼具科技品和消费品两种属性。几个核心点:家庭适配,要稳定、安全、家庭友好;要有干活的能力,没有这个,能提供的永远只是导航和巡检;还有主动性——现在家里的洗衣机、冰箱,功能是固定的,使用完全靠人操控。这个机器人是通用的,而且是主动去干事情的,体验完全不同。比如你随手把脏衣服往地上一扔,它可能自己就帮你做决策了;决策不了的,它来问你,变成你的选择题,而不是你的生成式难题。
桑煜:
它是保姆,还是家庭成员?
许华哲:
保姆型家庭成员。你跟保姆的关系是定好你每天应该做什么,然后付钱。但你跟家庭成员可以非常随意——累死了你去帮我拿瓶水,懒得动你帮我干个什么——这种只有对亲密的人才张得开嘴的话,对机器人完全可以说。但它本质上还是在为你服务,所以又不完全等同于家庭成员。
另外还有很多定制化的可能性——外观可以定制,性格可以设定,主动性的 level 可以调整。比如看到地上一对臭袜子,这个机器人应该直接帮你洗了,还是来询问,还是不理?有些人希望它尽量别来问,按自己判断来;有些人希望它万事都知会一声。这些都是可以设置的。
桑煜:
家庭具身的实现周期怎么看?今天具身智能的水平在哪里,离真正进家还有多远?
许华哲:
具身智能很难像自动驾驶那样做分级,因为它太广了。如果一定要分,可以看它对物理世界产生了多复杂的影响:能不能有好的本体用于遥操作是 L0,有好的运控自主做编排好的动作是 L1,能做简单物理交互比如导航避障、按按钮是 L2,再往上交互越来越复杂。
最终极的两个泛化问题:一个是跨任务,一个是跨本体。我们离真正的通用机器人还有相当多的距离。但离进家可能没那么远——进家本身是一个产品问题,不需要等到 AGI,在某个节点上产品体验足够好,就是进家的时刻。
桑煜:
今天有哪些变量开始释放了?
许华哲:
一是数据,从遥操作数据到 Ego data,无本体的采集方式让数据量级有了比较大的涨幅。二是模型层面,强化学习的使用、世界模型的发展、在线学习,这几条路线都在同时推进。2026 年是非常不一样的一年。
04 把自己放到市场里

桑煜:
你是具身领域最有影响力的自媒体人之一,为什么要做这件事?
许华哲:
核心是"市场化"——不是产品的市场化,而是一个人的市场化。
把自己放到公共场合里,让大家去评价,你会获得很多平时听不到的意见。工作了以后,没什么人会主动给你负反馈,认识的人尤其不会说你哪里做得不好。但市场跟你没有情感连接,反馈会更锋利、更尖锐。
另外是信息平权——某种意义上我们都是拥有信息特权的人,如果能让那些没有渠道获取这些信息的人也知道,他们也许可以做得跟我们一样好。
桑煜:
还有一个很重要的副产品——你在具身圈不只是在学术圈,也在工业圈建立起了很强的影响力。具身的创新没有前人经验可循,年轻人才的重要性越来越强,这种影响力是招揽人才非常重要的抓手。
许华哲:
确实。公司现在有好几位同事,就是通过社交媒体联系我然后加入进来的。
桑煜:
25 年底 26 年初,你在知乎发了一篇文章,写具身智能2025年"没有一步登天,但越来越强烈感受到一种未来在召唤",还提到了很多学者说大家都有责任往前推一步。当时是什么心境?
许华哲:
一半是自勉,一半是想戳一戳大家。当时看美国一些公司,AI能力涨得非常快—— Pi 0.7 展示出跨本体泛化能力,1X 说只用一小时后训练数据可以完成非常复杂的任务。但看国内很多具身智能公司,大家好像把注意力都放在量产上了。量产重要,我承认,但不能因为要量产就不做 AI,或者靠蒸馏别人的模型走量产路线。我们有很好的供应链,有很好的机器人,中国完全有可能做出最好的物理世界 AGI 模型。
桑煜:
我们也被这篇文章戳到了。大语言模型阶段,美国的算力资源供给是中国的 10 倍;但在具身这个领域,中国硬件供应链的制造能力和敏捷反应速度可能是十倍于美国的。这也是为什么我们在投资时一直坚持投智能——智能才是具身领域最关键的分水岭和最核心的壁垒。
许华哲:
我们也会持续努力——从我们要的结果出发,我们要追求的智能机器人是怎样的,所以我们做怎样的事情,而不是从竞争出发。
05 创业是把所有能动用的东西都动用起来
桑煜:
创业以来整体感受怎么样?
许华哲:
整体体验非常好,可能是我人生做的最正确的选择之一。我享受那种被榨干的感觉——动用所有的脑力想模型怎么训、技术应该怎么走、数据应该怎么洗,动用所有的关系去看有没有合作的可能,带着队伍一起 brainstorm,还有融资。很多人觉得 pitch 是求人办事,我倒不这么觉得——能给一个很厉害的人输出一波,这件事本身就是一种特权。困难当然也有,每个地方都会遇到负反馈。但如果干什么事一下就全成功了,说明游戏难度没选对。我玩游戏从来都是上来选 difficult。
桑煜:
要做成家庭具身这件事不容易,过个三五年可能会有很多大厂跳进来。你觉得 day one 就要坚持的最核心的东西是什么?
许华哲:
技术上要坚持原创。当你和领先的人离得很远,跟随收益极高;但当你和高手毫厘之间,能从他那学到的东西就少了很多,更多的是你能不能比他先开悟、先突破到下一个境界。
另外是商业化。有人付钱代表什么?代表你做的东西是真的有价值,而不是你觉得有价值,或者你预判了有价值。
还有一点是坚持做重要但看起来不重要的事。创业之后,外面的事看起来都特大,里面的事看起来都特小。但公司能不能经营好,往往就藏在那些看起来小的事里。要时刻提醒自己,不要被第一冲击力拽着走。



