许华哲:刚起跑的具身,不等上市的人|北坡计划

许华哲:刚起跑的具身,不等上市的人|北坡计划

2026年5月28日

🎙️ 【本期简介】

北坡计划第二期,我们与破壳科技创始人、清华大学助理教授许华哲进行了一次深度对谈。

过去两年,具身智能几乎成为最炙手可热的行业方向之一,整个行业都在快速进入一种 “加速叙事” 里。但在许华哲看来,今天的大部分进展,距离真正意义上的通用,只是跑完了“第一公里”。很多问题甚至还没有被真正开始解决:大规模数据从哪里来、系统如何泛化、长期任务如何稳定执行、人类世界里的复杂物理交互怎样被真正理解。

某种意义上,具身智能并不是一场短跑式的技术爆发,而更像一场周期极长、需要持续迭代的马拉松。而比起“什么时候赢”,许华哲更在意自己想做的事情什么时候开始。

“做自己真正想做的事,才是最贵的特权。”

因为真正吸引他的,从来不是已经抵达的结果,而是那些尚未成形的新东西,是不断进入未知、不断突破边界的过程。

聊到音乐时,许华哲提到自己很喜欢贝多芬的《英雄》交响曲。那种仿佛提枪上阵、持续战斗的力量感,让人着迷。

某种程度上,他自己也是这样的人。

折腾不息,战斗不止。

👤 【嘉宾介绍】

许华哲:破壳科技创始人,清华大学交叉信息研究院助理教授、博士生导师,具身智能实验室负责人。

本科毕业于清华大学电子工程系,博士毕业于加州大学伯克利分校,博士后就读于斯坦福大学,长期从事具身智能、强化学习与机器人方向研究。23 年参与孵化具身智能公司星海图,被视为国内新一代具身智能研究者与创业者中的青年代表人物之一。

🕒 【精选时间戳】

03:43 “市场好坏不是本质,把机器人做出来才是使命”

06:31 具身智能像一场马拉松,但行业可能刚跑到第一公里

08:42 我们相信 scaling law,今天还没有真正“证明” scaling law

09:59 什么是真正的零样本泛化?“你发给我,我跑一下试试”

14:04 VLA “还不够优雅”

17:48 从 reactive 到 model-based:机器人为什么要预测未来

30:10 中国具身智能研究者真正缺少的,其实是“心气儿”

35:50 创业团队不应该为了“符合市场形状”而拼接

43:18 今天最强的 Researcher,真正想要的是做出 GPT 级别的东西

46:55 伯克利的学术氛围,所有人都可以直接说“This is wrong”

56:51 Lab 是放大个人形状,公司是放大组织形状

01:00:00 为什么更喜欢用“生命体”而不是“工具”描述人与组织

📚【相关提及】

Figure 长时间直播:美国机器人公司 Figure 从 2026 年 5 月 13 日开始,用 F.03 机器人 + Helix-02 模型连续直播 191 小时(约 9 天),自主完成 23.8 万件包裹分拣;在测试片段,总计 318 个分拣的样本中,成功率约为99.7%。

Generalist 的“一根线”:指 Generalist 每次发布时附上的"数据量 vs 模型性能"曲线。数据越多、机器人成功率越高的上扬上扬曲线,是目前机器人领域最接近 Scaling Law 的视觉证据。

UMI(Universal Manipulation Interface):斯坦福 Shuran Song 团队 2024 年发布的开源机器人数据采集方案。人手戴上夹爪手柄 + 摄像头就能采集数据,不依赖昂贵的机器人本体。在保留毫米级末端精度的同时大幅降低了数据采集成本,是目前业内公认性价比最高的具身数据采集形态之一。

视觉 SLAM(Visual Simultaneous Localization and Mapping,视觉同步定位与建图):是一种仅靠摄像头就能让设备实时知道"我在哪、周围长什么样"的技术。系统通过分析连续视频帧之间的画面变化,一边推算自己的运动轨迹、一边重建周围环境的三维地图——是扫地机器人、AR 眼镜、自动驾驶等场景的底层能力之一。

"动作头"(Action Head):机器人模型最后一层、专门负责"输出动作"的小网络模块。它接在一个已经训练好的视觉-语言大模型后面,把模型理解到的画面和指令翻译成机器人能执行的具体动作(如关节角度、夹爪开合)。

WAM(World Action Model,世界动作模型):2026 年 5 月 arxiv 综述论文(arxiv 2605.12090)正式命名的范式,由 OpenMOSS 等团队提出,把"预测未来世界会怎么变"和"输出机器人动作"统一在同一个网络里完成。

AMI(Advanced Machine Intelligence,高级机器智能):图灵奖得主、Meta 前首席 AI 科学家杨立昆(Yann LeCun)于 2026 年 3 月正式创办的 AI 公司,首轮种子融资 10.3 亿美元、估值 45 亿美元。

JEPA(Joint-Embedding Predictive Architecture,联合嵌入预测架构):杨立昆(Yann LeCun)2022 年提出的世界模型架构。它不像主流大模型那样直接生成像素或文字,而是让 AI 在抽象隐空间中预测未来世界的变化——只学"会发生什么",不学"长什么样",被认为是更接近人类理解世界方式的路线。

Diffusion Policy(扩散策略):哥伦比亚大学 Cheng Chi、Shuran Song 等人 2023 年提出的机器人动作生成方法:把扩散模型迁移到动作生成上,让机器人"从一团噪声里逐步去噪、生成一段流畅的动作序列"。配合 Action Chunk 使用,是当前模仿学习最主流的方法之一。

Action Chunk(动作块):机器人模仿学习中的关键技巧,由斯坦福 Tony Zhao 等人 2023 年在 ACT 论文中提出:让模型一次性输出未来几十个动作的完整序列,从而大幅提升动作连贯性。是 Diffusion Policy 等主流方法的核心组件。

恰空(Chaconne):原是 16 世纪西班牙的三拍子舞曲,后演变为巴洛克最庄严的变奏曲式。许华哲提到的"恰空"特指巴赫《无伴奏小提琴第二组曲》BWV 1004 末乐章,约 14 分钟,是小提琴曲目里公认的精神最高峰之一。

《英雄交响曲》(Symphony No. 3 in E♭ major, "Eroica"):贝多芬 1803–1804 年创作的第三交响曲,被公认为古典主义向浪漫主义过渡的分水岭之作。贝多芬最初将其题献给拿破仑,听闻拿破仑称帝后愤而撕掉献词,改名"英雄"。全曲长约 50 分钟,规模、情感强度和结构复杂度都远超当时的交响曲传统,重新定义了交响曲这一体裁。

D960 即舒伯特《降 B 大调钢琴奏鸣曲》: 1828 年逝世前两个月完成的最后一部钢琴奏鸣曲,约 40 分钟,弥漫着对死亡的平静凝视,被誉为"通往天国的音乐",是钢琴文献最伟大的作品之一。

《荒原狼》(Der Steppenwolf):诺贝尔文学奖得主赫曼·卡尔·黑塞 1927 年出版的长篇小说,与《悉达多》《德米安》并称黑塞代表作,讲述一个自认半人半狼、与中产阶级世界格格不入的知识分子的精神危机与觉醒,是 20 世纪关于孤独与异化的经典之作。

🎵 【音乐】

Jordan Critz - Beau Et Rapide (Piano)

《英雄交响曲》(Symphony No. 3 in E♭ major, "Eroica")第一乐章

🎤 【创作团队】

主持|张津剑

出品|绿洲资本

剪辑制作|绿洲资本

💬 【互动时刻】

小助理微信:VB20240606·r'r

你对自己的形状有没有感知?你有什么很好的方法,能让自己平静下来更好地倾听到自己的信号?

欢迎评论区留言,发布 7 日后点赞前 3 的小伙伴,我们准备了专属绿洲小礼物🎁

免责声明

本播客所述投资相关内容皆以交流分享为目的,仅供参考,不构成任何市场预测、判断,或投资、咨询建议。感谢您对原创内容的青睐!如转载或引用本播客所述内容,请注明出处。转载前请与绿洲联系并取得同意。

在小宇宙查看该单集文稿