许华哲：刚起跑的具身，不等上市的人｜北坡计划

2026年5月28日·239·44

🎙️ 【本期简介】

北坡计划第二期，我们与破壳科技创始人、清华大学助理教授许华哲进行了一次深度对谈。

过去两年，具身智能几乎成为最炙手可热的行业方向之一，整个行业都在快速进入一种 “加速叙事” 里。但在许华哲看来，今天的大部分进展，距离真正意义上的通用，只是跑完了“第一公里”。很多问题甚至还没有被真正开始解决：大规模数据从哪里来、系统如何泛化、长期任务如何稳定执行、人类世界里的复杂物理交互怎样被真正理解。

某种意义上，具身智能并不是一场短跑式的技术爆发，而更像一场周期极长、需要持续迭代的马拉松。而比起“什么时候赢”，许华哲更在意自己想做的事情什么时候开始。

“做自己真正想做的事，才是最贵的特权。”

因为真正吸引他的，从来不是已经抵达的结果，而是那些尚未成形的新东西，是不断进入未知、不断突破边界的过程。

聊到音乐时，许华哲提到自己很喜欢贝多芬的《英雄》交响曲。那种仿佛提枪上阵、持续战斗的力量感，让人着迷。

某种程度上，他自己也是这样的人。

折腾不息，战斗不止。

👤 【嘉宾介绍】

许华哲：破壳科技创始人，清华大学交叉信息研究院助理教授、博士生导师，具身智能实验室负责人。

本科毕业于清华大学电子工程系，博士毕业于加州大学伯克利分校，博士后就读于斯坦福大学，长期从事具身智能、强化学习与机器人方向研究。23 年参与孵化具身智能公司星海图，被视为国内新一代具身智能研究者与创业者中的青年代表人物之一。

🕒 【精选时间戳】

03:43 “市场好坏不是本质，把机器人做出来才是使命”

06:31 具身智能像一场马拉松，但行业可能刚跑到第一公里

08:42 我们相信 scaling law，今天还没有真正“证明” scaling law

09:59 什么是真正的零样本泛化？“你发给我，我跑一下试试”

14:04 VLA “还不够优雅”

17:48 从 reactive 到 model-based：机器人为什么要预测未来

30:10 中国具身智能研究者真正缺少的，其实是“心气儿”

35:50 创业团队不应该为了“符合市场形状”而拼接

43:18 今天最强的 Researcher，真正想要的是做出 GPT 级别的东西

46:55 伯克利的学术氛围，所有人都可以直接说“This is wrong”

56:51 Lab 是放大个人形状，公司是放大组织形状

01:00:00 为什么更喜欢用“生命体”而不是“工具”描述人与组织

📚【相关提及】

Figure 长时间直播：美国机器人公司 Figure 从 2026 年 5 月 13 日开始，用 F.03 机器人 + Helix-02 模型连续直播 191 小时（约 9 天），自主完成 23.8 万件包裹分拣；在测试片段，总计 318 个分拣的样本中，成功率约为99.7%。

Generalist 的“一根线”：指 Generalist 每次发布时附上的"数据量 vs 模型性能"曲线。数据越多、机器人成功率越高的上扬上扬曲线，是目前机器人领域最接近 Scaling Law 的视觉证据。

UMI（Universal Manipulation Interface）：斯坦福 Shuran Song 团队 2024 年发布的开源机器人数据采集方案。人手戴上夹爪手柄 + 摄像头就能采集数据，不依赖昂贵的机器人本体。在保留毫米级末端精度的同时大幅降低了数据采集成本，是目前业内公认性价比最高的具身数据采集形态之一。

视觉 SLAM（Visual Simultaneous Localization and Mapping，视觉同步定位与建图）：是一种仅靠摄像头就能让设备实时知道"我在哪、周围长什么样"的技术。系统通过分析连续视频帧之间的画面变化，一边推算自己的运动轨迹、一边重建周围环境的三维地图——是扫地机器人、AR 眼镜、自动驾驶等场景的底层能力之一。

"动作头"（Action Head）：机器人模型最后一层、专门负责"输出动作"的小网络模块。它接在一个已经训练好的视觉-语言大模型后面，把模型理解到的画面和指令翻译成机器人能执行的具体动作（如关节角度、夹爪开合）。

WAM（World Action Model，世界动作模型）：2026 年 5 月 arxiv 综述论文（arxiv 2605.12090）正式命名的范式，由 OpenMOSS 等团队提出，把"预测未来世界会怎么变"和"输出机器人动作"统一在同一个网络里完成。

AMI（Advanced Machine Intelligence，高级机器智能）：图灵奖得主、Meta 前首席 AI 科学家杨立昆（Yann LeCun）于 2026 年 3 月正式创办的 AI 公司，首轮种子融资 10.3 亿美元、估值 45 亿美元。

JEPA（Joint-Embedding Predictive Architecture，联合嵌入预测架构）：杨立昆（Yann LeCun）2022 年提出的世界模型架构。它不像主流大模型那样直接生成像素或文字，而是让 AI 在抽象隐空间中预测未来世界的变化——只学"会发生什么"，不学"长什么样"，被认为是更接近人类理解世界方式的路线。

Diffusion Policy（扩散策略）：哥伦比亚大学 Cheng Chi、Shuran Song 等人 2023 年提出的机器人动作生成方法：把扩散模型迁移到动作生成上，让机器人"从一团噪声里逐步去噪、生成一段流畅的动作序列"。配合 Action Chunk 使用，是当前模仿学习最主流的方法之一。

Action Chunk（动作块）：机器人模仿学习中的关键技巧，由斯坦福 Tony Zhao 等人 2023 年在 ACT 论文中提出：让模型一次性输出未来几十个动作的完整序列，从而大幅提升动作连贯性。是 Diffusion Policy 等主流方法的核心组件。

恰空（Chaconne）:原是 16 世纪西班牙的三拍子舞曲，后演变为巴洛克最庄严的变奏曲式。许华哲提到的"恰空"特指巴赫《无伴奏小提琴第二组曲》BWV 1004 末乐章，约 14 分钟，是小提琴曲目里公认的精神最高峰之一。

《英雄交响曲》（Symphony No. 3 in E♭ major, "Eroica"）:贝多芬 1803–1804 年创作的第三交响曲，被公认为古典主义向浪漫主义过渡的分水岭之作。贝多芬最初将其题献给拿破仑，听闻拿破仑称帝后愤而撕掉献词，改名"英雄"。全曲长约 50 分钟，规模、情感强度和结构复杂度都远超当时的交响曲传统，重新定义了交响曲这一体裁。

D960 即舒伯特《降 B 大调钢琴奏鸣曲》： 1828 年逝世前两个月完成的最后一部钢琴奏鸣曲，约 40 分钟，弥漫着对死亡的平静凝视，被誉为"通往天国的音乐"，是钢琴文献最伟大的作品之一。

《荒原狼》（Der Steppenwolf）：诺贝尔文学奖得主赫曼·卡尔·黑塞 1927 年出版的长篇小说，与《悉达多》《德米安》并称黑塞代表作，讲述一个自认半人半狼、与中产阶级世界格格不入的知识分子的精神危机与觉醒，是 20 世纪关于孤独与异化的经典之作。

🎵 【音乐】

Jordan Critz - Beau Et Rapide (Piano)

《英雄交响曲》（Symphony No. 3 in E♭ major, "Eroica"）第一乐章

🎤 【创作团队】

主持｜张津剑

出品｜绿洲资本

剪辑制作｜绿洲资本

💬 【互动时刻】

小助理微信：VB20240606·r'r

你对自己的形状有没有感知？你有什么很好的方法，能让自己平静下来更好地倾听到自己的信号？

欢迎评论区留言，发布 7 日后点赞前 3 的小伙伴，我们准备了专属绿洲小礼物🎁

免责声明

本播客所述投资相关内容皆以交流分享为目的，仅供参考，不构成任何市场预测、判断，或投资、咨询建议。感谢您对原创内容的青睐！如转载或引用本播客所述内容，请注明出处。转载前请与绿洲联系并取得同意。

在小宇宙查看该单集文稿