2026年了,我们还在用爱迪生试灯丝的方式评估World Model
一场关于World Model的严肃讨论。
上个月,五源信号站5Hz 第一期活动还在讨论Sora的"死亡"意味着什么。而在今天,多模态几乎从AI热点方向的语境中消失,World model成为最受关注的下一个战场:不仅是学术界在密集发论文,工业界也在真机上做验证,投资人则在追问:这条赛道到底有没有Scaling Law?
World Model的三种"未来"——生成派、JEPA 派、空间智能派,押的不是同一个 AGI。它们的终局,可能是一场关于压缩比的效率竞争。
在五源信号站5Hz第二期活动中,我们邀请了来自具身智能、自动驾驶、视觉表征、Agent、AI Infra 等多个方向的研究者和创业者,围绕 World model 的界定、技术路线、benchmark和落地场景,进行了一场深度讨论,今天这篇文章,是我们对这场讨论的提炼整理。欢迎报名我们的下一场讨论,分享你的前沿观点。
五源信号站 | 5Hz 由五源资本发起的小规模闭门研讨,聚焦技术与商业的实战应用。——"在共识形成之前,看见它。"
Highlights:
- World Model不是Video generation,核心区别在action条件下的状态预测与多步因果推理能力;
- 三条技术路线各有所长、也各有未解之题(生成派缺逻辑、JEPA 派缺落地、空间智能派缺时间),它们未必在同一赛道竞争,而是押注不同的 AGI 路径;
- "JEPA是所有人都认为正确,但没有一个人能做出来的一场幻梦";
- 世界模型本质上是一场效率竞争:谁的压缩比更高,谁就能占据优势位置;
- 评估world model比评估LLM难一个数量级,游戏化的难度梯度可能是破局思路;
- 具身进展由数据驱动而非模型驱动,Ego-View可能是通往泛化的关键一步。
讨论嘉宾 | 5Y社群、ResearchAI+社群
整理 | 刘一鸣
Insight 01
如何严肃界定World Model
1. World model 这个词在具身领域存在大量混用。一种比较严格的区分方式是看它是不是真的 action-conditioned(动作条件化):如果只是把 video prediction(视频预测)作为一个辅助 loss,加到 action 学习里面,让模型在预测 action 的同时,顺带预测接下来一段时间的视频画面,那它的输入并不是真正的 action-conditioned,只是在用video prediction增强表征能力。
另一种更原教旨主义的定义是:world model一定要能输入action——比如机器人接下来往左动、往上移,这个世界会怎么变化;或者游戏里键盘的W/A/S/D指令会让世界怎么变化。只有接受action输入并预测状态变化的,才应该叫action-conditioned world model。

2. 但与其争论"到底什么是 world model",不如先回答一个更根本的问题:**你希望用world model去做什么样的事情?**目的倒过来定义了模型,倒过来定义了技术路线,也最终决定了benchmark。
在具身场景中,最核心的追求是希望world model能够直接出决策、直接在现实世界中行动。它和VLA这类直接行动范式的区别在于:行动前多了一层关于世界的想象——我这么动了之后,世界会发生什么变化?这种 multi-step reasoning ability(多步推理能力),才是world model 真正区别于其他模型的核心。
3. World model并不只属于具身智能。如果把视角拉远,AlphaGo里面的 value network(价值网络),本质上也是一种world model,你有一个 action 进来,它对棋盘状态产生disturbance(扰动),然后predict下一步会怎么样,再给你打分。
生物领域的虚拟细胞也是world model,你给了一种药,它对人体细胞层面会产生什么影响?自动驾驶里的仿真系统也是,它是deterministic(确定性的)的、不是generative(生成式)的,但它就是对那个世界的prediction。区别只在于,传统仿真系统的泛化能力太有限,它能做的事情是设计者想到了所有东西才能设计出来的prediction。
而今天我们希望world model真正能capture world,而不是只被设计者自己脑中的思考边界所限制。从这个视角来看,world model实际上是从 "确定性"走向 "概率性" 的一个跃迁,我们希望它能建模那些连设计者自己都没预想到的未来。
4. 最终,world model的严肃界定,可以收敛到一个公式:一个predictor(预测器),预测状态S到S' 在action条件下的变化。
剩下的一切分歧,本质上是三个问题的不同回答:什么是 state?predictor怎么设计?action怎么表达?State可以是像素、可以是latent、可以是3D几何、可以是细胞里的一组分子状态。Action可以是机器人末端的位姿、可以是键盘的WASD、可以latent action、甚至可以是一句自然语言指令。
这三者的不同组合方式,就决定了不同的技术路线和应用场景。
Language model站在了碳基生命的肩膀上——碳基生命完成的任务是抽象、表征、理解,language model 建立在这个之上。如果 language model 是"有了语言之后的智能",那world model要做的,是代替整个生命完成对世界中声、光、电这些信号的总结。
5. World model的终极形态可能是一种world intelligence:它跟语言推理、下棋、搜索是不同类型的智能。人类把触觉、听觉、嗅觉、视觉最终都变成了文字,文字对人类来说是好的 state,但对机器人来说未必。一个真正具备world intelligence的系统,需要为五感信号找到更好的representation space(表征空间,即模型对世界的内部抽象),而不是把一切都转化为文字。这也是为什么representation(表征)可能是world model今天最难、最核心的问题。
Insight 02
三条技术路线,各押不同的AGI
6. 当前 world model 可以粗略地分为四条技术路线。它们背后押注的核心假设不同,擅长的东西不同,命门也不同。
- 第一派是生成模型,以 Sora 或类 Sora 为代表,也包括 Genie 和 Decart。这一派的前身是 Midjourney、Stable Diffusion 这类图像生成产品,从image自然延伸到video。但早期video generation model本质上更像是image的线性外推,生成出来的东西可能是一个人做一些轻微动作,画面很漂亮,但缺乏长程逻辑。它们的需求是画质和美学,是text following(文本跟随)能力,这和今天world model需要的抽象与逻辑是完全不同的需求层面。Genie和Decart尝试给其中融入了autoregressive成分,让秒与秒之间有串联,但从效果来看,当时间尺度从秒级拉到小时级的时候,这些模型依旧很弱。
- 第二派是JEPA(Joint Embedding Predictive Architecture),由 Yann LeCun 提出并推动。JEPA 的核心方法论是在 latent space(隐空间)做压缩和抽象:它不试图去预测每一个像素,而是预测一个更高层次的表征representation,在这个representation里面摒弃掉无关紧要的噪音,只保留对理解世界变化真正重要的信息。从方法论层面来说,这个目标非常值得欣赏。但具体的 method,对比学习和mask model(掩码模型)的融合,在实践中的效果尚不令人满意。从Meta和 LeCun自己出来讲的时候对这个具体路线的着墨来看,他们内部可能也在重新思考这条路。LeCun已离开Meta创立AMI Labs,拿了10亿美金想要去做这个方向的scaling,但结果如何还需要时间验证。
- 第三派是空间智能,以 World Labs 为代表,从 3D 几何出发。这一派的思路是先做好 XYZ,先把三维空间建模做好,也许未来再加入时间 T 变成 XYZt。但今天还没有把时间引入,这使得它在时间建模上处于最初级的阶段。而 world model 有一个不变的核心,它总是在建模时间上的transition(状态转移)。不管输入是什么、action 在输入还是输出,时间 t 是那个最底层的维度。其他路线已经在做 XYT(视频)或 XYD(带深度信息的视频),World Labs 还在 XYZ,所以它必须思考 T 怎么引入。当然,这一派在落地上可能有优势,比如做 mesh(三维网格) 生成、做 3D 资产,这些不需要时间维度也能产生价值。
7. 真正在车上验证过的是第一派,第二派(JEPA latent rollout)在理论上有上限优势,但还没做出来。在一段式端到端的自动驾驶范式下,第一条路线,即生成式 co-training(协同训练),已经被验证是work 的:训练阶段把video prediction 加进去做co-training,来增强backbone(主干网络) 的表征能力,但推理阶段把video generation 部分砍掉,以满足实时性要求。JEPA 的latent rollout(在隐空间做推演)在理论上限上可能更好,如果能把所有表征都拉到隐空间做长程rollout,对长程任务有非常大的潜力。但在实践中,还没有人做出跟第一条路线一样好或更好的效果。
8. 有一位研究员说了一个比较激进的观点:"JEPA 是所有人都认为正确、但没有一个人能做出来的一场幻梦。"V-JEPA World Model 最新发布的最好的 paper,最终只做到了 Push-T这种用MLP就能跑通的小任务。而Veo 3的团队,被问到是怎么做出这么好的效果时,回答只有两个字:diffusion(扩散模型)加scaling。
与此同时,视频生成领域也在发生架构变动:据讨论中提及的非公开传闻,Veo 3的多模态联合生成团队,可能已经拆分并入了Omni team,Sora 2 也在公开尝试把AR和diffusion 混在一起。但这些都更像是multi-modal generation model(多模态生成模型),距离真正的world model还有很大距离。
再精美的画面,it doesn't mean anything。我们真正想要的是:我把杯子推倒,它会倒到我身上,我会跳起来、会破防,所以从结果来倒推,我不能做这么没素质的事。这种长程因果推理,才是world model和video generation的本质分水岭。
9. 如果把三条路线放在一起看,world model本质上是一场效率的比较。假设我们有无限大的模型、无限多的数据、全地球的电力都用来跑world model,那任何一条路线都能scaling出一个无敌的世界模型,但问题是我们没有这么多资源。
在机器人层面,末端最多部署一个7B的模型,延迟要求50-100毫秒。在这个约束下,架构范式的核心问题就是:谁的压缩比更高?谁能用更少的参数、更少的计算量,压进更多关于物理世界的知识?符合Bitter Lesson的那条路线,最终会在这场效率竞争中胜出。
世界模型的推理成本目前确实很高。据The Information报道,Odyssey运行其世界模型每用户需要一整张 H200 芯片,成本为数美元/小时,而运行一个 70B 文本模型只需几美分/小时。MoE Capital 的综述同样指出,Genie 3 的运行成本大约在 100 美元/小时。这些数字让"压缩比"这个问题变得格外紧迫。
10. 这几条路线未必是在同一个赛道里竞争。更可能的情况是它们在应用场景上逐渐分化:3D路线最后可能去做游戏引擎和数字资产;生成式模型可能更适合做内容创作;而对物理世界表达要求最严格的机器人场景,可能需要一种特殊的混合架构——比如一个20B的encoder(编码器) 加上一个 5B 的predictor。
一种更本质的理解方式是:world model是梦境,policy是策略,agent是做梦的人。做梦的人行动,梦境回应;梦境回应,做梦的人再行动。而 action 是绕过传统仿真计算成本的"作弊码",在传统引擎中,模拟成本会随物体数量和互动复杂度急剧上升,场景越复杂引擎越慢;但 world model 在训练时,就把世界的运行模式吸收进了权重里,推理变成一次固定成本的前向传播,场景再复杂也不会让 engine 急剧变慢。(Not Boring × General Intuition, World Models: Computing the Uncomputable)

Insight 03 Benchmark:评估世界模型为什么比评估LLM难得多
11. 语言模型的benchmark形态相对单一,做好next token prediction,few-shot的事就解决了。但world model的任务形态天然更复杂:state 是多模态的、action 是异构的、时间尺度跨越从毫秒到分钟,这使得 few-shot在world model里比在language model里要难走得多,评估它的benchmark也相应地复杂很多。
12. 当前具身benchmark的设计存在两个典型问题:要么任务设计"反人类":比如让机器人用单臂去踢足球,这并不反映任何真实操作需求;要么一旦任务设计得真实(比如让机器人在家庭场景里完成长时序指令),所有前沿模型的成功率最高也只有22%左右,包括Dreamer Zero和π0.5。在这种"大家都一塌糊涂"的情况下,benchmark失去了区分优劣的能力。一个好的benchmark(比如Mandarin)应该偏向人类常见操作,而不是为了为难机器人而设计,也不应该为了拍好看的demo而只做最简单的pick and place。

13. 从评测技术的角度来看,当前评估世界模型有三个主要方向,每个方向都有自己的 gap:让 VLM 直接做理解(但 VLM 观察不到细节形变和微妙的物理量变化),用潜空间模型(如 JEPA)做latent距离计算即"surprise 值"(但 latent 本身没有解释性),用像素级追踪(如 CoTracker)做运动分析(但会被视角变化和光线干扰严重影响)。这三种方式单独拿出来都不够,需要组合成一个 Agent 系统来综合评测。但这样的系统目前还不存在。
14. 长时间rollout不崩溃是一个关键的评估维度。如果世界模型能支撑分钟级的自主rollout而不崩溃,它就可以充当一个安全的 simulation(仿真) 环境,替代真机 RL。这意味着可以像大语言模型做 RL 那样,大规模并行地在 world model 里跑强化学习,用 compute 换 simulation。但这又是一个鸡生蛋的问题:要让 world model 不崩溃,你需要大量 corner case(长尾边角情况) 的数据(比如杯子掉地上碎了之后怎么办、桌子被撞烂了会怎样),这种数据在正常操作中极其稀少。
要收集这种数据,可能需要大量机器人先被部署到现实世界中去 rollout,但大规模部署在商业上又不现实。在自动驾驶领域,这类长尾数据的采集要容易得多,量产车天然就是数据采集器,影子模式已经玩得很成熟。但对人形机器人或轮式机器人来说,这个矛盾短期内很难解开。
在本场讨论中,有一个尖锐的类比:明明我们在试图scaling出AGI level的super-intelligent,但我们在用300年前爱迪生造灯泡的方法去evaluate——每天换一种灯丝,换了三年终于发现钨最好。训模型的时候总共就三个事情:什么是 data、做什么模型、最后就是怎么benchmark。而 benchmark 的效能直接决定了迭代速度的上限。
15. 一个可能的破局思路是游戏化benchmark。益智游戏天然具有数学性的难度梯度——迷宫的复杂度随层级指数上升,汉诺塔可以解到 5 层、10 层、1 亿层,你永远有无限的OOD(out-of-distribution)样本。这种设计不依赖准确率(你不需要 99.9% 的成功率来标定一个模型),而是通过"你能闯到多少关"来衡量能力等级,就像语言模型里数学题所扮演的角色一样:一个有天然梯度的黄金 playground。如果 world model 的 benchmark 可以从准确率转向闯关式的能力等级衡量,那模型迭代的效率会被大幅加速。
16. 从test-time scaling(推理时算力扩展)的角度来看,world model是否存在类似语言模型o1那样的"多想一会就做得更准"的特性?一种直觉是:如果给模型更多 test-time compute,比如 rollout 100 次再选最优结果,效果应该会提升。实际实验也验证了这一点:用 video generation model 加多模态大模型做 generation 100 次,然后选质量最好的,效果确实有提升。但关键瓶颈在 critic model(评判模型) 上:你 test-time scaling 完之后,怎么判断哪个 rollout 是最好的?前置条件还不成熟,我们能生成一个人平静地走 10 分钟的视频,但还做不到让这个人走在路上遇到突发情况、发生一系列连锁反应的多变化节点生成。
17. 不过,从具身的角度来看,有一种隐性的 test-time scaling 已经在发生。机器人有一个跟语言模型本质不同的特性:无论你在某一步输出的 action 是对还是错,真实世界都会给你返回一个一定是真实的观测(因为你有摄像头)。这意味着机器人 context 里存的所有 history 都是这个世界真实发生过的事情。
带 memory/history 的模型可以利用这一点来补充 partial observation(部分观测) 的信息量。一个经典的例子是开冰箱:如果用不带 memory 的 VLA,它每次都会去试开右边的门,因为它不知道自己上次已经试过了打不开。但如果模型有 history,它知道"OK,我开右边的门打不开了",就会去试左边。这种通过行动探索来补充信息量的过程,本质上就是一种 test-time scaling,你多花了一些时间去探索,但你解决了 partial observation 的问题。很多时候 VLA 做不到的事情,不是因为模型能力不够,而是因为信息量不够。Memory 模式正在成为缓解这个问题的关键范式。
Insight 04 数据而非模型,驱动具身进展
18. 什么事情发生了,关于world model 的讨论就可以结束?一个比较明确的答案是:真正的zero-shot(零样本)或few-shot 机器人。今天所有自称"通用机器人模型"的系统,大概率都是overfit(过拟合)的:你要在一个具体的本体上,完成一个具体任务,一定需要这个本体特有的数据和场景。如果有一天,来了一个全新的本体,只需要做几个few-shot示范,模型就能自动推导出,在这个本体上应该怎么操作、完成unseen task(未见过的新任务),那就是机器人的 GPT-3 moment。GPT-3 的paper标题就是 "Language Models as Few-Shot Learners",不需要再训练、不需要 fine-tune(微调),直接在unseen task上做few-shot,这是语言模型最关键的能力跃迁。
今天在world model领域,已经观察到了一些few-shot的性质,但这些 few-shot性质所覆盖的任务,还未必是最具价值的那些。而且world model的few-shot,比语言模型的few-shot天然更难,语言模型的task只有文本一种形态,做好next token prediction就行;world model需要同时泛化到predict next state、predict next action、以及state-action 的各种组合,task形态天然更复杂。
19. 回顾具身智能的进展历史,每一次跃进几乎都是由数据驱动的,而非模型驱动的。从通过遥操收集数据训练large behavior model,到 RT-X 等项目汇聚多构型机器人数据,到Physical Intelligence大规模采集真实数据推动π0.5的出现,到UMI等无本体采集方式让数据量级提升10-100倍,再到Ego-View异构数据的兴起,英伟达EgoScale等工作验证了关键的Scaling Law,证明第一视角的人类活动数据可以大幅扩充具身的数据量。每一次跃进的背后,都是数据范式的突破而非模型架构的创新。
20. Ego-View可能是通往真正泛化的关键一步,甚至可能是唯一一条可行的路。逻辑很简单:把人当成另一种类型的机器人,在人身上装传感器,大规模采集人类在真实环境中与物理世界互动的数据。但目前最大的 Ego-View 数据集也只有10 万小时量级,距离百万、千万、上亿小时还有很远的距离。如果Ego-View 这条路走不通,很难想象具身还有什么别的路可以通往真正的泛化。
LeCun曾指出过一个类似的矛盾:我们的 AI 在某些方向上已经和通过律师资格考试的律师一样聪明,但它做不到一只猫能做的事。语言模型的成功建立在碳基生命已经完成了"抽象"这个任务的基础上,而world model要从零开始学习物理世界的运行规律,这个任务的难度要大得多。
21. 今年大概率还不会出现world model的分水岭。异构数据的采集仍需要时间,而且diversity比quantity更重要,单纯堆量而缺乏场景和人类 pattern 的多样性,意义有限。但趋势是积极的:除了 VLA 之外,机器人领域正在出现更多的技术路线可以选择走,world model就是其中一条。当不同路线在不同场景中逐渐分化、各自找到自己的位置,world model这个看似模糊的大概念,才会真正落地为一组具体的、可迭代的、有Scaling Law 的工程实践。
22. 讨论的最后,有朋友抛出了一个刘慈欣"朝闻道"式的问题:如果有上帝能回答你一个问题,你最想知道什么?有人说,想知道 world model 到底能不能真正反映物理意义上的交互,比如不同力度去抓不同软硬度的物体,它能不能预测出对应的形变?如果做不到,那world model做simulator和传统物理引擎做仿真相比,到底谁更接近真实物理?也有人说,想知道 Ego-View数据scale到上亿小时之后,具身是不是真的能涌现出泛化能力,如果这条路走不通,可能就没有别的路了。
"如果有'上帝'能回答你一个问题,你最想知道什么?"——这个问题本身就是这场讨论最好的注脚。World model 今天还远没有标准答案。
我们离让机器真正理解这个世界,还差几个数量级的数据、几个数量级的压缩比、以及几个我们现在还无法想象的范式级突破。但至少,路已经不止一条了。


五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
