产品

VLA

Vision-Language-Action

VLA（Vision-Language-Action，视觉-语言-动作）模型是物理AI的重要分支，代表了传统多模态大模型向行动能力的延伸，核心是将视觉、语言与动作指令融合，构建"多模态输入→动作输出"的端到端系统。

当前VLA在工业与物流场景中的落地已呈现清晰的能力边界。据云启资本2026年初的分析，VLA带来的增量主要体现在三方面：覆盖非结构化场景、扩展至柔性与多形态物体、降低工程配置门槛；但端到端执行速度普遍停留在10–15次/分钟，精度和长期稳定性仍明显弱于传统工业机器人。峰瑞资本李丰则以羽毛球学习作比，指出视觉到语言再到动作的转化链条"并非单靠数据积累就能自动完成"。

技术路线上，智元机器人2025年提出的ViLLA架构试图通过引入隐式动作标记来弥合VLA的语义鸿沟，其GO-1模型采用VLM+MoE的三层协同设计；星尘智能的Lumo-1则强调推理-动作真机训练与强化学习校准，以解决VLA依赖"轨迹记忆"导致的抽象概念失效、环境泛化困难等缺陷。而自变量机器人的WALL-世界模型则直接挑战VLA范式，认为文本、视觉、动作"根本不在同一个流形上"，直接联合优化会让继承自视频基础模型的能力在适配中被损耗。

亦有从业者持更审慎态度。逐际动力创始人陈亦伦在2026年初的一场对话中表示，VLA是其在自动驾驶领域"基本已被充分试错的路线"，因此一开始就放弃了该路线。

由 AI 生成，可能出现错误，请仔细核对内容。

VLA产品

Vision-Language-Action

暂无关系图谱

在 9 篇文章中被提及