VLA
Vision-Language-Action
VLA(视觉-语言-动作模型)正成为具身智能领域的主流技术路线,但其具体架构和落地路径在不同场景下分化明显。在机器人领域,智平方是国内最早确定端到端 VLA 范式的公司之一,2024 年 6 月推出的 RoboMamba 在未见任务泛化能力上超越了 Google RT 系列,2025 年 4 月又发布了全球首个全域全身 VLA 大模型 GOVLA。星尘智能则提出 CLAP 框架,通过对比学习将人类视频中的状态转移映射到物理可执行的动作码本,让机器人能从 YouTube、抖音等平台的海量视频中学习技能。
不过,VLA 架构的局限性也在真实部署中暴露。自变量机器人在 2024 年底发布基于 VLA 的 WALL-A 后,通过家庭场景落地发现其本质上是视觉、语言、动作三个独立模块的拼接,数据逐级传递导致信息损耗,且模型只能模仿训练轨迹而无法真正理解物理规律——"它不理解杯子为什么会掉"。这一判断推动其 2025 年转向从底层重写的 WALL-B 架构。
在自动驾驶领域,VLA 被视作端到端之后的下一代技术。元戎启行 CEO 周光将两代技术类比为"CNN-based 端到端"与"GPT-based 端到端"的区别,认为 VLA 的优势随数据量增长而放大,但入场门槛是量产 10 万台车级别的数据规模。截至 2025 年 9 月,元戎启行上一代无图 CNN 方案已上车近 10 万台,VLA 模型则达成 5 个定点合作项目。
工业场景中的应用边界同样清晰:VLA 使机器人能处理柔性物体和混料场景,但当前端到端执行速度普遍停留在 10–15 次/分钟,远低于传统工业机器人的 80–150 次/分钟,在亚毫米级精度要求的核心制造工序中尚难替代既有方案。
由 AI 生成,可能出现错误,请仔细核对内容。
相关报道
2026年了,我们还在用爱迪生试灯丝的方式评估World Model
一场关于World Model的严肃讨论。
五源资本·制药实验室的“OpenAI 时刻”:「合碳智能」完成 5000 万融资,机器人科学家走上实验台
机器人科学家的故事刚刚开始
云启资本·元戎启行真实路测:当 AI 学会“害怕”,辅助驾驶的“黑盒”被打开了 | 云启伙伴
当车开始理解世界
云启资本·云启季刊 | 向上,是一致的回答
新成长、新收获
云启资本·自变量机器人王潜:具身智能 Scaling law 还有多远? | 云启实干派
具身智能 ≠ 把 Deepseek 塞进宇树
云启资本·云启伙伴 | 「元戎启行」9 月份量产交付超 30000 台,再创新高
VLA 如何开创驾驶新未来
云启资本·





