产品

VLA

Vision-Language-Action

VLA(视觉-语言-动作模型)正成为具身智能领域的主流技术路线,但其具体架构和落地路径在不同场景下分化明显。在机器人领域,智平方是国内最早确定端到端 VLA 范式的公司之一,2024 年 6 月推出的 RoboMamba 在未见任务泛化能力上超越了 Google RT 系列,2025 年 4 月又发布了全球首个全域全身 VLA 大模型 GOVLA。星尘智能则提出 CLAP 框架,通过对比学习将人类视频中的状态转移映射到物理可执行的动作码本,让机器人能从 YouTube、抖音等平台的海量视频中学习技能。

不过,VLA 架构的局限性也在真实部署中暴露。自变量机器人在 2024 年底发布基于 VLA 的 WALL-A 后,通过家庭场景落地发现其本质上是视觉、语言、动作三个独立模块的拼接,数据逐级传递导致信息损耗,且模型只能模仿训练轨迹而无法真正理解物理规律——"它不理解杯子为什么会掉"。这一判断推动其 2025 年转向从底层重写的 WALL-B 架构。

在自动驾驶领域,VLA 被视作端到端之后的下一代技术。元戎启行 CEO 周光将两代技术类比为"CNN-based 端到端"与"GPT-based 端到端"的区别,认为 VLA 的优势随数据量增长而放大,但入场门槛是量产 10 万台车级别的数据规模。截至 2025 年 9 月,元戎启行上一代无图 CNN 方案已上车近 10 万台,VLA 模型则达成 5 个定点合作项目。

工业场景中的应用边界同样清晰:VLA 使机器人能处理柔性物体和混料场景,但当前端到端执行速度普遍停留在 10–15 次/分钟,远低于传统工业机器人的 80–150 次/分钟,在亚毫米级精度要求的核心制造工序中尚难替代既有方案。

由 AI 生成,可能出现错误,请仔细核对内容。

VLA产品
Vision-Language-Action
暂无关系图谱
在 6 篇文章中被提及

相关报道