元戎启行周光:越是理解 AI 的人,越不会质疑 VLA | 云启实干派
在智能驾驶的技术跃迁中,**云启早期被投「元戎启行」总是"第一个吃螃蟹的人"**。从无图方案到端到端模型,再到如今率先落地的VLA(视觉-语言-动作)架构,他们一次次站在技术拐点的前沿。

在智能驾驶的技术跃迁中,云启早期被投「元戎启行」总是"第一个吃螃蟹的人"。从无图方案到端到端模型,再到如今率先落地的VLA(视觉-语言-动作)架构,他们一次次站在技术拐点的前沿。
今年 8 月,元戎启行发布的 DeepRoute IO 2.0 使其成为国内首家真正基于 VLA 技术路线量产智驾的供应商。
近日,第一财经「新皮层」与元戎启行创始人、CEO 周光展开深入对话,详解元戎启行为何选择 VLA 路线、未来又有哪些新动向。本期**「云启实干派」与你分享**。
本文节转载自公众号"新皮层NewNewThing"
原标题:专访元戎启行周光:越是理解AI的人,越不会质疑VLA|新皮层对话
记者:吴一凡,吴洋洋
过去 10 年,智驾经历了好几拨技术浪潮:从基于高精地图的智驾方案到无图方案,从基于规则到基于深度学习,从深度学习到基于世界模型的强化学习,从普通端到端模型到大模型……几乎每次新浪打过来,就有一拨智驾公司受到冲击,然后要么关门,要么转型。
元戎启行是个特例。
「我们更多是变革者」,元戎启行 CEO 周光对第一财经「新皮层」说。作为 2019 年才创立的公司,元戎已经「掀起」过不下两次行业技术新浪潮:第一次是 2020 年的无图方案,当时基于高精地图的智驾方案是行业主流,但智驾系统受地图限制,并不能一次性进入所有场景。元戎 2020 年开始研发无图方案,并在 2023 年 3 月推出。随后,2023 年 4 月,华为发布同类无图方案的城区 NOA 系统。因为首次从高架场景进入人流量更大、用户体感也更直接的城区场景,智驾行业摸索了近 10 年后首次真正引爆市场。第二次就是 VLA。
今年 8 月 26 日,元戎启行发布基于 VLA(视觉-语言-动作)架构的新一代智驾系统 DeepRoute IO 2.0。相较于上一代系统,司机可以用自然语言跟新系统交互,甚至指挥汽车,以「下个路口往左转」「把车速降到 60」之类的自然语言控制车辆;而且相较于上一代模型,元戎启行称其 VLA 模型具有空间理解能力,能够完成更复杂的推理,比如对上一代系统而言,如果墙后的物体无法被看到,系统就会认为这个物体「不存在」,但 VLA 能够超越这种局限性。

元戎启行VLA系统做出「保持低速」决策,并给出理由「隧道内有电动车,前方左弯道盲区」。上一代CNN-based系统不具有这种空间识别能力,也无法给出决策理由。
周光将上一代端到端系统称作 CNN-based 的端到端,而 VLA 是 GPT-based 的端到端。 目前,元戎启行是第三方智驾供应商中唯一一家采用 VLA 技术路线的公司。造车新势力中,目前也只有小鹏汽车和理想汽车宣布了 VLA 上车计划。
面对外界对 VLA 模型的争议,周光认为,越是理解 AI 的人,越不会质疑 VLA。「现在还有什么神经网络是超越大模型的?没有,都是大模型。」他说。他甚至认为,智驾公司如果不能变成大模型公司,就是「死」。他给出的逻辑是「受框架限制,CNN-based 网络的学习容量是有限的」「VLA 的起点就是端到端今天水平的上限」。而他给出的一大证据是特斯拉,「HW5(即 AI5)芯片算力参数 2500 TOPS,你觉得什么架构会需要 2500 TOPS?不是 GPT 架构,那是什么?」周光说。
如果 VLA 再次如周光判断的那样改变整个智驾行业的潮流,元戎启行将第二次跳进名为「变革者」的河流——如果算上周光在元戎启行前创办的那家公司(Roadstar)在国内行业首创的「前融合」技术(注:一种在激光雷达、摄像头等多传感器作出决策前就能融合不同传感器的原始数据的技术,对应的「后融合」是待各传感器输出决策结果后整合),这将是周光第三次踏入这条河流。
元戎启行的无图 CNN 模型自 2024 年 8 月首次量产上车后,一年内实现了近 10 万台的出货量,今年 9 月单月出货量达到 3 万台。截至目前,元戎启行已达成 5 个 VLA 项目的定点车型合作。
以下是第一财经「新皮层」与周光的对话,内容经删减和编辑。

元戎启行 CEO周光。
做 VLA 的门槛是 10 万台车
新皮层:我们先从 VLA 开始聊吧,在第三方供应商里只有你一家在走这个路线。
周光: 第三方(智驾供应商)现在没几家了吧。
新皮层:还是有那么四五家的吧。
周光: 能做城市 NOA 的其实很少。供应商我觉得要先做出端到端、先进城区(场景),而不是谈下一代技术该怎么发展。VLA 其实是建立在端到端技术之上的。
新皮层:所以智驾技术的发展路径有个技术阶梯吗?
周光: 也算是数据阶梯,比如说从端到端到 VLA,对数据量的要求不一样。我记得我两年前做过一个估计,我说进入 VLA 的一个入场券可能是得达到量产 10 万台车,不然你的数据集是不够去做大模型的,而做端到端的基础可能是万台起步。
越大的模型,需要的数据量越多。做 L4 的公司有一台车就可以 demo 了,这就说明做 L4 不需要什么数据。我上一家公司(指Roadstar)以前是做 L4 的, 2017 年成立,当时就两台车,照样可以在深圳跑得很溜,因为靠高精地图和激光雷达就可以。这是第一代技术,可能 10 台车就可以了,到今天最大的规模也就是千台。
你要做端到端,起步是几百台、一千台,采集了数据之后量产,基本上就能达到万台。
到 10 万台以后,数据的增加对提高模型表现的作用也不大了,因为模型没有能力去吸收这么多数据。但 VLA 就不一样了,10 万台对于模型可能只是个起步。
新皮层:做 VLA 是有门槛的?
周光: 对,有门槛。你去看AI发展的历史,就是数据量越来越大、算力越来越大。今天也有公司还处于不同的阶段,有还在用 rule-based(基于规则的)、HD MAP(高精地图)的。当然它们运营得挺成功,也可以无人化运营了。也就是说,在这条技术线路上走到极致,是有一小批人在继续做的。那也有一小批人,像我们,选择了端到端。其实你走端到端,接下来就要走向大模型这条不归路了,基本上只能往 scaling 走,走到 VLA 就很自然。
新皮层:端到端的下一步一定会是 VLA?
周光: 肯定是 VLA,肯定是大模型。因为上一代端到端不是大模型,它还是一个经典的神经网络驱动的自动驾驶模型,并不是大模型架构的自动驾驶模型,这是有差别的。
新皮层:VLA和上一代端到端模型的差别是什么?
周光: 整个架构都不同,VLA 应该叫作 GPT-based 的端到端,之前的是 CNN-based 的端到端,也许这样讲大家就不会有什么疑问了。上一代的端到端是以 CNN 架构为主,加上少量的 Transformer。VLA 就是一个纯粹的 GPT 了,它长得跟大模型是一样的,但是现阶段数据量还不是那么多,但 VLA 的优势是随着数据量的增长而变大的。
现在行业内对 VLA 有各种各样的声音,我们不能只看国内,就拿特斯拉 HW5(即AI5)芯片来说,算力参数 2500 TOPS,你觉得什么架构会需要 2500 TOPS ?不是 GPT 架构,那是什么?用 CNN 的话为什么需要这么大的模型呢?
新皮层:不同的架构会让智驾的能力表现很不同吗?
周光: 开车能力上的话,像我们是专注在后面一点(注:指更偏向安全兜底、风险预判的能力环节),我们希望在防御性方面有所增强。VLA 能做的事情很多,比如识别路牌——这不是端到端可以做的——还有防御性驾驶、异形障碍物识别、语音交互,这都是 VLA 模型天然就能实现的。
当然,这都需要时间,我们会挑一些我们认为是重点的能力去率先突破。全面突破还不到时候,目前的算力不是很够,英伟达的 Thor 芯片仅有 1000 TOPS 的算力,要去做所有的事情太吃力了,我觉得 10000 TOPS 会比较合理。另外,数据量也没跟上,但是 VLA 的起步就会比端到端模型表现好。
新皮层:「防御性驾驶」这个词需要解释一下。
周光: 一句话概括,就是让 AI 害怕。现在 AI 都是不怕的、无所畏惧的,错了就错了,反正也没什么,但所有的动物都会害怕,都知道趋利避害。
新皮层:为什么要让智驾系统有这个能力,以及要怎么让它获得这个能力?
周光: 要在训练模型的过程中赋予 AI 它会害怕的数据。比如公交车前面突然蹿出来一个人,这时人会感到恐慌。或者说在一个遮挡特别严重的地方,像桥洞,把车从里面开出来的时候,人也会慌,不敢开那么快。人有这种防御性的意识:先看清楚,先降速。除了刚才举的例子,还有大量人在驾驶过程中感到恐慌的场景,我们会把这些数据记录下来,然后去训练神经网络。端到端的数据采集是没有「恐慌」这个概念的。
新皮层:有这种数据吗?人的恐慌是在心里的。
周光: 人会把它表达出来。
新皮层:那你要专门收集这种数据?市面上有这种现成的数据集吗?
周光: 肯定会去专门收集这些「害怕」的数据,当你的数据集具有「害怕」这个标准,AI 自然而然就学会了害怕。这个是没有现成的数据的。
新皮层:你刚刚提到的算力不够是不是国内现在很多厂商要自研芯片的原因之一?
周光: 如果自研一个 100 TOPS 的芯片,那没有意义,要自研芯片就要自研大算力芯片。特斯拉的 HW4(即AI4)到 HW5(即AI5),算力涨了 10 倍,HW4 大概是 200到300 TOPS,和 Orin 差不多,HW5 是 2500 TOPS,也有各种传闻说是 2000 到 4000 TOPS。从来没有芯片跨越这么大的代差,以前的算力可能是涨两三倍,这次突然之间涨 10 倍,其实都是因为大模型。
我们不会自研芯片,因为术业有专攻。
新皮层:所以你不觉得VLA是个冒险的选择?
周光: 不冒险,大模型已经走通了。当年 OpenAI 去做大模型是冒险,但我们这有什么好冒险的,我认为就应该是这么做的。现在还有什么神经网络是超越大模型的?没有,都是大模型。
新皮层:大模型已经在数字世界证明了它的成功,但在物理世界呢?
周光: 它一定得是大模型的架构。大模型擅长什么?擅长时序和推理,那开车不需要推理、不需要时序、不需要理解文本吗?开车不需要互联网的知识吗?举个例子,我们看到一个装着垃圾袋的三轮车,大模型会知道这是一个收垃圾的老大爷。
新皮层:它的识别能力比 CNN 要强?
周光: CNN 根本就没见过这种能力。
新皮层:你怎么理解外界对 VLA 的质疑?
周光: 任何一个东西都是从 baby 长大的。可能现在有一些质疑,但第一,每一家公司的进展还不一样;第二,现在 VLA 可能的确还是个「小孩」,而上一代的技术可能成长为了「中年人」,一个中年人能干过一个小孩,这有什么好说的,而且现在都没干得过,二者差不多。
新皮层:你觉得它们的上限是不同的。
周光: 显然不同,VLA 的起点就是端到端今天的水平。我觉得越是理解AI、理解大模型的公司,越不会去质疑(VLA)。
新皮层:VLA 的上限是什么?
周光: 上限是智能体(Agent)。今天大模型做不好的,VLA 也很难做好。但是我们还远没到天花板呢,这个提升的空间来自算力、数据那些。你想今天大模型已经摸到了算力天花板、数据天花板了,我们还早得很呢。
现在 VLA 面临数据集的问题,还有一个就是 L(Language)到 A(Action)这部分,我们这种(VLA模型)肯定跟完整的大模型还有差别,V(Vision)到L(Language)的部分其实是相通的,但是 L(Language)到 A(Action)这部分还有很多事情要去摸索。
车企从不相信智驾
到有 FOMO 心态
中间只经过了 5 年
新皮层:VLA 可以落地的场景有哪些?
周光: 首先肯定是车了,因为其他终端还没有那么大的量。如果做一个东西的起步就是 10 万台,今天还有什么东西可以提供 10 万台的数据吗,我觉得应该是没有。
新皮层:你打算先把它用在 Robotaxi 场景还是客户的量产车上?
周光: 量产车,现在的 Robotaxi 不可能有那么多数据,VLA 起步就得 10 万台,我觉得达到百万台效果会更好。
新皮层:你选择客户有什么策略?
周光: 我们倾向与客户深度合作,和客户一起打造爆款车型。真正具备规模的通常是(销量排名)前五十左右的车型,与其分散精力覆盖过多车型,不如集中资源服务头部项目。你承接的业务范围越广、合作的车型越杂,客户反而越不会将优质车型项目交给你,因为很难建立长期深度合作的信任。
新皮层:VLA 的量产客户敲定了多少?
周光: VLA 模型已达成 5 个定点合作项目。现阶段我们辅助驾驶方案(注:指上一代端到端系统)上车数量超过 10 万台。
新皮层:怎么这么快做到 10 万台的?
周光: 我们的无图方案第一次量产上车是去年 8 月左右,一年出货了10万台,而且不是那种低端的,都是高阶城市 NOA。一开始量产有个爬坡,现在每个月出货过万,接下来可能很快就能达到一个月两三万台。
新皮层:拿下愿意上 VLA 的客户对你来说有挑战吗?
周光: 没有,现有客户已经看到了技术带来的实际价值,愿意再尝鲜嘛。
新皮层:外界还在质疑VLA,你怎么说服你的客户接受?
周光: 第一,我觉得他们 FOMO(fear of missing out,害怕错过);第二, VLA 在「防御性驾驶」上有优势,靠端到端做不到,因为端到端没有空间理解能力。
新皮层:元戎 2019 年成立,当时跟车企谈智驾量产的难度有多大?
周光: 那个时候的车企应该是不怎么相信自动驾驶的。我觉得后来是华为说服了市场,讲了无图方案「全国都能开」,然后才有了我们的机会。因为如果自动驾驶没有进城区,用户对自动驾驶是很难有感知的。
新皮层:车企从 2019 年不相信自动驾驶,到现在有 FOMO 心态,为什么会发生这种改变?
周光: 第一就是坐车的体验有质的变化,另外就是大模型的发展刷新了所有人的认知。我觉得对大家冲击最大的就是大模型,作为一个AI从业者,我第一次跟 GPT 聊天的时候也非常兴奋。我们以前都认为从弱 AI 到强 AI 需要很久,GPT 出来以后,我感觉这个 50 年可能一下变成了 5 年,这是非常反直觉的。
而且,GPT-4V 出来的时候我的反应也是很大的,就想如果是 GPT-4V 来开车那会是怎样。它可以给你讲出每个场景你需要注意什么,这个是端到端做不了的。比如深圳福田保税区的入口处,有一块「车辆左转不受灯控」的牌子,这怎么靠数据训练出来?没有语言,模型怎么去学它?这都不符合统计学,所有的统计学都告诉模型红灯可以右转,但它不会告诉你红灯时还可以左转的情况。当时(2024 年)我们的测试车遇到红灯就停了。
新皮层:你想做 VLA 是受 GPT-4V 的启发?
周光: 就是 GPT。说实话,如果我们不主动拥抱,那一定是大模型公司打败我们。这就跟当时我们淘汰掉上一代的自动驾驶公司一样,我们靠端到端淘汰了它们。现在哪怕是那种低算力芯片的公司也都开始改做端到端。
我当时看到了 GPT-4V 的整个推理过程,实打实地拿一些场景问它需要注意什么,我们解决不了的,它都可以给提示,比如它告诉你前面有辆大车,上面的箱子可能要掉下来了,有危险——它有 language,只是缺少 action plan(动作规划)。端到端是没有这个提示的,它不可能理解这种东西。
如果不能变成大模型公司
就是「死」
新皮层:你什么时候开始想做 VLA 的?
周光: 2023 年年底,2023 年暑假的时候 Google RT-2 的那篇论文出来了(注:指《RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control》,主要介绍了机器人领域的 VLA 模型),当时我就有想法了。然后到 2024 年我们就决定了要做这个,2024 年 8 月的时候我们的端到端模型量产了。
新皮层:那个时候你拿到创业以来的第一个量产客户了吗?
周光: GPT-4V 出来的时候还没有,但那时我们拿下端到端项目的定点了。2023年年底的时候我就跟大家说,如果不能变成大模型公司,(公司)就是「死」。
新皮层:所以上一代技术刚投入下去的时候,你就要切换到新技术?
周光: 没有切换,是继续做,但是我告诉大家,我们一定得「大模型化」,一定得是大模型的工作模式,我不希望我们公司还有什么感知、规控小组,no。
新皮层:那时候你们还是有感知小组和规控小组的?
周光: 当然有。
新皮层:相当于当时有三代技术同时在你们公司里。
周光: 没有,那个时候还没有VLA,我们是做完了端到端才转去VLA的。
新皮层:当时 CNN 端到端的投入成本都还没收回来吧?
周光: 现在收的是 CNN 端到端的回报。
新皮层:从 CNN 端到端转到VLA,对组织架构有多大影响?
周光: 端到端的组织架构还是可以沿用上一代(注:指基于不搭载高精度地图的智驾技术)的组织架构,VLA 不行,VLA 整个组织架构是跟大模型公司是一样的。
新皮层:现在端到端和 VLA 是公司里两个不同阶段的业务?
周光: 一个在成熟期,一个刚开始。你可以这么理解,一个是尼安德特人(注:一种已经灭绝的的古人类)的成年人,一个是智人(注:现代人所属的物种)的小学生,智人比尼安德特人更高级,这两个不是一个物种。但是你会发现这个小学生已经具备了上一代成年人的能力。我肯定会支持(VLA)这条路,因为还有未来。
前融合、无图、VLA
我们都是第一个做的
新皮层:你 2017 年出来创业的时候,这个领域已经有一些公司了,很多来自百度,而你当时刚毕业,你会觉得自己下场晚或者产业背景不够吗?
周光: 没有,那拨创业全是 rule-based 的,我不认为那种叫自动驾驶。编程和 AI 没关系,这两者的差别就是语文跟数学的差别。
新皮层:当时他们已经在做 L4 了。
周光: 其实我觉得 L2、L4……这个划分蛮不准的,太落后了,它是 30 年前定义的标准,那时甚至连 AI 都没出现。自动驾驶的划分方法应该是从 rule-based 到 CNN-based 的端到端,再到 GPT-based 的端到端,这是一种基于技术视角的划分。你可以看 OpenAI 对 AGI 的等级划分的定义非常清晰:Chatbot、Reasoner、Agent、Innovator、Organizer。
新皮层:GPT-based 的端到端对应的是 Reasoner 还是 Agent?
周光: 自动驾驶和 digital AI 不完全一样,我也没想好怎么分级。我一直在说Level xx 的分级方式非常过时,特斯拉给了我们一个答案,它实际上是想从L2直接到L5的,跳过了 L3 和 L4 。特斯拉没有提过 L3,连产品规划都没有,直接上Robotaxi。今天,特斯拉的 Robotaxi 在部分区域运营得比较安全,但不代表在这个区域之外用不了,只是说在奥斯汀之外,安全系数可能会低一点。特斯拉就是完全不遵循 Level xx 的定义,试图直接从 L2 一步到达 L4、L5。
新皮层:L4 和 L5 的差别是?
周光: L4 是指你只可以在某一区域用,L5 是指全国可以用。当年 L4 跟 L5 的区别就是高精度地图覆盖区域的区别:你这个图是全国的图,还是说只是一个省、一个城市的图。
新皮层:这个划分方式有点任性。
周光: 30 年前的机器人是经典机器人(classic robots),核心就是 SLAM(Simultaneous Localization and Mapping,同步定位与地图构建),是完全基于图的。SLAM 的一个变种就是 HD MAP。SLAM 是同时建图加同时定位,但在真实世界中可以把图先采了,这样就不需要实时建图了,只需要定位就行,这就是 HD MAP。
在今天的大模型时代,谁还讲 SLAM?AI 足够强大之后,这些建图、扫图的过程是不需要的,可以去推理。所以,我们今天的这个模式是通过推理实现的,模型推测出该做什么,而不是通过地图来告诉我该做什么。所以说,自动驾驶这个分级方式还得重新想一想。
新皮层:要不你自创一个?
周光: 我还没想,也许可以想个更好的划分方式,毕竟这东西用了30年了。
新皮层:当时在你看来传统意义上的 L4 并不是一条必须要走的路?
周光: 不是。我有认知是2019年的时候,那时我和顶尖的AI学术圈有过交流,然后我意识到感知可以解决认路问题。
新皮层:前融合、无图和 VLA,你都是行业里第一个做的,这些都是当时最前沿的技术,但不一定是最可靠的,你怎么判断风险?
周光: 那肯定不是(最可靠的),你还是得有自己的技术判断力。
新皮层:有点像现在讨论的「要不要激光雷达」?
周光: 单就这个问题,我的回答是要。但你要是给我的钱够多,我就不要。因为你给我的钱多,我就可以用数据解决这些问题。所以就看你到底是把这个钱花到数据上,还是花到传感器上。特斯拉为了解决 OCC(占用网络)花了非常多钱, OCC 基本上解决得差不多了,就不太需要激光雷达去识别异形障碍物。
新皮层:你要选什么样的技术方案多大程度上取决于主机厂或当时有意向的客户?
周光: 我们当时做无图完全没有考虑这个,只是沿着正确的技术线路走。我们认为神经网络是可以识别道路拓扑结构的。那个时候要做的是 BEV 方案(注:BEV指鸟瞰视角的结构化数据表现形式,是无图方案实现的关键前提),早在2020年我就决定要做 BEV。感知的第一步是前融合,第二步就是 BEV,它是前融合的一个变种,是前融合的下一阶段。
新皮层:特斯拉也是在那个阶段开始做 BEV。
周光: 2021 年,Andrej Karpathy 在特斯拉 AI Day 上介绍了 BEV,而我们是国内最早搞(BEV)的公司。
新皮层:你那时有参考特斯拉吗?
周光:没有参考,所以说我们是中国第一个做出无图的,但我和 Karpathy 有过交流。
新皮层:你当时怎么判断Karpathy的想法是对的?
周光:因为我也是这么想的。那个时候 Karpathy 的整个团队也就十来个人,但关键是你到底要跟谁形成共识?跟不懂 AI 的形成共识,那肯定是错的。当然了,无图是把高清地图去掉,用感知去替代。感知是一个 model,但规控还是 rule-based,一开始会不好用。
变革者的价值是可以弯道超车
VLA是又一个弯道
新皮层:你觉得现在元戎大概在一个什么样的阶段?
周光: 商业化加速的阶段。以前是一个科研的阶段、demo 的阶段,到商业化加速阶段就是去面对一些残酷的商业竞争,坦然面对嘛,想开一点,有自己的坚持,只做正确的事。
新皮层:挺多公司的商业化比你们早好几年。
周光: 如果技术路线方向本身存在偏差,即便提前启动,后续也可能面临更多调整和挑战。
新皮层:你觉得现在是一个拐点?
周光: 每一次技术变化都是一个拐点,技术不变凭什么可以超过头部?
新皮层:其实大家都在之前的 10 年中经历了至少一个转折。
周光: 对,都要经历。我们其实都是主动的,我们更多是变革者吧,并不是被行业倒逼的。
新皮层:作为变革者,你获得的东西是?
周光: 弯道超车。通过率先布局无图、端到端,目前在城市 NOA 这一高阶辅助驾驶领域,元戎启行的搭载量在第三方辅助驾驶供应商里已位列行业前三。
新皮层:有代价吗?
周光: 你做好了之后,别人可以抄你的。还好,我们又不是只有一个技术,我们在第一次做前融合的时候,就有人说你做出来了,别人抄得也快,怎么办?我说我们更重要的是能够持续地做对事,你只做对一件事是靠蒙的,要是连续做对就绝对不是靠蒙的。
新皮层:VLA 有护城河吗?
周光: 我觉得护城河最终还是商业能力。商业能力、数据优势就是你的护城河,技术只是给你一个弯道超车的机会,但是不可能永远都是弯嘛,在直线的时候还是拼产品、体验、服务这些东西。
新皮层:你现在进入到直线阶段了?
周光:CNN 端到端是直线阶段,但是我认为 VLA 又是一个弯道。
新皮层:过去 10 年的智驾发展过程中,是不是每个创业者都曾不断面临路线选择问题?
周光: 没有,我们好像没什么感觉,我们都是 follow AI,可能在一些人看来是转折,在我们看来这就是正常走路而已。
新皮层:VLA 之后算走到头了吗?
周光: 整个行业都往大模型走了。
新皮层:你现在需要为下一代技术考虑吗?
周光:VLA 就是下一代技术。
新皮层:你该做的技术布局都已经做得差不多了?
周光: 远远没有,GPT 是一个方向,比如说你要往北走了。但往北走还会面临很多选择的,而端到端是一个很窄的东西。
新皮层:新方向上的选择是已知的还是未知的?
周光: 都有。
新皮层:接下来会发展 Robotaxi 业务吗?
周光: 我们会用 GPT-based 的端到端去做 Robotaxi。我们不会再去采图了,不会再用 HD MAP,这些都是被淘汰的技术了,我们要做的一定是类似特斯拉的 Robotaxi 模式—— AI-driven 的,大模型的模式。
新皮层:现在 Robotaxi 业务在什么阶段?
周光: 在筹备,后面会披露。我们会作为技术第三方去做这个事。
新皮层:今年会是 Robotaxi 的一个窗口期吗?行业内有这种说法。
周光: 我觉得还是看特斯拉吧,现在更应该关注的是更具前瞻性的路径。
新皮层:从规模、用户、品牌这些层面去看,如果 Robotaxi 做得慢,你会焦虑吗?
周光: 还好,大模型是新的路线,前面搞得再嗨未必有用。
新皮层:但市场上已经有一些品牌在了。
周光: 如果体验做不到,只能在有限的地方运营,只跑几个地方、几条线路,没有意义,没有商业价值。


