李想“不想造车”的背后,其实是想造“司机 Agent”

500

李想认为,理想汽车的智能化原创性已超增程。

作者|曹思颀 周永亮

编辑|靖宇

五个月前,李想高调地宣布了将 All in AI,表示理想要从一家智能汽车公司,转型迈向一家人工智能科技公司。

而这次,李想带着全新的 VLA(Vision-Language-Action)模型走到了公众面前。此前,VLA 已经在 3 月的英伟达 GTC 大会上首次发布,它是理想汽车去年在辅助驾驶领域「端到端+VLM」的双系统架构上进化而来的新架构。

智能化,既是理想近年来最希望打造的标签,也是重点投入研发的方向。理想 2025 年产品的核心点都主要围绕智能化升级升级展开,李想曾在内部说:

「理想的智驾原创性超过了增程」。

因此,推出全新的 VLA 架构模型,李想希望让辅助驾驶进化出类似人类司机的能力。在李想看来,VLA 是理想的「司机大模型」(或「司机 Agent」),他希望这个模型/智能体能像人类司机一样工作,将来也能像人类司机那样创造商业价值。

在 demo 演示视频里,理想的这个「司机 Agent」展示了和人类司机类似的智能能力:不仅具备现有的优秀辅助驾驶能力,而且还能直接通过语音的方式和人类驾驶员高效交互。

在通过高速收费站时,直接说出「走人工」三个字,系统就可以从 ETC 收费通道转向人工收费通道;在日常驾驶和泊车环节,也可以通过「前方掉头」、「C 区停车」、「靠边停车」等简单指令,调整行车或泊车的路线,达到了我们日常和网约车或代驾司机沟通的水准。

01

辅助驾驶再进化:从「双系统」到 VLA

经过了十几年的发展,辅助驾驶经历了多次迭代。其架构演进大致可分为模块化⽅案(2022 年之前)、端到端感知(2023 年)、VLM+E2E (2024 年)。

总的来说,自动驾驶大脑的设计从「各自为政」的小团队,进化到「边看边学」的超级学生,再到「常识+行动」的尝试。

如今,辅助驾驶又来到新的十字路口—— VLA。这也是理想 AI Talk 第二季的重点。基于此,李想认为,辅助驾驶处于「黎明前的黑暗」,黎明马上就要来了。

其实,2025 年 3 月的英伟达 GTC 大会上,理想就发布了下一代自动驾驶架构 VLA。这里稍微介绍一下,VLA 最早是由 Google DeepMind 在 2023 年 7 月提出的用于机器人控制的模型,其以大语言模型为基础,模型在接收摄像头的原始数据和语言指令后,可以直接输出控制信号,完成各种复杂的操作。

对于理想汽车而言,李想表示,VLA 是一个「司机大模型」,它像人类司机一样工作。同时,李想强调,VLA 的诞生不是突变,而是进化。

简单说,VLA 并非抛弃端到端,而是将其作为 VLA 行动(A)部分的基础。只有做好规则算法,才能知道如何做端到端,只有把端到端做到极致水平,才有机会去做 VLA,这个过程没有捷径。

他详细阐述了训练 VLA 的四个步骤,这有点像人类学开车的过程。

500

VLA 司机大模型的训练和推理过程 | 图片来源:直播截图

第一步是预训练,就像去驾校前先学交规、认路标,这一步的目标是让AI拥有对世界和交通的基础认知。理想先训练了一个 VL(视觉和语言)基座模型。然后,它会被「压缩」(蒸馏)成一个更小、能更快运行的模型(约 32B 参数),这样它才能流畅地跑在汽车里的车端芯片上。

第二步是后训练,像在驾校里跟着教练练车。工程师让 AI 观看大量人类司机开车的视频,学习模仿他们的操作。把会「看」和「听」的模型,跟学会了「行动」的模型结合起来,形成一个初级的 VLA「端到端」模型。

第三步是强化训练,像拿到驾照后,在社会上不断磨练提升,成为经验丰富的「老司机」。这个过程要经过两个考验:第一, 参考大量人类司机的驾驶数据。当它做得好时得到「鼓励」,做得不好的时候,比如让人类接管了,得到「反馈」。

同时,理想汽车搭建了一个非常逼真的虚拟「交通世界」,有点像一个超高水平的模拟器,让AI在里面自己练习。

最后,有了这个 VLA「司机大脑」后,理想汽车还设计了一个「司机Agent」。用户可以像跟你自己的司机说话一样,用自然语言告诉车想去哪、怎么开,Agent 会把你的指令传达给 VLA,让它去执行。

不过,李想也表示,VLA(司机大模型)能够解决到全自动驾驶,但未来可能还有效率更高的架构。虽然目前的 Transformer 是能力最强的架构,甚至有机会超过人类,但它对算力的要求还是很高。这也意味着 VLA 可能并非终极解决方案,未来的技术演进仍充满变数。

02

拥抱开源,感谢 DeepSeek

DeepSeek 的出现,加速了 AI 领域的进化,也影响了理想在 AI 领域的研发进程。

在原有的计划里,理想原计划在今年 9 月先推出一个足够好的语音模型(即 VLA 里的「L」部分),在此基础上再继续训练 VLA 模型。DeepSeek 的出现让理想看到了「站在巨人肩膀上」的机会。

据李想回忆,今年 1 月 DeepSeek R1 模型发布并开源后,他很快就和 CTO 谢炎、基座模型负责人陈伟达成了共识。团队内部认为应该以此为基础,加速 VLA 研发进展,并研究如何在芯片上也跑到同样的训练和推理的效率。

李想说,公司「拥抱 DeepSeek 的过程比想象得快」。而更加令人意外的是,李想披露了公司开源自研四年的整车操作系统——理想星环 OS,其核心动因并非战略考量,而是受到 DeepSeek 开源精神的鼓舞,「说白了纯粹是感谢 DeepSeek」。

500

李想在 AI Talk 中发表观点 | 图片来源:直播截图

当然,AI 的研究和投入也在继续。李想说,2025 年理想购买的训练卡比预期大概「多了 3 倍」。

目前,理想正在训练两个基座大模型,分别是:

一个用于「理想同学」App 的模型基座,参数量约为 300B(3000 亿),使用场景是用在类似豆包、KIMI 的语音模型应用上

VL(Vision+Language)模型底座,参数量大约在 32B(320 亿),为 VLA 模型的训练基座

在李想看来,VLA 模型是一条 DeepSeek、OpenAI、Waymo 等公司都没有走过的「无人区」,和目前通用语言模型最大的不同之处就在于,训练 VLA 模型,需要加入足够过视觉和语言联合的语料,即三维图像和模型对世界的理解语义要同时产生的,而这样的模型并没有原始数据。

在春节之后理想的第一次例会上,李想将 DeepSeek 的出现比作 Linux 的推出,并表示理想要追逐人工智能的「安卓时刻」。理想希望可以在专业和垂直领域里,训练出一个专用大模型,以提升垂直领域的 AI 能力,并最终交付价值。

在访谈最后,李想也提到了竞争对手特斯拉。他表示目前特斯拉 FSD 在国内的模型水平,并不代表特斯拉的真实实力,「大概在用 V12.5 以前的模型」。但整体来看,他依然认为特斯拉 FSD 系统的基本功很扎实,是理想真正需要学习的能力。

「基本功」也是这场 AI Talk 中李想反复提到的高频词汇。他认为「不可能不做前面的积累,直接吃到第 10 个包子」。他认为在内卷的环境下,更要重视基本功,否则创新会变成昙花一现。

而人工智能,显然是当下李想和他的团队认可并正在大力投入的那个方向。

*头图来源:理想 AI Talk 第二季

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

站务

全部专栏