一文看懂VLM:自动驾驶里那个会看图说话的AI

0 评论 123 浏览 0 收藏 8 分钟

自动驾驶技术正经历从模块化到端到端,再到VLM与VLA的演进。VLM(视觉语言模型)为自动驾驶带来了革命性的理解能力,不仅能识别路况,还能进行高级推理并解释决策逻辑。然而其行动鸿沟问题催生了双系统分工、训练阶段介入与模型压缩三大工业解法。本文将深度拆解VLM如何赋能自动驾驶系统,以及技术路线如何走向更高级的VLA形态。

自动驾驶的技术发展史主要分为四个阶段,模块系统、端到端、VLM、VLA

第一阶段,模块系统阶段。在该阶段将自动驾驶拆分为感知、预测、规划、控制四个独立模块,各模块分别用 AI 或算法处理,再串联成流水线。在该阶段接口耦合复杂,不仅系统调试困难,还存在信息传递误差的情况,调试系统成本较高,改动困难。

第二阶段,端到端阶段。在该阶段工程师用单一神经网络将传感器输入直接映射到驾驶动作,省去复杂的中间模块,实现联合优化然而该阶段存在黑箱问题,AI做出决定但无法解释为什么,出了事难以追查原因。遇到极少见的长尾场景完全不知道该怎么办。

第三阶段,VLM介入。VLM(Vision-Language Model,视觉语言模型):能同时处理图像和自然语言的大模型,被引入自动驾驶用于场景理解和高级推理。VLM 能看懂路况,能用语言描述,但从描述到踩油门几成、方向盘转几度这一步跨不过去——它能说,但不会动。学术界称之为行动鸿沟

第四阶段,VLA阶段。VLA(Vision-Language-Action,视觉-语言-动作):在 VLM 基础上增加动作输出能力,将视觉感知、语言理解、动作控制三者统一进一个模型,实现从感知输入到控制输出的完整闭环。

今天我们主要来讲解VLM。VLM是一种能够同时处理图像和自然语言的大模型。VLM会用视觉编码器对图像进行处理提取出里面的车辆、行人这些信息,编码为向量。然后通过跨模态注意力机制,让语言解码器在生成每个文字时,自动关注图像中与该文字最相关的区域,然后输出自然语言。

在自动驾驶里,VLM在看到画面和做出决策之间加了一层理解和推理。比如从前它能认出前面有辆车,有个行人,但是不理解。他们在干嘛?VLM就会输出,前方左侧有行人在穿越,右侧车道有车辆靠近,建议减速并保持当前的车道。这段文字就是一个推理过程,系统为什么做这个决定,理由是什么,都能说清楚,出了事故也能回溯。

那么在画面和做出决策之增加一层理解层,很显然会减慢系统的决策速度。因此,工业界的解决方案不是让VLM参与实施驾驶决策,而是用了几个方式绕开这种问题。

第一种是双系统分工,这是最主流的做法,他将端到端加VLM的设计方案分为两个系统。以理想汽车为例。理想汽车的端到端和VLM设计方案分为两个系统。

System 1快系统,部署端到端模型在一辆Orin X芯片上,只需要输入传感器数据,不需要高精地图。端到端模型根据车载传感器数据直接输出轨迹。

System 2慢系统,部署VLM大模型在另一颗Orin X芯片上。VLM为具有22亿参量的模型,具备全局理解与推理能力,通过思维链做复杂的逻辑分析,并将结果快速反馈给系统。两个系统分工不同,VLM传给端到端的也不只是具体的动作,而是意图。它会告诉你当前场景需要减速让行,快系统收到这个信息之后,自己计算怎么执行。

第二种,VLM只在训练阶段用,上车之后下场。用VLM在训练阶段给大量数据打标,做推理理解,让端到端模型学得更好,更理解场景。但真正装到车里跑的时候,VLM不上车,只是压缩后的端到端模型在跑。这样不存在减慢速度的问题,VLM的理解能力已经通过训练数据注入到端到端模型里了。

第三种模型压缩,就是将VLM经过剪枝、量化、蒸馏这些技术压缩成更小的版本,牺牲一部分的能力换速度。但压缩有上限,压得太狠能力损失太大,这是一个一直在持续研究的工程问题。

在这里剪枝是把模型里不重要的参数直接删掉,就像剪掉树枝;量化是把参数从高精度数字压缩成低精度数字,文件变小但基本能力保留;知识蒸馏就是用大模型教小模型。三个方法可以组合使用,压缩效果更好。

VLM的出现,让自动驾驶第一次真正拥有了”理解”能力——不只是认出前方有什么,还能推理出该怎么办,甚至说清楚为什么这么做。这是从”执行机器”到”理解大脑”的关键一步。

但正如我们看到的,VLM并不是终点。它能看、能说,却还跨不过行动鸿沟。于是工业界用双系统分工、训练阶段介入、模型压缩这三种方式,让VLM在不拖慢决策速度的前提下,把它的理解能力真正用起来。

而VLM之后,是VLA。视觉、语言、动作三合一,把”看懂、想清楚、直接动”这三件事打通。这条技术路线还在快速演进,故事还没讲完。

下一篇,我们来聊VLA。

本文由 @小王的智驾科普 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!