动机
近几年自动驾驶行业发展迅速,各种无人驾驶技术开始落地,最近萝卜快跑已经隐隐有取代出租车的趋势。但是针对其使用的技术究竟是常规的建图规划决策控制那一套,还是用的是最新的端到端自动驾驶系统还有待探究。还有比较好奇端到端自动驾驶究竟有没有用到强化学习技术。这篇文章从2023年cvpr的best paper出发,来了解自动驾驶行业目前的主流技术。
论文阅读
论文地址:Planning-oriented Autonomous Driving
1.引言
下图是应用深度学习的自动驾驶框架类型,如下图(a)所示,工业届主要采用这种,不同的任务单独训练不同的模型去解决。很显然这个跟传统算法类似,存在误差累积等问题;图(b)是采用多任务学习范式去解决这个问题,也就是采用一个共享的特征提取器然后用多个头去适应多个任务。这种方法在很多领域都很流行,但是会不可避免导致负迁移(negative transfer),也就是先前的学习的内容会影响新任务的学习;所以使用端到端自动驾驶很有必要,图(c.1)中描述了一种最朴素的方案(vanilla solution),只用一个网络直接从感知的数据输出轨迹,但是这样可解释性太差了,不安全。图(c.2)提供了一种直觉性地解决方案,比如先感知再预测,然后规划安全机动这类分模块的方法;图(c.3)引入了UniAD,一个统一的自动驾驶算法框架,用5个基本任务来实现该系统。
2.方法
论文采用方法的流程(Pipeline),从图可知,该系统分为4个部分
2.1 backbone
首先是数据输入的主干网络,这部分论文中并没有详细说,但是可以看到这个网络只接受视觉信息,通过卷积神经网络
提取透视图特征(perspective-view features)
,然后用BEVFormer
中的BEV编码器
转换为BEV特征。BEV特征在感知层很出名,但是这篇文章主要是针对决策规划,所以并没有详细介绍。
2.2 perception
感知层用TrackFormer
中的轨迹查询模块(track queries)
会从BEV特征中来检测和跟踪智能体。MapFormer
采用图查询
作为地图元素的语义抽象,并执行全景分割。