新算法让智能驾驶“看”得更清楚

近日,中国科学院上海微系统与信息技术研究所的研究人员在智能驾驶感知领域取得进展,针对智能驾驶感知的两个关键问题——栅格占据预测和全景分割取得突破。该成果被机器人领域国际学术会议2024 IEEE ICRA录用。

01

感知能力 自动驾驶的基础

作为定义汽车智能网联进程的核心维度,自动驾驶技术已然成为衡量智能与否的关键指标。汽车的自动驾驶核心系统包括感知系统、决策系统与执行系统。感知系统好像人类驾驶员的眼睛与耳朵,通过各种传感器对路况信息进行捕获,是自动驾驶的重要基础与先决条件

目前,自动驾驶感知技术大致存在两种模式:一种是以摄像头为主要传感器,搭配毫米波雷达等低成本传感器,以图像识别模式为核心流程的模式;另一种模式则是以高成本的激光雷达为核心元件,利用激光雷达获取更远探测距离、更优角度分辨率,且受环境光影响更小。前者虽然成本较低,但对算法和芯片的依赖程度较高,目前的算法和模型让其相较于后者,在可靠性和精确性上处于劣势。

对此,科研人员针对低成本模式的摄像头为主传感器后台算法,进行了升级创新,在算法涉及的栅格占据预测和全景分割这两个关键问题上取得突破,提高环境感知力,优化驾驶场景精度,提升安全保障。

500

▲图片来自网络

02

克服障碍物视角遮挡

栅格占据率预测算法,通常被用来了解和分析车辆周围环境信息。它会将车体周边环境分割成许多小的方格,即栅格,并解读每个栅格中的信息供自动驾驶后台参考。但是由于对某些场景的还原不够细致,对于各类车辆和障碍物几何信息的理解也不够透彻,当开放场景中对象的形状或外观不明确时,往往会出现错误估计障碍物的情况。因此,科研人员提出一种以自车为中心的环视视角的占据预测表征方法——CVFormer

CVFormer采用“环视视图交叉注意力模块”技术,利用汽车周围的环视多视图来建立多个二维视角的表征,从而有效地描述周围的三维场景。它采用的“时序多重注意力模块”可以加强帧间关系的利用,提高预测的精度和效率。而且,科研人员还在CVFormer中引入二维与三维类别一致性约束,让预测结果更加符合实际场景。

通过以上技术,CVFormer能够克服车辆周围障碍物可能引起的视角遮挡问题,为自动驾驶车辆提供了更加精准和可靠的环境感知能力。

500

▲CVFormer在自动驾驶常用数据集nuScenes上三维占据率预测任务可视化效果图

03

提升全景分割精度

由于以摄像头为主要传感器的自动驾驶方案不涉及3D激光点云数据处理,因此全景分割便成为一项至关重要的核心技术,主要用于行车路线和街道的识别与理解。

全景分割是融合语义分割与实例分割的综合方法。语义分割关注将图像中的区域分割为不同的类别;实例分割则侧重对每个实例对象进行独立的分割。全景分割将两者融合,但在实际操作中,二者预测结果会出现矛盾,导致后台误判。

为解决这一问题,科研人员设计了基于门控编码和边缘约束的端到端全景分割模型BEE-Net。模型通过语义—实例—全景三重边缘优化算法,对边缘分割质量进行针对性优化,保持高效的同时,显著提升了场景分割性能

BEE-Net在驾驶场景分割权威数据集CityScapes上进行了验证,获得了65.0%的PQ精度指标。在精度方面,它超越了目前基于CNN的全景分割模型的最高精度63.3%。同时,在效率上,它优于所有基于Transformer的全景分割模型,兼顾了分割精度与效率的性能需求,在某下一代量产车型智能驾驶感知系统上完成了测试验证。

500

▲BEE-Net在CityScapes数据集上的分割结果

总的来说,BEE-Net不仅有助于缓解语义-实例预测混淆问题,还能提升分割质量,特别是在边缘处。这不仅提高了全景分割的准确性,也进一步增强了自动驾驶算法对环境的感知能力,使其更加精准可靠。

站务

  • 观网评论4月爆款文章↓

    4月初,美国财长耶伦访华,一时间“中国产能过剩论”被炒作起来,观察者网专栏作者陈经从“三个美国女人”的独特角度,阐释了中国产能包括新能源产能对世界经济的贡献,还对美国政......

全部专栏