天天看点：AI应用大咖说：多相机的时空融合模型架构算法优化_创新

随着人工智能技术的广泛应用，智能驾驶系统正在成为汽车的标配。而作为识别周边环境的“火眼金睛”，“感知”模块是智能驾驶系统安全、高效运行的核心，而视觉感知更是其中无比重要的一环。浪潮信息AI团队长期关注AI算法在自动驾驶中的应用，并致力于用软硬件的算法和技术创新推动行业的进步，做出创新性的成绩。最近，浪潮信息在自动驾驶感知权威数据集 NuScenes 评测中，自研算法 DABNet4D 获得 0. 624 的NDS精度，位列Camera-only榜单第一名。

近日，浪潮信息人工智能与高性能应用软件部自动驾驶AI研究员赵云博士，在题为《探索自动驾驶纯视觉感知精度新突破 -- 多相机的时空融合模型架构算法优化》的自动驾驶线上研讨会上，向我们揭开了这一自动驾驶感知算法的神秘面纱。

多相机多任务融合模型优势

(资料图片)

自动驾驶汽车完成自动驾驶出行任务，离不开感知、决策、控制三大要素。其中感知系统是车辆和环境交互的纽带，相当于无人汽车的眼睛。根据所用的传感器以及传感器数量和种类等，自动驾驶感知算法可以简单的分为单传感器（单任务和多任务）模型、（同类和不同类）传感器融合模型等四类，并各有其优缺点。

自动驾驶感知的关键是3D目标检测任务，又分为基于相机、Lidar的3D目标检测，以及相机、Lidar、Radar融合等技术。尽管目前对于3D目标检测已经有不少的研究，但是在实际应用中仍然有许多的问题，其难点主要在于：

遮挡，遮挡分为两种情况，目标物体相互遮挡和目标物体被背景遮挡

截断，部分物体被图片截断，在图片中只能显示部分物体

小目标，相对输入图片大小，目标物体所占像素点极少

缺失深度信息，2D图片相对于激光数据存在信息稠密、成本低的优势，但是也存在缺失深度信息的缺点

现有方式大都依赖于物体表面纹理或结构特征，容易造成混淆。

目前，基于相机的方法与基于Lidar的方法准确度差距正在缩小，而随着Lidar成本降低，融合技术在成本和准确度的平衡上存在优势。

基于多相机多任务融合模型的3D目标检测技术正是在成本优势与日益增长的准确度两相促进下得到越来越多的认可。目前，多相机多任务融合模型主要遵循特征提取、特征编码、统一BEV、特征解码和检测头五大部分。

其中，统一BEV 就是鸟瞰图，亦即将图像特征统一投射到BEV视角下，用以表示车周围环境。“统一BEV”的工作可以分为两大类，一种基于几何视觉的变换，也就是基于相机的物理原理，优势在于模型确定，难度在深度估计；另一种是基于神经网络的变换。

浪潮DABNet4D算法三大创新突破

据赵云介绍，浪潮DABNet4D算法遵循上述框架，采用基于几何视觉的变换方法，设计了端到端的模块化整体架构，通过将环视图检测统一到BEV空间，为后续的工作提供了很好的模板。

DABNet4D模型被划分为四个部分，Image-view Encoder，View-transformer，BEV-Encoder，Detection Head。其中Image-view Encoder为图像编码模块将原始图像转换为高层特征表示。 View-Transformer模块负责将图像特征转换到BEV坐标中，主要包括三个模块：深度预测模块、特征转换模块和多帧特征融合模块。BEV-Encoder & Heads主要是对融合BEV特征进行编码；Heads用来完成最终的3D目标检测任务。