百度研究院RAL团队登顶nuScenes三维目标检测公开挑战赛榜单

2021-06-23 06:01

随着自动驾驶技术在不同场景下的持续落地，目标检测作为其中的一项核心模块，对检测算法的精度和稳定性要求越来越高。近日，在国际机器人技术与自动化会议（ICRA 2021）举办的第四届nuScenes三维目标检测挑战赛中，来自百度研究院的机器人与自动驾驶实验室(RAL)团队在三维物体检测任务的多项评价指标中荣获第一，并将关键指标nuScenes Detection Score (NDS)从上一届的71.4%提升至74.9%，刷新了三维目标检测比赛成绩。ICRA2021 nuScenes三维物体检测挑战赛官方排行榜榜单地址

ICRA2021 nuScenes三维物体检测挑战赛官方排行榜

榜单地址：https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Any

第四届nuScenes目标检测挑战赛吸引了来自全球各地的多支参赛队伍，不仅有百度、华为、滴滴等知名企业，还涵盖了德克萨斯大学奥斯汀分校、上海交通大学、中国科技大学、哈尔滨工程大学等国内外重点高校。

本届挑战赛使用的nuScenes[1]数据集是自动驾驶目标检测领域中最流行的公开数据集之一，集成了多种传感器（如相机，LiDAR, Radar等），提供了包含二维、三维物体标注、点云分割、高精地图等丰富的标注信息。数据集整体共包含1000个场景、140万帧图像、39万帧激光雷达点云数据、23个物体类别、140万个三维标注框，数据规模和难度远超之前的自动驾驶数据集KITTI。

百度研究院的机器人与自动驾驶实验室(RAL)团队在比赛中提出了一种多模态和多任务的信息融合框架FusionPainting[3] ,并且结合多模型融合等技术，推出了CenterPoint-Fusion的技术方案，将评价的关键指标NDS从上一届冠军的71.4%提升至74.9%，全类平均正确率（mean Average Precision)从上一届冠军的67.1%提升至72.4%。凭借本次挑战赛中多个评测指标第一的优异成绩，百度在自动驾驶领域的技术实力再次彰显。

CenterPoint-Fusion算法优势何在？

激光雷达（LiDAR）可以直接以三维点云的形式提供周围场景的深度信息，因此广泛的应用于自动驾驶的感知模块中。但是相比于图像数据，激光点云具有密度稀疏，纹理信息不丰富的缺点,因此在检测任务中对于物体的类别分辨往往不准确。

利用相机和Lidar之间的标定参数，PointPainting[2]将图像的语义信息附加到点云上，再利用融合的点云信息进行物体检测，能有效的提升检测的精度。但是由于图像分割器的特征图尺寸大小的限制，分割结果在物体的边界上有模糊效应，再反投影到3D点云上时会造成物体边界的点云类别信息不准确，从而影响最终检测的效果。

百度研究院RAL团队登顶nuScenes三维目标检测公开挑战赛榜单

基于多模态自适应融合的FusionPainting流程图

相比于二维图像分割有物体边界模糊的缺点，直接在三维点云上进行分割却能得到清晰的物体边界。为了有效的解决这种边界模糊的问题，百度提出了融合二维图像分割与三维点云分割结果的FusionPainting框架[3]。对于每一个三维点，既通过二维图像分割获得语义信息，又通过三维点云分割获得语义信息，最终通过一个自适应的注意力模块来对两种信息进行有效的融合。融合后的点云可以作为任何三维物体检测器的输入，从而最终得到三维物体检测结果。

在此框架的基础上，百度进一步添加了多模型融合、半监督学习、测试阶段数据增强等技术，充分发挥多模态和多模型的作用，进一步提升了目标检测的效果。

百度研究院RAL团队登顶nuScenes三维目标检测公开挑战赛榜单

nuScene数据集三维物体检测检测效果示例，其中不同的颜色代表不同类别的物体

本次在nuScenes三维目标检测挑战赛中夺冠的百度研究院机器人与自动驾驶实验室，在自动驾驶感知和机器人领域有着丰富的技术积累和成果输出，研究成果发表在CVPR、ICCV、ECCV、NeurIPS、AAAI、ICRA 与IROS等顶级国际学术会议和《Science Robotics》，《IEEE T-PAMI》、《IEEE T-IP》、《IEEE T-ITS》、《SAGE IJRR》等顶级期刊上。

百度布局自动驾驶以来，不仅在自动驾驶技术和智能驾驶领域市场占据了先发优势，并通过持续深耕，在技术创新和应用落地上也取得了令人瞩目的成就。在自动驾驶这场改变人类轨迹的长跑中，百度还将继续技术创新，做这条道路上坚定的领跑者。

参考文献：

Caesar, Holger and Bankiti, Varun and Lang, Alex H and Vora, Sourabh and Liong, Venice Erin and Xu, Qiang and Krishnan, Anush and Pan, Yu and Baldan, Giancarlo and Beijbom, Oscar. nuscenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.Vora, Sourabh and Lang, Alex H and Helou, Bassam and Beijbom, Oscar. Pointpainting: Sequential fusion for 3d object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4604-4612.Shaoqing Xu , Dingfu Zhou, Jin Fang, Junbo Yin, Bin Zhou and Liangjun Zhang. FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object Detection. Accepted by IEEE International Conference on Intelligent Transportation Systems (ITSC), 2021.

三维ImageNet开源！港中深韩晓光团队助力计算机视觉进入三维大数据时代

随着深度学习技术的快速发展，数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里，随着 ImageNet 诞生之后，计算机视觉领域见证了 “从数据中学习” 的范式的兴盛。在 ImageNet 上进行预训练，然后迁移到下游的视觉任务，都能显著提升模型性能，并且已经成为 2D 图像领域的标准化方式。

5/1/2023 5:12:00 PM

机器之心

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶

来自自动驾驶公司轻舟智航和约翰霍普金斯大学的学者提出了一个自监督学习框架，可从未标注的激光雷达点云和配对的相机图像中进行点云运动估计，与现有的监督方法相比，该方法具有良好的性能，当进一步进行监督微调时，模型优于 SOTA 方法。

5/17/2021 7:28:00 PM

机器之心

国产工业软件弯道超车迎曙光，首款云原生CAD取得重大突破

《道德经》有云，道生一，一生二，二生三，三生万物。“三”往往引向无穷之数。三维家耕耘8年的科技实力即将迎来全面丰收，由此，“三体计划”横空出世。“三体计划”既包含三维家结盟三个世界顶尖技术伙伴的合作成果、在三个前沿学科的不懈探索、以及在三大科技盛会上的实力展现，也代表三维家坚持对先进技术的探索，用技术为产业开拓无限想象空间。“三体计划”最终导向三大目标：降维打击、打破边界、重塑视界。10月10日首款云原生CAD的发布开启了“三体计划”的第一篇章。2021年10月9日-10日，“智能制造和智能化管理”交流会议暨安徽

10/12/2021 11:00:00 AM

新闻助手

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

百度研究院RAL团队登顶nuScenes三维目标检测公开挑战赛榜单

相关资讯

三维ImageNet开源！港中深韩晓光团队助力计算机视觉进入三维大数据时代

CVPR 2021 | 不需要标注了？看自监督学习框架如何助力自动驾驶

国产工业软件弯道超车迎曙光，首款云原生CAD取得重大突破