直播回顾｜全向高分辨多模态数据集OmniHD-Scenes技术分享会

更多OmniHD-Scenes的技术细节和实现方案：
技术博客：https://www.2077ai.com/OmniHD-Scenes
研究论文：https://arxiv.org/abs/2412.10734

直播回放

感谢大家对OmniHD-Scenes技术分享会的关注与支持！本次直播整数智能联合自动驾驶之心，深入探讨了基于4D毫米波雷达的全向环境感知数据集，详细介绍了多模态数据集的构建方法、4D标注真值生成、基于VLM的Occupancy标注以及多传感器融合实验分析等核心内容。

错过直播的小伙伴不用着急，我们已将完整直播内容上传：

直播回放

问题解答

同时，我们整理了直播过程中的众多精彩提问，并由专家团队进行了详细解答，欢迎查看完整问答内容：

是否有OmniHD的测试代码？/代码是否开源？

项目代码将全部开源。

数据集目前是否可以下载

数据集预计于三月底完成法务流程后开放下载。

VLM如何帮助3D真值生成？/ OCC如何和VLM配合使用？

项目创新性地将Grounded-SAM应用于自动驾驶场景的真值生成。通过优化的Prompts strategy实现精确的交通场景语义分割，为点云数据提供丰富的语义信息。实验结果表明，在仅使用50%的OCC伪标签情况下，系统可达到92%以上的真值训练性能，显著提升了标注效率。当前技术在远距离目标的投影精度和复杂遮挡场景下仍存在一定局限性，这也是未来优化的重点方向。

运动的车辆如何标注？

运动车辆标注视频

4D Radar是如何去除多径虚景？

系统采用高精度同步触发机制进行数据采集，为确保多传感器数据的精确对齐，实现了完整的运动补偿方案。考虑到LiDAR 10Hz的采样频率会导致运动畸变，系统通过高频率自测获取精确的位姿信息，结合线性插值或球面线性插值算法进行补偿。该方案有效解决了传统点云采集中的运动畸变问题，显著提升了数据质量和后续处理精度。

如何进行脱敏处理？

在进行数据脱敏处理时，需要重点关注人脸和车牌两大核心对象。对于人脸识别，系统要求在不同图像分辨率下（如长边>690像素时最小检出人脸≥长边/60）满足特定姿态角度范围（水平转动±45°，俯仰角±30°，倾斜角±45°），并确保关键部位的完整度达标。车牌识别则需要依据图像高度（>1080像素时最小检出高度≥高度/54）设定检测标准。脱敏处理采用统一色块或马赛克替换方案，确保数据不可逆且不可恢复。整个处理过程需满足严格的性能指标：脱敏区域与实际区域交并比维持在50%~85%之间，同时检测准确率不低于90%，误检率不超过10%，召回率达到90%以上。为确保数据的多样性和代表性，建议采集不少于300小时的不同地域车载摄像头视频序列，并保持原始分辨率和帧率进行处理。

构建地图的时候，点云有做运动补偿吗？

动态障碍物补偿是自动驾驶感知中的关键挑战。由于LiDAR的360度扫描特性，在切包处补偿后可能出现显著的位移偏差。我们的解决方案包括：

通过标注信息精确计算跟踪目标的运动状态（速度矢量、朝向等）
基于状态估计对点云和检测框进行位置补偿
在100ms扫描周期内采用匀速直线运动假设

抽帧有什么建议？

基于dynamic object detection技术，我们建议采用每秒2帧的抽帧频率，这一方案在标注效率和经济性方面达到最优平衡。

ICP会改变某一帧点云结果吗？

ICP主要输出位姿信息，通过匹配方式优化动态目标点云叠加效果。由于采用刚体转换，不会改变点云本身的形态特征。

<目前是否支持复现其他目标检测算法？

项目将开源baseline和完整的数据评估流程。

动态障碍物运动补偿有什么建议？

LiDAR 360度扫描特性导致切包处补偿后存在位移偏差。可通过标注信息计算跟踪目标状态（速度、朝向等）进行点云和框的位置计算。目前采用100ms内匀速直线运动假设。

有没有三维重建这种虚拟数据方向

数据采集自国家测试路段和封闭测试场，提供局部坐标系下的位姿信息及经脱敏处理的图像数据，可支持不同的重建任务。

请问真值是用什么软件标注的？

采用整数智能自研的MooreData数据工程平台进行标注。该平台专注于自动驾驶场景下的数据标注需求，通过智能化工具和专业标注团队的配合，显著降低了4D数据标注成本，为用户提供高效、专业、经济的标注解决方案。目前该平台在高精度点云处理、多模态数据融合等方面具有显著优势。

这个动态框也是标注之后合成的吗？

系统实现了高精度的多模态数据标注映射机制。具体流程包括：

基于标注的3D信息进行初始化处理
通过精确标定的转换矩阵实现雷达坐标系到相机坐标系的变换
利用相机内参将3D信息投影至成像平面
建立像素级的精确映射关系
这个机制确保了不同传感器数据间的精确对齐，为后续的感知算法开发提供了高质量的训练数据。

相机是什么模型？鱼眼吗？

本项目采用标准针孔相机模型进行图像采集，区别于鱼眼结构，该配置能够确保更高的几何精度和成像质量。相机系统经过严格的参数标定，可提供稳定的成像效果和准确的投影关系，其视场角和焦距的选择均经过优化，以满足自动驾驶场景的特定需求。在雷达系统方面，项目选用几何伙伴（Geometric Partner）最新一代4D毫米波雷达，保留了完整的原始点云数据，包含空间和多普勒信息，并支持直接访问原始电源数据。

关于多径效应处理，我们选择保留原始多径信息，使研究者可以根据具体需求选择适当的处理方案，如基于空间滤波的方法、基于多普勒特征的分离技术或深度学习based的去噪方案等。我们将发布包含完整原始数据、详细传感器标定参数以及标注结果的综合数据集，并提供相应的评估基准，以支持研究者开展多样化的算法探索和验证工作。

开源数据是7V还是11V的方案？

采用6V的方案，前后视配置800万像素，侧视配置200万像素。系统将开放所有数据，包括点云、图像数据、标注结果及投影外参。