智驾数据的终极标注工具:给Tesla带来800倍提效的4D标注工具

1. Tesla是怎么做数据标注的?

特斯拉在过去一年中,共计售出598,655辆车,而蔚小理三家的销量合计是701,056辆(数据来源:懂车帝)。在中国现在的新能源市场上,特斯拉可以说是毫无疑问的Top1。除了品牌影响力、高性价比之外,最能打动用户的就是他出色的辅助驾驶系统了,而在特斯拉引以为傲的自动驾驶背后,他的数据标注系统功不可没。
2018年,为了应对越来越多的标注需求和越来越复杂的标注规则,特斯拉创建了千人规模的数据标注团队,并搭建了专业的数据标注系统。最初特斯拉大多数的标注还是在2D图像上进行,一个clip需要533小时的人工标注完成。从2018到2021年,特斯拉的数据工程平台经历了3次迭代,2021年至今,特斯拉的数据标注开始转移到4D空间(3D空间+时间维度),直接在Vector Space进行标注,并通过多趟采集轨迹的聚合重建与自动标注搭配,一个clip的标注仅需0.5小时算力+0.1小时人工,效率较2018年提升了800倍之多。

Tesla AI Day

Tesla AI Day

由此可见,4D标注一定是数据标注的创新性颠覆。较传统的2/3D融合标注,4D标注具有以下优势:

  1. 大幅提升了标注的效率和精度
  2. 解决了雷达采集点云的遮挡问题
  3. 解决了同一物体在前后帧之间的一致性问题

2. 怎样算是一套好用的,可量产的4D标注工具?

整个4D的数据生产环节可以分为两部分,一部分是对于原始数据的处理,包括重建、增强、优化等操作;另一部分是对于原始数据的标注,主要在于对有效数据的先验、静/动态目标的标注和超大点云的标注等。

2.1 数据处理

巧妇难为无米之炊,没有适配的数据,就没有好的标注结果。

2.1.1 重建地图

在无人机、自动驾驶、机器人等领域都有密集的传感器信息,重建地图则是通过内外参关联传感器之间的关系,然后基于这些数据实现定位和地图构建的过程。

  1. 数据采集:使用设备(如Camera / Lidar / GNSS / RTK / IMU等)收集环境数据
  2. 数据融合:在采集的数据中提取特征,并将不同时间、不同位置的特征点关联起来
  3. 地图构建:根据计算出的设备位姿和环境特征,构建地图
通过位姿关联每一帧

通过位姿关联每一帧

如果没有Lidar数据,那么我们需要生成精细高质量的三维点云地图,这种方法生成的地图通常能够对环境的表达更为细致和全面,在处理的过程中需要对点云做复杂的计算,例如进行滤波清理,对空洞进行填充,以及对点云进行平滑等,同时标注任务需要建立起精准的4D->2D的投影关系,整数智能MooreData数据工程平台在这方面做了相当多的优化。

Lidar Base Global Map

Lidar Base Global Map

Single Camera Global Map

Single Camera Global Map

地图重建受到传感器性能、环境复杂性等因素的影响,鲁棒且优秀的重建项目需要时间磨合。

2.1.2 优化地图

标注车道线时,总被上方的汽车点云影响到?因为反射率的问题总是分不清哪里是车道线?整数智能MooreData数据工程平台提供一系列地图优化的措施,进一步提升地图的标注质量。

  1. 动态物去除:将地图中的动态物和其他干扰点云过滤,仅保留需要标注的地面和其他障碍物的点云信息,方便标注的同时,也减少了常见的标注错误比如车道线的Z值偏差(通常是标注时不小心将路径点标注到了地面上方的干扰点云)。
  2. 反射率自定义:每条数据因为具体路况的不同,车道线的反射率都会有所不同。为了得到更好的标注结果,整数的MooreData数据工程平台在工具内提供了实时调整反射率的工具,根据具体数据有效提取路面的特征信息。
优化后的点云数据,车道线和地面标识

优化后的点云数据,车道线和地面标识

2.2 高效标注

2.2.1 功能一:数据有效性的验证

比无效数据更痛苦的是,我把无效数据标完了才发现这是无效数据。

无效数据样例1

无效数据样例1

无效数据样例2

无效数据样例2

在整数智能经历过的众多4D标注项目量产中,我们发现数据经常因为内外参标定或者时间同步等问题引起投影的偏差,从而导致无效数据的出现。而在标注员标注了一个目标物后再通过映射判断数据是否有效的操作,不仅浪费了标注时间,还增加了标注成本。整数智能通过以下两种工具实现数据有效性的先验,有效避免了无效标注。

  1. 点云映射:将一定反射率范围内的点云映射到2D图像上,以此来判断映射是否偏移过大。例如车道线标注时,将车道线反射信息较强的点云映射至图像上,可以迅速判断是否为无效数据。
MooreData点云投影效果

MooreData点云投影效果

  1. 车道线偏移映射:在4D标注任务中通常会自定义一个ROI(Region Of Interest)区域,在此区域内需要标注物映射的误差在一定范围以内,此区域之外的映射偏移则属于正常现象。例如前视80m,后视80m,左右30m的范围内,车道线的映射偏移不应超过1倍线宽;前视80m-120m车道线的映射偏移不应超过2倍线宽;前视超出120m的范围,因为道路起伏、转弯等情况,映射的偏移属于正常现象,不予关注。通过偏移映射工具,在MooreData数据工程平台上可以快速判断投影车道线的误差,从而进一步确认数据的有效性。
MooreData车道线偏移映射

MooreData车道线偏移映射

2.2.2 功能二:车道线与车道中心线

不是所有的画线工具,都可以标注4D车道线。
车道线看似简单,但在实际的路况采集数据中,合流分流、虚实变化、截断遮挡等等复杂情况应有尽有,这需要标注工具的功能丰富,覆盖所有标注场景。MooreData数据工程平台提供了丰富的车道线功能,支持车道线的复杂标注和车道中心线的自动生成,轻松拿捏任何路面数据。

  1. 车道线:合流分流的关联,车道线的分段,车道线的拆分与合并,整体移动旋转复制,包括在无点云信息的位置虚空画线,一键统一车道线高度等,将4D标注量产的经验沉淀为各种功能,面对任何场景都无需额外的开发,拿来即用。
  2. 车道中心线:一键生成,比手工标注准,还比手工标注快。然而在两条车道线中间通过自动计算得到一条居中的车道中心线,这是最基础的功能,却并不能应对所有复杂的标注场景。车道中心线最令人头痛的标注包括但不限于以下场景:十字路口如何让左转车道的中心线丝滑的衔接左转后的n条车道?两侧车道线有断开或分流的情况,如何保持车道中心线的连续性?两侧车道线的方向相反,如何自动生成车道中心线?以上这些棘手的问题,在MooreData数据工程平台都可轻松解决。
一键生成车道中心线

一键生成车道中心线

十字路口一键混接车道中心线

十字路口一键混接车道中心线

2.2.3 功能三:智能标注

数据标注工具的发展基于生产力的提升,而生产力提升的关键在于智能标注。

智能标注是可以使用算法对未标注的新数据进行预标注,相比于人工标注,智能标注显著提高了标注速度。与人工标注相比,使用智能标注工具可以极大地加快标注的进度,特别是许多重复性工作或大批量数据标注时,它的效益尤为明显。因为算力来自于云而非边缘设备,使模型设计可以脱离参数量的桎梏,能够使用更大的模型来处理全局地图的数据,较大的模型能够获得更好的准确性和召回率,同时也能提高泛化能力,让模型在更多的任务中有出色的表现。

2.2.4 功能四:拍平标注

超大点云是电脑的极限,不是MooreData数据工程平台的极限。

多趟轨迹采集重建的地图,点云往往在千万甚至上亿的数量。虽然MooreData数据工程平台可以轻松渲染亿级点云,但受限于标注员的电脑性能和数据流转周期的考量,将4D点云拍平为2D图像标注的方式更为快捷和高效。但是拍平标注对于数据的质量要求较高,需要有较强的反射信息,否则一些特征的缺失反而会降低标注效率。

Multi-trip采集的亿级点云

Multi-trip采集的亿级点云

2.2.5 功能五:动态物标注

只用4D标注工具标注车道线,像是杀鸡用牛刀。4D动态物的追踪标注更是得心应手,事半功倍。

4D动态物标注效果

4D动态物标注效果

目前市面上几乎没有4D动态物标注工具,然而使用全局地图标注动态物是更具优势的。与连续单帧标注相比,4D标注更有全局性,可以很自然的保证Cuboid的大小是一致的,减少跳变问题;同时也可以方便的看到某一物体的运动轨迹和所属状态,能够更高效的进行修改、审核。
平台对动态物标注的交互做了大量优化,再基于模型能力做提效,能够极大的提高数据生产质量与效率,为模型的快速落地提供帮助。

整数智能智驾数据的终级标注工具4D标注经验方案分享

3. 整数家的最佳实践

截止发文时刻,整数智能已经在4D标注领域合作了多家车企与智能驾驶算法企业客户,交付了100万公里的高质量数据.

MooreData数据工程平台4D标注工具

MooreData数据工程平台4D标注工具

整数智能拥有高效的4D标注工具和数十位富有4D标注项目量产经验的项目经理,管理范围覆盖了10万余名专业的数据标注员,无论是Single-trip还是Multi-trip的采集数据,无论是静态物(如车道线、地面标识)还是动态物(目标检测追踪)的标注,我们都将为您提供高质、高效的标注工具和数据服务。

整数最新4D标注工具V2.0为智驾解锁海量数据

【整数案例】

客户名称:某头部主机厂
项目背景:包含自动化标注在内的4D数据标注全流程方案,客户需求在6个月的时间内提供60万条合格数据

  • 项目难点:
  1. 前期因内外参标定的问题,无效数据占比过大
  2. 客户无4D项目的相关经验,标注规则修改较频繁;
  3. 部分规则定制化程度较高,现有4D标注工具需进一步提效;
  4. 准确率要求99%以上
  5. 工期较短,数据量大。
  • 解决方案:
  1. 开发数据有效性先验工具,按照客户规则最大程度规避无效数据的标注;
  2. 结合过往项目经验,协助客户制定并补全4D标注规则的缺漏,从最终模型训练的策略和质量来反推标注内容和规则;
  3. 标注工具定制化敏捷开发,助力数据生产提效;
  4. 所有数据接入智能审核流程,并由项目经理定位质量问题,针对标注问题定期培训标注员;
  5. 针对客户数据精调智能标注模型,优化智能标注准确率。
  • 项目成果:
  1. 提前1个月的时间完成了客户所需数据的高质量交付
  2. 助力客户智驾模型的高效训练,其智驾效果作为产品亮点,进一步巩固其市场主要地位。

整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员,其提供的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

目前公司已合作海内外顶级科技公司与科研机构客户1000余家,拥有知识产权数十项,通过ISO9001、ISO27001等国际认证,也多次参与人工智能领域的标准与白皮书撰写,也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

Your Data Partner In The AI Industry