自动驾驶开源数据体系：现状与未来

首次系统性梳理了国内外七十余种开源自动驾驶数据集

随着自动驾驶技术的不断成熟与应用，系统性梳理开源自动驾驶数据集有利于产业生态良性循环。现有自动驾驶数据集可大致分为两代，第一代数据集的传感模态复杂度相对较低、数据集规模相对较小，且大多局限于感知级任务，第一代数据集以发布于2012年的KITTI为代表。相比于第一代数据集，第二代数据集的特征为传感模态复杂度较高、数据集规模与多样性较丰富、所设置任务从感知扩展到预测、规控上，第二代数据集以2019年前后提出的nuScenes、Waymo为代表。

本评述联合学术界、产业界同仁，首次系统性梳理了国内外七十余种开源自动驾驶数据集，对如何构建高质量数据集、数据在算法闭环体系中发挥的核心作用、如何利用生成式大模型规模化生产数据等进行了总结。

此外，就未来第三代自动驾驶数据集应该具备的特质和数据规模，以及需解决的科学与技术问题，我们进行了详细分析与讨论。本文的归纳与展望，有利于希望本文能促进新一代自动驾驶数据集与生态体系的建设、推动关键领域自主原创与科技自强的发展。

▍自动驾驶数据集

图2以数据集发布时间为横轴、数据集影响力估计值为纵轴，定性展示了主要公开数据集的情况。其中纵轴的影响力估计值，依据第2.2节定义的数据集影响力估计评价指标，由数据质量与行业生态两个维度决定。本文统计2012年至今近百种数据集，整体上从图 2 看出共 14 个数据集存在较高影响力，其中 KITTI、nuScenes、Waymo 这三个数据集影响力估计值处在第一梯队。

图2 自动驾驶数据集影响力估计随时间发展的脉络图

▍数据算法闭环体系

数据对于现有人工智能算法与神经网络是不可或缺的。模块化自动驾驶系统包括感知、决策、规划、控制等组件，其中大部分功能是通过数据驱动的神经网络模型实现的。对于这些模块来说，海量和高质量的数据是确保模块性能的必要条件。自动驾驶工程中一个一直存在的问题是长尾问题。其产生原因在于训练模型是数据量不足而导致存在少量情况未被模型学习，而在模型推理阶段，模型并不能对这些时而出现的边缘场景给出正确的结果。

另外，对于基于规则的模块，现有的方式是通过人工设计各种规则来使模块输出符合人为设计逻辑的结果。这个方法耗时耗力，并且难以覆盖所有情况，有可能导致自动驾驶系统在某些情况是下失效。而使用数据驱动的神经网络代替这些模块是一个可能的解决方案。由此，海量数据的引入对于解决现存自动驾驶系统中的各种问题都很有必要。同时，在神经网络学习过程中，数据噪声的引入会不可避免地对优化过程产生负面影响，并降低模型性能。数据质量不仅包括传感器数据的分辨率和同时性等，还包括标签的准确性。

在这两个方面中，任意一个方面存在质量问题都直接影响着自动驾驶系统的性能和安全性。由此，海量和高质量的数据成为构建自动驾驶系统必不可少的一个环节。

现阶段，如何高效地构建海量高质量的数据仍是一个开放性的问题。学术界与工业界对于构建自动驾驶数据集所采用的方案不尽相同，数据采集、质量把控、标注技术等方面都根据各自拥有的平台与技术有所变化。在本章节中，我们将对比不同厂商构建数据闭环体系的方案，提取其共性与精华。同时，我们还将对其中各个关键技术进行分析，为下一代自动驾驶数据集的构建夯实基础。

▍新一代自动驾驶数据集

大模型启示

通用大模型 vs 自动驾驶大模型。如表8所示，当前基础大模型在自然语言处理、计算机视觉等领域取得了举世瞩目的成果，掀起了新一波的人工智能研究热潮。

但目前市面上还没有面向自动驾驶垂直领域的大模型。在数据规模与模型参数量方面，自动驾驶与其它领域相比仍有较大差距。受到数据采集合规性以及成本等方面的限制，数据规模明显小于其他领域。而较小的数据规模也不足以支撑大模型的优化，限制了模型参数增长的可能性。

虽然在自动驾驶领域，较小的模型有利于在算力较小的车辆平台上达到更好的实时性，但模型性能也会收到限制，也不利于达到在离线平台上的性能要求。由此可见，在数据量与模型规模上，自动驾驶大模型仍有较大的发展空间。

以其他领域的大模型作为参照，新一代数据集至少应将数据量提升至与其他领域相近才能够赋能自动驾驶大模型。值得注意的是，在大多数领域大模型的引入也意味着自然语言的引入，也更偏向于通用大模型。由于自动驾驶系统的输入为传感器数据而输出为车辆路径规划，与自然语言的结合并不直观。是否有必要将自动驾驶大模型建设成通用大模型也值得探讨。

数据规模 vs 算法性能。尽管无限的数据可以使神经网络达到接近百分之百的水平，但获得如此大量的成本也是不可估量的。通过之前的一些工作可以看出，数据规模的增大能够显著提升模型性能，但当数据量达到一定程度之后，模型性能增长趋于平缓。并且，自动驾驶车辆在真实世界中会不可避免地遇到训练数据之外的场景。

因此，大规模地应用自动驾驶技术必然要求模型能够在罕见场景中做出正确行为，避免发生危险或功能失效的情况。由此看来，在自动驾驶领域我们并不需要一味地去扩充数据量。对于绝大多数交通场景来说，并不需要十分大量的数据就能够覆盖。而更需要关注的是长尾场景，由于某些交通场景十分罕见，如撞车等，数据的缺失会对自动驾驶系统的性能影响巨大。总的来说，在保证数据数量的前提下，场景丰富度对算法性能更为重要。