分享

收藏

点赞

  1. 主页 > 资讯 > 自动驾驶

大模型驱动车路协同感知研发新范式

为车路协同开启了新的研发范式

引言

传统车路协同感知算法的研发呈现出以小数据、小模型为核心特征,通过基础神经网络模型实现一系列的自定义任务算子。这种开发模式是由任务驱动,每个特定任务需要人工标注大量数据后从零开始训练一个小模型来完成,存在人工标注成本高、迭代效率低、算法泛化能力差、项目交付成本高等问题。而大模型具有泛化能力强、模型效果优、使用门槛低等典型特点,这为车路协同开启了新的研发范式,即利用大模型进行生产、孵化和迭代。

1.png

一、数据挖掘和标注

1.1 实现秒级数据筛选,发掘海量优质样本

车路协同研发过程中,经常遇到需要复现一些定制化的场景问题。传统方式一般是研发人员针对该场景实现一些特定的挖掘算法,然后配置对应的任务工作流运行。而引入交通大模型后可以支持多模态数据挖掘,如下图的开放世界检测流程所示,通过利用大模型实现对海量采集图片进行目标级别和全图级别的特征提取,变成图片表征向量,并对这些海量的向量数据建立向量数据库,可以从百亿级别的向量数据库中找到输入文本对应的场景数据,实现秒级搜索。数据服务从「流程式」向「检索式」升级,实现优质数据的快速挖掘。

2.png

1.2 AIGC稀缺样本生成,助力长尾事件处理

车路协同领域中corner case场景的可利用的训练样本较少、样本数据采集成本高,是行业发展的共性痛点。真实场景下的数据往往类别分布不均,绝大部分数据集中在一部分类别中,而其他类别则非常稀少。比如护栏破损、路面沉陷、抛洒物等长尾问题场景的真实样本稀缺,若通过仿真生成数据,场景开发投入人力成本巨大。由于罕见类别的数据样本数量少,模型学习到的特征往往不够充分,导致模型难以对这些类别进行准确的识别和分类,从而影响模型的整体性能。

针对智能交通行业长尾场景训练数据稀缺,利用大模型AICG能力可实现稀缺样本的生成,从而扩充训练样本,进一步提升模型对于长尾问题的处理能力。

3.png

1.3 应用智能标注,实现降本增效

数据标注是数据闭环中的重中之重,挖掘到有价值的数据后,需要进行标注才能用于算法的训练和迭代。传统方式是以标签加人工的方式进行数据标注,即先对图片打上标签,然后用标签做粗筛选、再人工细筛选。而大模型带来了智能标注能力,由于其强大的学习能力和泛化能力,通过深度学习,大模型能够自动学习并理解复杂模式,从而在标注数据时提供更准确的预测。这种能力使得大模型在处理大规模标注任务时更为高效,减轻了人工标注的负担,同时能够适应不同领域和任务。典型人机协同标注流程如下所示:

4.png

二、模型训练

2.1 模型与数据并行:充分利用GPU算力

模型并行存在GPU利用度不足,中间结果消耗内存大的问题。而流水线并行,就是用来解决这两个主要问题的。流水线并行的核心思想是在模型并行基础上,把原来的数据再划分成若干个batch,传给GPU进行训练,解决了GPU的空置问题,提升了GPU计算的整体效率。

针对中间结果消耗问题,用时间换空间,具体来说就是几乎不存储中间结果,在backward的时候,再重新算一遍forward。每块GPU上,我们只保存来自上一块的最后一层输入input,其余的中间结果我们算完就废弃,等到backward的时候再由保存下来的input重新进行forward来算出。

5.png

2.2 分布式训练:实现模型训练加速

通过集成paddle operator,实现在Kubernetes集群中创建paddle job,充分利用多机多卡资源,提升模型训练效率,目前已支持运行参数服务器架构和Collective架构两种分布式任务。

6.png

在分布式训练中,单节点故障导致这个任务失败的情况时有发生,尤其是节点较多的场景,不仅出错概率增加,重新运行任务的代价也相对更高。paddle 目前已支持 Collective 训练模式基于热重启的容错方案。

 以交通感知大模型为例,我们通过数据挖掘、模型训练等流程,构建了一个百亿级别的预训练大模型,该模型具备跨模态能力、开放世界检测以及AIGC稀缺样本生成等核心能力。相较于传统的模型,它展现出了卓越的性能和强大的泛化能力,使用少量数据Fine-tune,就可以实现任务的快速扩展,相比于小模型的平均错误率可降低50%以上,为解决交通感知领域的复杂问题提供了强有力的支持。

三、芯算一体

3.1 芯算一体,全面助力模型生产

芯算一体可以理解为将大模型算法和芯片、数据等资源进行一体化设计,以实现更高效、更低成本的模型训练和应用。在常见的AI模型落地流程中,芯算一体聚焦于模型结构设计、模型压缩与效果验证、模型异构平台部署这三个核心阶段。

7.png

 选择相应的芯片和延时需求后,可以下载性能优于通用标准网络(检测/分类)的芯算一体网络结构及其预训练模型,并且相较于经典模型,在保持相同精度的前提下,其加速比最高可达80%。

3.2 模型压缩,降本增效

8.png

a.模型压缩之异构蒸馏

在模型蒸馏过程中,需同时运行教师模型和学生模型,由于其计算量大、显存占用比例高,导致大模型蒸馏成本急剧增加。其次,大模型和小模型的结构可能存在比较大的差异而无法直接进行蒸馏。比如在细分的视觉领域,大模型大多基于Vision Transformer 结构设计,而端上部署的小模型往往是CNN结构,因此传统的蒸馏方式效果不是很理想。芯算一体大模型套件中为解决该问题,实现transformer大模型蒸馏CNN小模型。

异构蒸馏相比传统蒸馏做如下改进:

结构层面:关键在于缩小Transformer与CNN的特征差距,借鉴Transformer的注意力机制,在CNN最后一层卷积特征前加入self attention layer。直接蒸馏Transformer最后的特征值与加入self attention layer的CNN最后的特征值。

数据层面:加快收敛,提升训练效果,筛选符合条件的难样本训练数据,并通过排序加权,实现样本训练权重的更新。

loss层面:因为Transformer与CNN的结构差异,训练过程出现loss过大和梯度爆炸现象,为提升稳定性,采用L1+L2两种loss共同监督训练,可缓解梯度爆炸现象。

b.模型压缩之剪枝与量化

模型剪枝通过移除其中一些不重要的权重或神经元来降低模型的大小和计算量,可有效提高模型的运行效率。为了提高剪枝算法的易用性,加入了剪枝配置搜索功能、在线剪枝训练模块等。

模型量化通过将模型中的浮点数据(FP32)权重量化为低位宽的定点数据,以实现减小模型体积和运算量的目的。上传本地已训练完成的业务模型及少量数据,即可完成int8量化,量化精度损失相比人工调参大幅降低,量化速度相比人工调参大幅提升。

3.3 模型异构平台部署,跨平台兼容

不同的芯片厂商所提供的芯片在性能、功耗、成本等方面存在差异。因此需要解决跨平台兼容性的问题,大模型平台具备跨操作系统和硬件架构的兼容性,以支持不同的芯片厂商,例如昆仑芯、英伟达和地平线。针对特定任务的AI服务,可根据任务需求直接从大模型中抽取部分参数,得到针对特定任务的模型进行部署,可大幅减少模型的参数量,例如大模型具备100亿参数规模,而抽取的单任务模型只包含6亿参数。并且不同任务之间可自由组合,大大提升了AI服务的开发和部署效率。

小结

经过实践验证,基于上述能力构建的一站式交通大模型平台不仅能通过路侧丰富的数据集实现基础大模型的"自进化",同时也可以大幅缩短"小"模型的迭代周期,使用更少的样本、更少的算力即可带来更优的结果,研发效率提升80%+,这一新的研发范式也将有力推动车路协同感知从传统的“作坊式”模式向“工业化”阶段迈进。

未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。

加载中~

你可能也喜欢这些文章




稿
意见反馈0
商务合作

商务合作 扫码联系

返回顶部