分享

收藏

点赞

  1. 主页 > 资讯 > 智慧城市

交通大模型技术体系思考与探索

在技术方面做开放式的探讨交流

我们是浙江省交通投资集团智慧交通研究分公司(浙江智慧交通研究院)的科研工作者,以此文作为开始,我们将系统梳理2023年我们在“交通大模型”方面的思考与探索,我们也会在未来的持续探索过程中阶段性地成文,以形成这个领域的系列文章,作为自己探索过程的记录。

交通大模型,它浓缩了我们当下以及未来都顶重要的事,不仅是事情,更应是事业。我们将在严格遵守企业相关制度的前提下,在技术方面做开放式的探讨交流,希望能借此结识多一些对“交通大模型”感兴趣的同道中人与朋友,也希望能得到大模型方面行家的指点。

01 大语言模型发展的启

一年前,2022年11月30日,ChatGPT以极高的热度迅速出圈,全世界都被大语言模型(Large Language Model,LLM)涌现的前所未有的生成式交互能力所震撼。

在ChatGPT面世之前的一年里,自然语言处理似乎走入了又一个瓶颈:彼时,由于诸多“智能化产品”的“傻瓜式交互”,行业内外纷纷对人工智能的发展丧失了信心和耐心。究其本源,是此阶段的垂直大模型往往是以解决特定任务为导向的,在普适性的闲聊、不同话题之间的切换往往显得十分笨拙。而国际顶尖的人工智能公司OpenAI提出的独特的通用大语言模型,颠覆式地突破了长期横亘在应用人工智能(Applied AI)和通用人工智能(Artificial General Intelligence, AGI)之间的沟壑。

智慧交通领域现阶段各类行业大模型的推出,绕不开大语言模型的技术体系。为什么大语言模型能够表现出智能,智能的载体是自然语言吗?大语言模型的技术体系发展历程对我们有什么启示?

大语言模型技术体系的发展

对于非业界人士而言,ChatGPT似乎是一蹴而就的。但当我们逐步解构OpenAI的官方论文与报告后不难发现,遑论早期的基于规则和统计的自然语言处理,仅仅基于深度学习的大语言模型发展也跨越了十余年的周期,并经历了一系列的技术突破:

  • 2013年,GoogleTomas Mikolov等人开创性地提出了词嵌入Word2Vec模型,成功实现了从大量非结构化文本中学习单词之间的关联语义信息的能力,是语言模型中语义的向量化表达与大规模无监督训练方式的起源。

  • 2014年,Google Brain团队和Yoshua Bengio团队在相近的时间内,不谋而合地提出了Seq2Seq架构,首次将编码器-解码器(Encoder-Decoder)结构应用于自然语言处理,在机器翻译、语音识别、文本摘要、问答系统等领域取得巨大成功,具备很强的可扩展性和泛化能力,是语言模型能够灵活地生成不定长度文本特性的结构基础。

  • 2017年,Google Brain团队发表“Attention Is All You Need”论文,首次提出基于自注意力机制的Transformer模型,不仅突破了原有自然语言处理主流的循环神经网络(Recurrent Neural Network, RNN)无法并行的缺陷,解决了长久以来因深度循环神经网络结构存在的梯度消失现象而导致的模型层级无法做深的问题,还具备更强大的信息压缩能力,是语言模型从小模型迈入大模型技术性突破的里程碑。Transformer原始架构同样采用了编码器-解码器的结构,并进一步衍生出了三条不同的路径:只采用编码器(Encoder-only),只采用解码器(Decoder-only)和编解码器混合体(Encoder-Decoder)。

  • OpenAI团队和Google Brain团队分别基于Transformer模型的三种不同路径,形成三类标志性模型:谷歌的BERTBidirectional Encoder Representations from Transformers),OpenAIGPTGenerative Pre-trained Transformer)和谷歌的T5Text-to-Text Transfer Transformer除了T5模型达到百亿外,此阶段的模型规模在十亿级别。此外,此阶段也产生了预训练(Pretrain)和微调(Fine Tune)的两阶段训练方式,首先通过大规模数据进行无监督预训练形成基础模型(Base Model,再结合局部标注数据进行有监督微调形成的微调模型(Fine-Tuning Model,或称行业模型,成为了大模型训练的基本路线。在此路线上,自然语言处理原先孤立的各类中间阶段代理任务,如命名实体识别、句法分析、情感分类等逐渐淡化,成为了大模型的隐藏特征。

  • 2020年,OpenAI发布的论文中提出尺度定律(Scaling Laws,随着“增大算力、增大参数、增大数据”,模型性能会持续提升直至“智能涌现”。此后的两年内,GPT-2GPT-3以及如今大部分大模型的不断出现,GPT正式成为大模型的主流架构。OpenAI进一步将微调细分为有监督微调(SFT人类反馈强化学习(RLHF两部分,使得训练出来的模型能够和人类意图、表达方式等进一步对齐,大模型的智能化生成得到了进一步的提升。

  • 如今,大语言模型除了通过不断提升模型的参数量以获得更高的准确性外,基于指令微调方式的提出也使得其在少样本学习(Few-shot Learning)、零样本学习(Zero-shot Learning)上取得突破,在未提供示例的情况下能够按照给定提示(Prompt)的方式完成特定的任务。同时,在语音、图片、视频等多模态上也取得了关键进展,能够处理不同类型和媒体形式的内容。 

微信图片_20240110095820.png

图1 大语言模型关键技术突破

大语言模型的近十余年的发展是人工智能不断发展的典型,其核心在于两点:提升模型性能以提高模型的信息容纳能力,以及提供更多的数据以实现更多信息的记录。针对前者的迭代更新是推动大语言模型发展的关键因素,从早期基于规则和统计的方法,到深度学习中的包括词嵌入、编码器-解码器结构、自注意力机制等每一点技术的突破,都为大语言模型的成功提供了重要的支撑。针对后者提出的GPT架构的预训练任务,实现了大规模海量数据信息的无监督高效学习,且通过垂直领域数据的小范围有监督精准微调,可以进一步将大语言模型的能力以较低的成本推广到各类行业。

大语言模型智能的论证:压缩即智能

大语言模型的“智能涌现”引发的讨论中,直指本质的问题是:以自然语言为载体的大语言模型,为什么能展现出智能?

OpenAI推动大语言模型发展方向的核心理念是大模型的压缩能力等价于大模型的智能水平。OpenAI的首席科学家Ilya Sutskever在2023年早期的公开访谈中提及这个思路,而2023年2月28日,OpenAI研发团队负责人Jack Rae在Stanford MLSys研讨会上,更是从理论层面概念性地证明“压缩即智能(Compressibility is Intelligence)”的观点,并论证了GPT预训练过程中的下一词元预测(Next Token Prediction,NTP)的交叉熵损失优化等价于数据的无损压缩。

Jack Rae引用了1980年美国伯克利大学哲学教授John Searle提出的“中文屋”实验:假设有一个只懂英语、完全不懂中文的人被关进密闭房间,房间里有一本中英文翻译手册。房间外是一个毫不知情的人,他向屋内递进字条用中文进行提问,房间里的人按手册指导来挑选字片,并且给出正确答案。智能与否取决于“中英文翻译手册”的“薄与厚”,如果手册里记录的是中英文单词之间的映射,则具备较弱的智能;如果手册里记录的是一些语法规律,则具备较强的智能。

这一概念性实验的论证可以用机器学习中的最小描述长度原理(Minimum Description Length,MDL)进行解释,其核心思想是:假设有多个模型可以对数据进行解释,那么最佳解释必然是对数据进行尽可能短而准确描述的模型,描述长度越短则其泛化性越好,即智能程度更高。这就解释了为什么“压缩即智能”:通过压缩数据抽象出来的更短的描述,能够更好地表示数据的内在规律。 

微信图片_20240110095825.png

图2 Jack Rae论证GPT训练过程的本质是对数据集D的无损压缩

通过上述观点,我们显然可以理解为什么以自然语言为载体的大语言模型可以表现出智能。自然语言本质上是千百年来,人类个体通过对物理世界的观察和感知,在大脑中形成知识和思维,以文字的形式形成对物理世界运行规律的记录,是人类视角下世界模型的语言表现。大语言模型通过对海量自然语言文字的压缩,尝试抽象出语言模态之下的知识和规律,对人类视角下世界模型进行复现,自然表现出了人类能感受到的智能。

02 交通大模型的技术难点

大语言模型正在以很快的速度对各行各业原有基于AI的产业化应用进行新的升级改造,各类行业垂直大模型如雨后春笋般涌现。交通行业作为过去几年逐步融合AI进行业务赋能的代表性行业之一,当下也正伴随着通用大模型的技术浪潮,处于技术迭代升级的关键时期。2023年,智能交通领域的高校、科研院所和企业陆续探索了交通行业大模型,如东南大学的MT-GPT、北京航空航天大学的TrafficGPT、北京交通大学的TransGPT、百度的ACE 3.0、高德地图的交通出行大模型、中科视语的秦岭·秦川交通大模型、卓视智通的视觉大模型和佳都科技的佳都知行等。

相较于日趋成熟的大语言模型体系,交通行业的大模型尚处于百家争鸣的阶段,可以总结为三大类型的技术路径: 

  • 以经典交通理论为主,借鉴大语言模型思路的“本土派大模型”,其中的代表是东南大学的MT-GPT。

  • 结合单模态大语言模型,赋能交通场景应用的“改良派大模型”,其中的代表是北京航空航天大学的TrafficGPT、北京交通大学的TransGPT。

  • 引入多模态融合大模型,重构交通行业逻辑的“革新派大模型”,其中的代表是百度的ACE 3.0、高德地图的交通出行大模型、中科视语的秦岭·秦川交通大模型、卓视智通的视觉大模型和佳都科技的佳都知行等。

微信图片_20240110095829.png

图3 三类不同技术路径的交通大模型典型代表

不同的技术路径揭示了一个现实:交通行业尚未形成清晰的、经过验证的、具备主导性的统一架构。一方面是领域处于起步阶段,尚未有足够的场景验证现有的技术路径;另一方面则来源于交通系统的复杂性,涉及多跨系统、多跨数据和多跨模态,尤其是多跨模态复杂性中,非语言模态的单模态内建模和多跨模态间融合的困难。

难点1:非语言单模态统一建模

交通是一个涉及多种模态交互的复杂巨系统。其中的模态包括如视频、图像等视觉模态,基础设施静态信息、路段线型信息等点云模态,交通流运行态势等多元图时序信号模态,交通事件与管控决策工单等文本模态等。上述模态可以划分为语言模态和非语言模态。

大语言模型的定义是统一的,交互的环境是封闭且完备的。定义上,统一了原先孤立的各类中间阶段代理任务,如命名实体识别、句法分析、情感分类等,实现了完全的端到端;训练上,又可以通过指令微调这一纯语言模态的多轮对话关键技术,增强模型与人类用户的交互反馈。这恰恰符合通用人工智能AGI的定义:具备高效学习和泛化能力、能够与所处环境进行复杂交互并从中获得最大化奖励。

相较而言,非语言模态就尚未形成统一建模的路线,且交互的环境往往涉及跨模态。以视觉模态为例,定义上,尚未完整构建图像分类、实例分割、目标检测、目标跟踪等中间阶段代理任务的统一任务形式,尚需通过组合多个代理任务才能满足完整的业务需求;训练上,人类既未在真实场景中构建专用的纯视觉的交互场景(截止发稿前,我们惊喜地看到斯坦福大学在近两天发布的Mobile ALOHA已经能够通过较低的成本,在真实环境中实现机器人对人类演示的模仿学习,这是非语言单模态实现与环境交互学习的巨大推进),也从未真正掌握视觉信号的结构并为其定义一套专用的视觉语言表达方式,导致往往只能通过自然语言进行指代交互。举个简单的例子,在车辆分类任务上,一个视觉分类器的分类标签“大客车”“小货车”等是通过自然语言进行定义的,并未有直观的形状、颜色等视觉语言表达方式进行定义;当视觉分类器无法识别一个车辆时,只能通过标注的形式在训练之外增加新样本,而无法通过专用的场景通过交互、示教的方式来教会视觉分类器学到新知识。 

微信图片_20240110095910.png

图4 Mobile ALOHA的问世是实现非语言单模态与环境交互学习的巨大推进

显然,其他非语言模态与视觉模态存在相似乃至更甚的困境,即未完全形成模态内的统一建模路线、未完全建立适应模态的交互任务和真实环境、未完全摆脱语言模态的指代交互形式。退而求其次的,只能将特定任务人为地拆解为一系列中间阶段代理模型,通过采样特定代理任务下的数据实现代理模型的标定,来实现对模态下统一模型的近似逼近。

难点2:多模态融合建模与数据对齐

除了非语言单模态统一建模存在难点外,实现跨模态的融合建模也存在不少潜在难点。主要体现为以下方面:

首先是对跨模态间对齐数据的量和质要求高。多模态大模型需要整合来自不同模态和形式的数据进行联合训练,如文本、图像、视频等模态。举个例子,一次事故发生时的视频数据、对应的工单描述数据、事故发生前后的交通流运行态势数据构成了一组对齐后的视觉、语言和信号模态样本。相较于海量的自然语言文本,对齐数据的数量是远远不足的。此外,不同模态中对于相同概念的对齐准确度直接影响了数据质量,例如,视觉和信号模态下对于交通拥堵的定义可能存在一定的偏差,从而影响对齐数据的质量。

其次是对少样本下的多模态模型的泛化能力要求高。多模态大模型在在面对对齐数据较少的少样本学习场景时,如何避免模型过拟合,是一个亟需突破的问题,这要求模型不仅要有强大的特征提取能力,还要具备良好的泛化能力。同时,多模态模型还应该能够通过定义一个或一组统一任务,满足跨模态训练的适配性,这要求模型能够灵活地处理不同类型的输入,也能够合理响应不同的任务需求。

最后是多模态融合的策略需要结合样本量进行精心设计,以实现模型的性能的最优化。当对齐数据有限的情况下,应该针对各个单模态独立建模,再进行决策层面的不同模态的预测结果进行加权汇总,实现晚期融合;当对齐数据具备一定规模时,应该尽可能地在特征层面进行不同模态的特征进行拼接或加权求和,实现早期融合。

03 交通大模型技术体系的探索

交通大模型的技术难点激发了我们对交通大模型技术体系的思考。受限于当前阶段多模态大模型建设的技术瓶颈,交通大模型的“GPT时刻”还远未来临,通过一个交通大模型的端到端建模、训练和应用的技术还远未成熟。取而代之的,或许通过一系列优化提升,或者一系列中间代理任务的设计,是现阶段不得不妥协的可行实施路径。我们初步判断,现阶段交通大模型所能达到的水平或仅相当于GPT-1或BERT阶段的大语言模型水平。但大语言模型的技术发展历程也鼓舞我们,或许接下来交通大模型将在统一的技术体系下迎来爆发。那么统一的技术体系到底应该是怎样的?从“压缩即智能”这一观点中,或许我们可以得到一些启示,那就是在获取高质量、细粒度数据的前提下,围绕复杂交通流建模这一经典问题,通过大模型实现交通流运行规律的精准刻画。

如果说大语言模型的本质是通过对人类语言进行建模,学习语言的结构、语法和语义或词元之间的隐式的联系,通过不断增加模型的规模和高质量训练数据,最终涌现出上下文学习、思维链等能力,实现性能的显著提升;那么交通大模型的核心应该是一个复杂交通流大模型。因为交通流才是交通行业所有行为的服务对象,比如交通基础设施建设与运维、交通管理与运营,都是为交通流服务的。抓住交通流,就是抓住了交通行业的牛鼻子,是交通行业的“第一性原理”。而交通流大模型,是通过对车辆行为进行建模,学习车辆的组成、作用和反馈,通过不断增加可利用的多源异构数据模态,最终实现交通流运行态势的预测、交通出行行为的诱导、管理和控制。

交通大模型的核心任务:复杂交通流建模

复杂交通流建模是一个经典的交通问题,通过以数理解析为主、数据驱动为辅的模型实现交通流规律的描述。建模的层级可分为宏观、微观和介观: 

  • 宏观交通流模型将把交通流看作是一个连续的流体,用宏观的物理量(如流量、密度、速度等)来描述交通流的状态和变化,代表性成果有Lighthill-Whitham-Richards(LWR) 模型、Greenshields模型、Payne-Whitham模型等。优点在于可以直观把握交通流的整体特性,在简化的情况下容易得出解析解,给出交通流行为的基本解释;缺点在于假设条件过强,与真实交通条件存在差距,无法解释交通流复杂行为的产生机制,无法描述车辆个体行为的差异与车辆间的交互作用。

  • 微观交通流模型把交通流看作是由许多单独的车辆组成的离散系统,用微观的物理量(如车辆的位置、速度、加速度等)来描述每辆车的运动行为和相互作用,代表性成果有Gipps模型、Intelligent Driver Model(IDM)、Nagel-Schreckenberg(NaSch)模型等。优点在于建模时可充分考虑车辆特性,能够灵活适应各种交通条件的变化,容易在计算机上进行仿真并观测出复杂行为的产生过程;缺点在于参数的确定存在很大的主观性,由于不同场景驾驶行为的差异与大规模场景实测数据的缺乏,尚未与实测的物理量建立联系,同样无法真实表征交通流的运行情况。

  • 介观交通流模型是介于宏观和微观之间的交通流建模方法,它把交通流看作是由一些基本的运动单元(如车队、车道、路段等)组成的混合系统,用介观的物理量(如车队的长度、速度、密度等)来描述交通流的特征和演化,代表性成果有Cell Transmission Model(CTM)、METANET模型、Dynameq模型等。优点在于既能反映交通流的全局特性,又能考虑车辆的局部特性,能够描述交通流的动态交通分配和控制。缺点在于同样需要更多的高质量数据和密集的计算资源,同时也存在一些宏微观尺度转换和参数校准的问题。

通过上述描述不难发现,现有的交通流建模同时受到算力、算法和数据的限制。算力、算法限制了交通流模型的参数规模,不得不对建模条件进行简化,无法在维度更大的向量空间中对交通流复杂、大信息量的特征进行表征,表达能力和泛化能力均无法达到理想水平。高质量场景数据的缺乏一方面意味着存在一定的噪声、异常、偏差等干扰,导致模型存在较大误差和波动;另一方面也意味着需要进行额外的清洗、校正、增强、填补,将不可避免地引入人为偏差,导致无法反映交通流的真实状态,无法适应不同的交通场景。

随着新型基础设施建设的不断推进,尤其是路侧多源感知设备的不断丰富,提供了更多维、更精细、更实时、更准确的交通流数据,为实现复杂交通流建模提供更充分的条件,通过更大的模型参数空间来容纳更多交通流运行信息也成为必然趋势。围绕经典交通流理论为基础,进一步实现“三提升”:环境感知能力提升、交通建模能力提升、辅助决策能力提升,可能是现阶段实现建设交通大模型的一个可能的“局部最优解”。

提升1:环境感知能力提升——多传感器融合增强

环境感知能力的提升使得高质量、细粒度的交通流数据的大规模获取成为可能。粗粒度交通流数据一般指的是各断面交通流宏观运行的统计表征,即流量、速度、密度等;细粒度交通流数据则指的是构成交通流的微观交通实体的行为表征,即车辆运行轨迹。

通过路侧多传感器的融合,尤其是日趋成熟的摄像头与雷达融合技术,可以增强多车辆目标轨迹的持续跟踪能力。其中,摄像头提供原始视频码流,结合深度学习、计算机视觉等技术,自动检测和跟踪运动的交通实体目标,并获取相应的外观特征、运动状态等信息;毫米波雷达通过距离、速度、角度,区分、识别和确定目标车辆,并通过实时检测车辆的位置变化,实现车辆的轨迹跟踪。

具体地,包含以下步骤:

  • 单镜跟踪:基于摄像机,实现单镜头下的多目标检测和多目标跟踪。主要通过计算机视觉技术,利用深度学习模型实现对单镜头视频流中的多个运动目标进行检测,并利用卡尔曼滤波、粒子滤波等算法对检测到的目标进行跟踪。

  • 雷视融合:基于毫米波雷达,实现雷达和视频的融合,用于校准车辆位置和目标对齐。通过毫米波雷达可以获取车辆的距离、方位角、俯仰角等信息,与视频流中的目标位置信息进行融合,校准因镜头畸变、目标运动等原因造成的定位误差,为多目标跟踪提供更为准确的位置信息。

  • 跨镜匹配:实现跨镜头的多目标匹配和多目标预测。利用目标的外观特征、运动特征等,通过轨迹匹配算法实现跨镜头的目标关联,同时结合历史轨迹和运动模型,预测目标未来的运动状态,将单点的多目标跟踪提升至更长的距离。

  • 坐标转换:实现相机坐标系到世界坐标系的转换。通过相机标定等算法,建立相机坐标系和世界坐标系的映射关系,将不同镜头的轨迹坐标转换到同一坐标系下,得到车辆轨迹数据,方便后续的交通流建模。

微信图片_20240110095921.png

图5 车辆轨迹数据获取流程

通过对运动目标的检测、跟踪、预测和信息融合,能够提高复杂交通场景下的目标检测和跟踪的鲁棒性、准确性和实时性,增强全时域的多车辆目标轨迹跟踪,实现将即有感知系统中感知设备点位被动的、已发生的交通事件发现,升级为轨迹跟踪与分析,实现拥堵、风险态势的主动研判。高质量、细粒度的车辆轨迹数据可以满足以下应用:轨迹数据中,单条轨迹表征车辆运行的动力学特征,可以为交通模型的参数标定提供海量数据;多条轨迹的相似行为表征宏观交通流运行的趋势,为态势研判提供支撑依据;此外,结合视频事件的高时效性与轨迹趋势的稳定性,可以降低因视频事件检测过于敏感带来的事件误报。 

微信图片_20240110095926.png

图6 环境感知能力提升:全时域感知与主动研判

提升2:交通建模能力提升——多阶段精细化建模

基于高质量、细粒度的微观车辆运行轨迹跟踪数据,复杂交通流模型能力的扩展应能够覆盖交通流建模的完整性和准确性、交通流模拟的场景适应性和交通流应用的全面性三个方面的提升。

首先,通过对微观车辆的两阶段建模与初步标定,能够增强交通流建模的准确性和完整性。这里的两阶段建模体现为:

  • 经典车辆模型构建:结合车辆轨迹数据、车辆动力学模型和跟驰换道理论,建设基于经典数理解析的微观车辆模型。具体地,对车辆轨迹数据进行进一步参数统计,获取速度、加速度、车头时距等建模所需统计层面参数,结合贝叶斯优化进行参数调优。经典车辆模型可以模拟绝大部分同质化的驾驶行为,这也是目前市面上大部分微观交通仿真软件,如VISSIM、SUMO等仿真的底层运行逻辑,具备一定模拟精细度的同时,合理地控制仿真模拟计算量。结合路段真实采集到的车辆轨迹数据对经典车辆模型的重新标定,能够使模型更真实地反应交通流运行的实际情况。 

微信图片_20240110095930.png

图7 经典车辆模型构建与参数初步标定

  • 智能体车辆模型构建:经典车辆模型的优势在于对大量同质化车辆驾驶行为的模拟。但交通流除了“同质化的车辆”外,还受到“异质化的人因”“异质化的智能等级”等的影响。不同的人对于相同的车辆性能和相同的交通情况,以及不同智能等级的车辆对于特定的交通场景,所表现出来的行为和反应也应该是不同的。数据驱动的智能体车辆模型是在特定环境下根据自身遇到情况,自主发挥作用并进行适应性响应的计算实体,能够刻画隐藏在车辆轨迹数据下的异质性驾驶行为。相较于经典车辆模型需要人为从车辆轨迹数据中提取统计层面参数,智能体车辆模型是通过模仿学习直接从采集到的车辆轨迹原始数据进行行为克隆的一系列多类别模型,通过对车辆轨迹数据模式的自动化分类,除了可以模拟激进、非激进的安全方面驾驶行为的模拟外,还可以实现不同等级自动驾驶行为的模拟。(值得补充的是,模仿学习是大模型领域的实用技术,除前文在视觉模态中提到的Mobile ALOHA用到模仿学习外,大语言模型的建模和指令微调本质上也可以视为对自然语言和人类偏好的模拟和近似)

微信图片_20240110095933.png

图8 智能体车辆模型构建与参数初步标定

其次,基于两类不同的车辆模型进行配比,增强了不同场景下的交通流模拟的适配性。在真实运营场景的不同路段,可以采用适应路段特性的经典车辆模型、考虑安全驾驶敏感性的智能体车辆模型进行配比;在自动驾驶、智能网联场景下,可以采用适应智能等级的经典车辆模型、智能体车辆进行配比。通过交通仿真推演,进一步地可以获取微观车辆运行所产生的宏观交通流行为表征,结合真实路网关键节点所获取的交通流统计参数,可以在宏观层面上实现交通流模型参数的进一步微调,获取更为精准的交通流模型。 

微信图片_20240110095937.png

图9 混合配比下的交通流模型构建与参数精调

最后,在获取了适配多场景的更为精准的交通流模型后,我们可以将环境感知提升能力中的全时域感知提升至全时空感知。其中,空间的拓展体现为对现有的感知场景下摄像头缺失的盲区的能力扩展,通过对盲区应用交通流模型进行模拟推演,补全盲区的车辆轨迹,提升车辆轨迹跟踪和事件检测的空间完整性;时间的拓展体现为长短时的交通态势预测上,通过短时的微观交通仿真,或长时的宏观时序预测,可以实现不同时间尺度的未来交通态势推演。

微信图片_20240110095940.png

图10 交通建模能力提升:从全时域感知到全时空感知

提升3:辅助决策能力提升——多跨模态协同优化

前文分析了现阶段的大语言模型,或者多模态大模型,直接作为交通大模型的底座还存在的一些困境,而以AI Agent作为切口或许是当前交通领域能够直接应用上述大模型能力的一条可行路径。我们都知道基于神经网络的大模型存在幻觉、难以应对复杂计算或实时性不足的问题,而这些正是基于符号或规则的外部工具的强项。

AI Agent是基于大模型的具备独立思考和行动能力的AI代理程序,面向特定的任务目标,AI Agent可以根据环境的反应进行自我提示和反馈,通过调用一系列即有的外部工具(如插件、API、代码库或搜索引擎等),最终完成任务目标。交通场景下,AI Agent可以基于大语言模型,或者多模态大模型,以及现有已建设好的各类智能交通系统或工具,通过自然对话的交互方式提供各类交通管理任务能力,根据指令自主完成传统需要人工执行的各类复杂操作,通过多跨模态的协同优化实现辅助决策能力的提升,显著提高一线操作人员或管理者的工作效率。以下是三项示例应用:

第一项应用是AI Agent的“图生文”能力,即通过监控视频的分析理解,实现交通事件与态势自动总结。举一个简单的例子,AI Agent可以快速调用多模态大模型的能力,实现对监控系统视频的巡检,并生成事件的工单数据并进行自动化入库。这项应用可以降低交通场景的人工巡检、处置的工作量。此外,也可以通过对生成的高质量工单文本进行文本的分类,将视频事件检测这一难度较大的任务转化为文本事件分类这一简单的任务,降低纯视频事件检测的误报率。 

微信图片_20240110095947.png

图11 AI Agent“图生文”能力:监控视频分析理解,实现交通事件与态势自动总结

第二项应用是AI Agent的“文生文”能力,即通过第一项应用中识别的事件描述工单,首先调用大语言模型的能力进行参数化的信息转化,生成参数化数据,通过调用“交通态势预警平台”接口实现事件快速展示;在此基础上,通过调用“智慧交通管控平台”接口实现管控方案的推荐与参数生成,实现管控策略一键下发至运营人员,提升决策与处置效率。 

微信图片_20240110095951.png

图12  AI Agent“文生文”能力:管控方案推荐与参数生成,实现管控策略一键下发

第三项应用是AI Agent的“文搜图”能力,即通过特定的文本描述,实现交通实体历史轨迹检索追踪。举一个具体场景为例:2023年9月5日12:23:09在沪杭甬高速公路S2线(沪杭段)K23+150处,检测到一辆黑色轿车(浙A12345),希望检索该车当日全部视频数据。AI Agent通过对缓存的视频库调用多模态大模型的搜索能力,找到相应的视频片段并进行总结描述。这项应用可以实现对漏逃、涉案等车辆的追逃、稽核,以及对“两客一危”、绿通车辆的历史追踪。 

微信图片_20240110095954.png

图13  AI Agent“文搜图”能力:特定描述下的交通实体历史轨迹检索追踪

04 后记

交通大模型作为新兴的技术和产业,从讲好理论到形成体系,从形成体系到实践应用,都还有较长的路要走,而且是一条需要不断探索的新路。本文作为我们阶段性探索与思考的总结,仅仅代表一家之言,希望能借此结识多一些对“交通大模型”感兴趣的同道中人,并能得到行家的指点。

未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。

加载中~

你可能也喜欢这些文章




稿
意见反馈0
商务合作

商务合作 扫码联系

返回顶部