万字长文详解：东南大学「多模式交通大模型MT-GPT」

交通大模型的落地挑战

微信截图_20230920142311.png

近年来，随着数据暴增与计算机算力的快速发展，通用人工智能（Artificial GeneralIntelligence, AGI）的概念被广泛提及，作为一种高度自治的机器或系统，通用人工智能在广泛的任务和领域中拥有与人类相媲美的智能和认知能力，能够通过一个统一的流程在不同任务上自动工作。

最近，最为人所知的尝试可能是 ChatGPT（Chat Generative Pre-trainedTransformer）。

作为一种基于生成式预训练 Transformer 结构的大语言模型（LLM），它在NLP 领域是一个非常引人注目的大模型案例，它可以理解问题的上下文、语法和语义，生成比人类有意义且与上下文相关的回应。

但 ChatGPT 只是 NLP 领域中一个众所周知的大模型的案例。工业界与学术界还出现了大量针对不同领域的大模型，例如华为的盘古大模型，腾讯的混元大模型、百度的文言一心等等。

在交通领域，多模式交通一直是一个研究热点。

多模式交通系统涉及不同交通方式（例如公共交通、私家车、步行、自行车等）的相互作用和整合。这种综合性的交通系统在提供更高效、便捷的交通选择方面有着巨大潜力。

但是，由于多模式交通系统开放、随机、非线性、多主体、自适应、耦合反馈、互动博弈的特点，越来越多的研究发现多模式交通中的传统交通模型以及衍生出的工具在应用中存在巨大不足，因此，许多研究转而使用一些深度模型，这些不足包括：

◼ 静态性质：许多传统交通模型是基于静态假设构建的，无法很好地捕捉交通系统的动态变化和实时情况，尤其在人口增长快速、事件引发交通紧张时。

◼ 数据来源单一：全局交通系统表征获取困难，描绘复杂的交通系统需要多因素视角和精细的建模流程。

◼ 复杂性限制：交通系统的复杂性可能导致模型的简化，忽略了一些细节和非线性关系，使得模型的预测能力有限。

◼ 精准度问题：一些传统交通模型可能在细粒度上缺乏足够的精确性，例如无法准确预测小范围内的交通拥堵情况。

◼ 缺乏综合性：传统交通模型往往是针对特定问题设计的，难以综合考虑不同交通因素之间的相互影响。

大模型在特定领域的成功落地与传统交通模型的局限性激发了我们思考，在多模式交通系统中是否可以纳入类似的模型概念？

答案是肯定的。

尽管自然语言处理与城市交通系统看似没有关联，但它们都拥有通过数据挖掘进行知情决策、通过机器学习辅助性能优化、通过问题解决所需的上下文理解以及用户与系统的交互和适应等共同任务。

多模式交通中的模型不应该只停留在“概念、思辨”层面，而是应该融合现实场景、挖掘多源数据，提升精准性，保障科学性。

因此，为了解决多模式交通系统中互联互通的难题，我们期望将先进的机器学习技术和可信的交通领域知识结合，构建一个多模式交通领域自己的大模型，以此来挖掘新的机遇与范式。

01、交通大模型理论进展与挑战

大模型理论发展

大模型在理论上最大的突破之一来自于 2013 年 word2vec模型的提出，其可以利用神经网络为单词生成词向量表示，为语言通用大模型提供了基础工具。随后，2014 年提出的Seq2Seq模型首先将编码器-解码器结构应用于自然语言处理，为通用大模型的发展提供了重要的算法架构。

另一个关键的理论突破为 2017 年提出的 Transformer，为大模型引入了自注意力机制，并且由于其天然的并行计算能力，大幅提升了自然语言处理任务的性能。

紧接着 Transformer，2018 年谷歌提出了 BERT （Bidirectional Encoder Representations fromTransformers），也即利用 Transformer 的双向编码表征来改进基于架构微调的方法。

在 BERT之后，大模型的落地应用不断推出，涵盖了语言、视觉、医疗、法律、气象等多个领域，在数据与模型层面上可以被分为两大类，即通用大模型与垂直大模型。通用大模型不针对特定任务进行优化，而是通过大规模数据的训练来学习普适性的特征和模式。

凭借理论上的不断突破，通用大模型在近年来出现了众多落地产品，其中一个典型代表就是大语言模型 GPT（Generative Pre-trained Transformer）系列，如 GPT-3，GPT 系列在自然语言处理领域表现出色，可以用于文本生成、机器翻译、问答系统等多种任务。

其他领域的通用大模型包括视觉大模型 CLIP，能够理解图像和文本之间的关系，可以在图像和文本任务之间实现迁移学习，如图像分类、图像生成、图像搜索等。

在图像生成与艺术创作领域，OpenAI 开发的跨模态的大模型 DALL·E 结合预训练 CLIP 和扩散模型，能够将文本描述转化为对应的图像生成。

与通用大模型不同，垂直大模型仅针对特定的应用领域或任务进行优化，能够更好地理解和处理特定领域的知识，从而在相关任务上表现更加出色。

因此，垂直大模型都是以特定任务为导向。

典型的例子包括气象领域中针对地球空间特征改进的用于全球天气预报的3D-Transformer、化学领域中用于化学分子结构与预测化学性质预测等任务的ChemBERTa、法律领域中针对法律判案与检索问答的预训练 Lawformer。

交通大模型雏形

大模型及其底层技术的进步已经引发学术界与工业界对于交通大模型的探索。

一个交通领域的大模型案例就是自动驾驶。自动驾驶作为交通领域最尖端的技术之一，通常涉及感知、预测和规划这三个连续的任务，因此传统的模型和算法针对每个特定任务进行分别开发。

然而，最近提出了一种基于 Transformer 解码器的全栈可控端到端自动驾驶方案，称为UniAD，该模型将三大自动驾驶任务融合在一个神经网络中，并在真实环境下取得了不错的效果。除了自动驾驶，网络智能对于复杂城市交通系统也至关重要。

让模型理解和管理这样复杂的系统的前提条件是对多模式网络流的时空估计和预测。由于城市交通数据采集的感知硬件通常较为稀缺，获得复杂交通网络的全局数据并非易事。

受交通领域物理模型所启发，业界提出的解决方案包括将机器学习技术与多源数据融合相结合，利用迁移学习来推断没有检测器的道路段的缺失值，以及利用高斯过程回归来解决交通系统中的估计和预测任务。

最近，有研究者提出了一种基于生成式图（Generative Graph）Transformer的交通大模型，将交通预测和仿真相结合，以捕捉交通系统参与者的行为和交互。交通仿真是评估城市交通决策和政策的基本工具。

然而，实现能实时准确反映现实交通状态的交通仿真仍然具有挑战性，特别是考虑到复杂城市交通系统的随机性和异质性。为了确保虚拟仿真与现实世界的一致性，使用高效仿真优化方法进行参数调整起到至关重要的作用。

其中，鲁棒优化和概率方法是更好地处理交通系统随机性和提高解决方案稳健性的两个方案。为了高效处理来自成千上万的交通决策者的异质性，有研究将聚类和集成学习技术整合到强化学习中，形成了交通仿真的两阶段范式。

为了分析对网络流不稳定性的影响，有研究针对混合自主网络开发了一个集成建模和仿真框架，为大模型提供了新的角度和集成思路。

也有研究提出了基于仿真的双层模型，用于多模式交通场景下的次优网络容量分析。为了从真实数据中学习交通动态而不是通过试错方法，有研究将数据驱动算法和图计算技术引入到交通仿真中，从而从大模型的角度提出了交通仿真器TransWorldNG。

多模式交通的核心思想是将不同交通模式融合起来，形成一个协调有序的交通网络，使城市居民可以在不同情景下灵活选择出行方式。

因此，高效精准地处理大规模多模式交通网络成为一个难题，多模式交通中异构数据的表征学习可以预见的将成为多模式交通大模型实现的一个突破口。

基于这点，受到“文本、语音、图片”跨模态任务的启发，有研究提出了多模式交通中的联合表征学习框架，从大规模地图数据中提取多模式交通图来描述用户、出发地对和出行模型的并发特征并最后用于多模式交通推荐。

也有研究聚焦于路线表征学习，通过挖掘多模式交通网络中的时空依赖性和历史轨迹语义一致性，学习统一的路线表征。

大模型的落地挑战

交通大模型的挑战主要集中于能否落地这个最大的问题上，行业内反馈最多的困难在于数据的获取与融合上。

不同于 Chat-GPT 拥有海量的训练数据，交通领域的数据获取极为困难，政府间的数据协调与融合将花费大量的时间与成本。

因此，即使拥有其他行业大模型成功的经验，交通大模型的落地依然面临着许多挑战。这些数据获取与融合上的挑战可以被总结为以下几点：

第一，数据孤岛问题。

不同政府部门负责不同的交通数据收集与管理，这导致数据在不同部门之间形成了孤立，难以实现有效的共享和互通。例如，交通管理部门可能负责交通流量数据，而城市规划部门则可能负责道路规划数据，两者之间的数据难以无缝整合。

第二，数据格式和标准不统一。

不同政府部门可能使用不同的数据格式、命名规范和数据标准，使得数据在进行交换和融合时存在困难。这导致数据整合的复杂性增加，可能需要大量的数据清洗和转换工作。

第三，数据所有权和隐私问题。

政府部门间共享数据可能涉及到数据所有权和隐私问题。部分数据可能包含敏感信息，需要确保数据共享和融合的过程中不违反相关的法律法规，同时保护个人隐私。

第四，数据质量和一致性。

由于交通数据具有多源性与异质性，数据的质量和准确性可能存在差异，这会影响到融合后模型的可靠性和准确性。数据质量问题可能包括错误、噪声和缺失值，需要采取合适的方法来处理这些问题。

尽管数据的获取十分困难，但在某些特定的交通场景下，也存在大量异质多源的数据，交通大模型如何选择合适的模型与数据来完成特定的交通任务成为了除数据协调之外最大的挑战。

以交通中的道路巡检为例，日常巡检任务中会收集到大量的数据，这些数据包括视频、雷达、GPS 等数据。但对于道路预防性养护这个任务，行业内依然不知道怎样分析这些数据，怎样使用大数据做到道路预防性养护。

因此，针对不同的交通任务选择合适的数据与头部（Head）模型也是交通大模型落地前必须要面对的挑战。

为解决以上挑战，本文构思了一个名为 MT-GPT（Multimodal Transportation GenerativePre-trained Transformer）的多模式交通大模型概念框架，旨在为多模式交通系统任务中的多方位、多颗粒度的决策问题提供数据驱动的大模型工具。

我们详细阐述了这个概念框架的基本逻辑和功能，以及实现这个框架的核心技术及其落地方式。

通过融合大数据分析、先进的机器学习技术和可信的交通领域知识，MT-GPT 可以在数字化、信息化和智能化等方面为多时空尺度的城市交通规划、网络设计、交通基础设施建设和交通管理提供感知与决策支持。

02、MT-GPT 基本架构

由于多模式交通系统天然地拥有拓扑属性，以分层交通任务为导向的视角对于理解和管理多模式交通系统至关重要。

因此，MT-GPT 使用了交通中“点线面”的概念来建立分层大模型，分别为单点大模型、干线大模型与路网大模型。单点在多模式交通中具体表现为交叉口或路段，这也是交通系统的最小结构单元。作为一个独立的空间实体，单点通常以有限的拓扑信息和相对较低的表征维度为特征。将几个单点通过有序的拓扑序列耦合在一起，就形成一个干线。由于干线内多个单点之间存在时空相关性，干线内的交通状态将以线性、有向的方式传播和消散。干线的特征还包括数据的多源性，例如监控摄像头和毫米波雷达可以提供不同的原始数据格式，因此多源数据需要进行预处理，进一步在时空上进行预匹配，以此构建交通的动态演化过程。

最后，几个干线的空间交织会形成一个复杂的路网。以交通状态中的拥堵现象为例，其拥堵动力学成为一个路网中非线性的典型交通现象，而这种非线性主要来源于路网在三维时空图中的高耦合特性。另一个路网的关键特点，或具有挑战的问题，就是感知数据采集的硬件通常是稀疏分布的，在构成一个路网的成千上万个单点中，只有少数单点有条件收集数据并存在数据流入，而其余的点是没有任何数据流入与流出的“黑点”。

需要注意的是，MT-GPT 并不是一个大语言模型，其只是借助语言模型提取问题输入（Prompt）的语义信息，并以此来推动用户与大模型的交互。

MT-GPT 通过点线面三层大模型框架来解决不同多模式交通任务，特定的多模式交通拥有固定的数据范式与模型结构，因此设想中的 MT-GPT 模型参数量并不会像已实现的语言或视觉大模型一样拥有高达万亿的参数。MT-GPT 的模型架构如图 1 所示。

640 (4).png

MT-GPT 的数据来源是多样且异质的，因此我们构思了一种新的 MT-GPT 的数据范式来支持这种综合性交通系统的数据框架和结构。

MT-GPT 将多源交通数据根据数据范式进行自动整理归类，随后通过数据增强与特征融合，获取训练数据的有效表征。

为了解决数据所有权和数据隐私的问题，MT-GPT使用了联邦学习这一分布式机器学习技术。

联邦学习的核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练，不需要交换本地数据，仅通过交换模型参数或中间结果来构建全局模型。由于不上传数据，联邦学习可以在不拥有数据所有权的情况下实现数据隐私保护。

在满足数据隐私保护的需求之后，MT-GPT分为单点大模型、干线大模型与路网大模型这三个层级，各个层级大模型使用多任务学习作为内部模型架构，并且使用 Transformer 作为共享骨干网络（Backbone），每个层级的多任务学习框架中包含了共享层（Shared Layer）与特定层（Task-specific Layer），特定层根据改层级交通任务的不同可以选取不同的头部（Head）。

单点大模型与干线大模型都会生成单点层级与干线层级的交通任务表征，共享并传递至上一个层级的大模型。为了缓解路网层级感知稀疏的问题，MT-GPT 在路网大模型中增加了迁移学习模块，来帮助模型迁移到没有样本的路网区域。

多模式交通的数据范式与数据预处理

多模式交通数据五要素

多模式交通数据涵盖了不同的交通出行模式，如公共交通、私家车、自行车、地铁等，不同交通出行模式之间可能存在复杂的关系，多模式系统与数据分布中也存在较大的异构性。

为了使本文所构想的 MT-GPT 能够实现预期的功能，MT-GPT 必须根据多模式交通的数据特征建立一个具有高泛化性的数据范式，以便大模型能够综合分析和决策。

多模式的交通数据必须经过预处理之后才能进入数据范式进行分类筛选，预处理的要求如下：

◼ 数据格式统一：不同交通模式的多源数据可能具有不同的格式和结构。需要将这些数据统一到一个统一的格式中，以便进行后续的数据整合和分析。

◼ 数据地理空间位置对齐：确保不同交通模式的地理空间数据是对齐的，这样才能在地图上准确显示不同交通模式的位置和路径。

◼ 数据时间戳同步：时间同步对于整合多模式交通数据非常重要。确保不同数据源的时间戳是一致的，以便进行时间序列分析和综合分析。

◼ 交通异构数据重构：不同模式的交通出行可能是异构的。比如出行的道路异构、价格异构，需要根据交通任务将异构的交通异构数据根据交通拓扑结构与市场规律进行重构。

在经过多模式交通数据的预处理之后，数据将统一根据 MT-GPT 的数据范式进行归纳分类。

MT-GPT 的数据范式包括五个交通数据类别，分别是人、车、路、环境和管控，每个数据类别包含多个交通因素。

数据范式中的“人”指的是进行交通活动并消耗交通资源的交通参与者。人的社会人口因素包括用户的出发地、目的地、出发时间、出行方式等，这些都是多模式交通问题中不可或缺的需求因素。

“车”指的是城市中所有的人员和货物交通方式，车辆的具体细节，例如车牌号、车辆类型、发动机类型、非机动车类型等，对于刻画路网流量状态起到很大的作用。

根据点线面层级划分，“路”是支持城市内人车流动的关键交通基础设施单元，道路类型、道路车道数、地铁站口、方向性和连通性等因素都是影响交通运营和状态模式的供给因素。

“环境”指的是影响交通正常运行的外部因素。这些因素包括（极端）天气、特殊事件、基础设施设备（如车路协同技术）等。

最后，“管控”指的是在城市交通系统中实施的所有控制政策或策略，包括限速、交通信号灯配时、车道分配、路线引导、停车管理、拥堵收费、公交车道等。

尽管现有面向交通问题的机器学习模型很少明确考虑管控数据，但管控数据是在解决方案评估或生成中不容忽视的数据组成。

事实上，MT-GPT 通过纳入管控数据，将其作为一个集成的决策框架与“Predict, Then Optimize”方法所区分，MT-GPT 可以通过学习管控变量的分布，来更加智能化的生成管控解决方案。

可以清楚的看到，MT-GPT 的数据范式涵盖了多模式交通系统的每个方面，但需要注意的是并不是每个具体的交通任务都需要这五个数据类别，所以模型会根据特定的交通任务有选择地获取数据表征。

跨模态联合表征学习

由于多模式交通数据多源异质的特性，复杂的交通系统中存在不同的数据模态，如图像、文本、地理信息等，不同模态之间的数据具有不同的特点和表达方式，也有着不同的颗粒度。

例如，手机的信令数据与视频监控得到的地铁口人流量之间的颗粒度是不同的，信令数据可以得到该站点人流的时空轨迹，而监控数据可以得到通过监控区域的准确人流情况，两个不同的数据模态间对于地铁口人流的刻画是不同的，将两个数据直接输入进后续的模型训练，将会损失这些模态特异性的信息。

因此，如何进行交通多模态数据不同颗粒度情况下跨模态的联合表示学习，使模型能够充分理解不同颗粒度模态之间的关系，是一个非常重要的挑战。

MT-GPT 构想的联合表征学习框架首先将不同颗粒度的多模式交通数据进行对齐和变换，使它们在同一颗粒度级别上具有可比性。例如将较粗颗粒度的手机信令数据进行裁剪或汇总，以便与较细颗粒度的监控数据在时间或空间上对齐。

为了将不同颗粒度的模态数据进行联合表征学习，可以考虑引入多层级的特征融合。

在较低层级，分别对每个颗粒度的多模态数据进行建模，捕捉其内部特征。具体来说，在联合表征学习中构建数据模态特异的表征子空间，对每个模态有一个对应的不同的子空间来学习与提取对应模态的特征，子空间可以充分反应模态的颗粒度。

在较高层级，联合表征学习将不同颗粒度的表征进行融合，可以使用诸如 MulT（Multimodal Transformer for Unaligned Multimodal Language Sequences）、CLUE（Cross-linked Unified Embedding）来学习不同颗粒度模态之间的信息，通过“低秩矩阵分解”和“配对监督信号”等方法将这些来自不同模态的表征整合到一起。

同时，考虑到不同交通任务对于不同颗粒度多模态数据的依赖程度，可以根据任务的特点和颗粒度的适用性来调整特征的权重和影响。

也考虑到交通中不同模态的数据可能存在显著差异，可以在不同颗粒度上使用不同的网络结构或模型参数，以适应跨模态交通数据的特点。

MT-GPT 可以构建一个灵活的多模式交通跨模态数据联合表征学习模型，来有效地处理不同颗粒度的交通数据的情况。这有助于将跨模态粒度数据的信息充分融合，为多模式交通分析和预测提供更准确和全面的支持。

生成方案的多模态交互技术

Chat-GPT 的输入与输出生成格式是文本类对话，以 DALL·E 为代表的视觉大模型大多直接输出图像或者简单的文本信息。但多模式交通大模型输入与输出的格式需要综合考虑交通任务的复杂性、用户需求以及信息呈现的效果。

由于多模式交通中存在复杂的输入与输出信息，比如公交车道设置，出行需求推荐、道路巡检任务安排等等，因此多模式交通的任务输出也涵盖多种信息呈现类型，从文本到地图、图表等。

为了让 MT-GPT 更好地与用户交互，提升输出结果的清晰性、准确性，MT-GPT 可以从任务分类、优先级、多模态融合等角度考虑解决方案输出，使用多模态的生成方案交互技术。

首先，可以将多模式交通任务进行分类，确定每个任务的优先级和重要性。例如，公交车道设置可能需要在地图上进行可视化，而出行需求推荐可能需要以文本方式呈现，根据任务的性质和目标，选择适合的输入与输出格式。

其次，也可以考虑任务所涉及的信息量和深度。对于较为复杂、详细的任务，可能需要更丰富的信息展示，包括图表、地图等；而对于简单的任务，文本方式可能更适合。对于复杂的多模式交通任务，可以考虑多模态输出，即结合文本、图像、图表等不同形式，以多角度呈现信息，提供更全面的视角。确定多模式交通大模型输入与输出的格式需要平衡多模式交通任务复杂性、用户需求、信息传达效果等多个方面，确保输入与输出的交互能够有效地传达信息并满足用户的实际需求。

数据安全保护

多模式交通数据涵盖了个人出行信息，如位置、出行时间等，具有很高的隐私敏感性，政府与个人不愿也无法完全提供这些数据。

因此，为了满足数据安全保护的要求，联邦学习被引入 MT-GPT。

根据 MT-GPT 的点线面分层，由于单点大模型不考虑复杂交通网络的拓扑结构，单点大模型只需要使用普通联邦学习，只需要将本地服务器的模型上传至中央服务器来做最后的训练评估。

而由于需要考虑复杂拓扑结构，MT-GPT 在干线大模型与路网大模型使用了分层联邦学习。需要注意的是，联邦学习构建的每个步骤都需要考虑数据隐私、模型稳定性以及合理的参数设置。联邦学习的成功融合需要合理的架构设计和数据协调机制，以及在不同数据节点上的稳定和高效的训练过程。

干线层的分层联邦学习首先将不同交通模式的数据分割成多个数据节点，每个节点代表一个交通模式的数据源。确保数据在各个节点之间是隔离的，以保护隐私，每一个单点可以看作一个服务器，每个服务器可以包含多个数据节点。随后联邦学习使用了多模式交通大模型的架构，包括多任务学习、Transformer 等组件，进行模型参数初始化。

最重要的一步是联邦学习的服务器架构确定，我们需要明确联邦学习服务器和各个数据节点的角色和通信方式。每个服务器负责协调该服务器中的数据节点的联合表征、模型更新和参数聚合。

在单点层的联邦学习中，每一个单点服务器就是每一个单点的本地设备，每一个单点服务器都使用本地数据进行训练，随后将各个服务器训练得到的模型参数上传到中心服务器。

中心服务器使用聚合策略将单点服务器的模型参数聚合起来，得到一个全局模型的更新。中心服务器上聚合后的模型进行更新，反馈给各个单点服务器。

每个单点服务器可以在本地对新的模型进行评估，然后根据模型的性能进行参数调整，再次进行模型训练和更新。随后重复进行模型训练、参数上传、聚合和评估的迭代过程，直到模型收敛。最终得到一个在多个交通模式上都有较好性能的多模式干线交通大模型。

路网层的分层联邦学习中，本地设备表示单点，也代表第一层级服务器，多个单点组成了干线，由干线层的边缘服务器表示。路网层的中央服务器整合全局交通路网。

点线面层次结构中的每个层次都有自己的参与者集合，分层联邦学习将全局模型向较低级别传递，从路网层分发到干线层的参与者，干线层将模型进一步分发至单点层。

每个层次的参与者使用他们的本地数据和接收到的全局模型进行本地训练，MT-GPT 进一步使用多任务学习、Transformer 等技术来参与本地训练。

在本地训练之后，每个级别的参与者进行本地聚合，将其各自级别内的模型更新或组合成一个聚合模型。

然后，这些聚合模型向上在层次结构中传递，将较低级别的模型发送到较高级别的聚合器或中央服务器。向上的传递通常遵循顺序或递归过程，其中来自每个级别的聚合模型被组合并发送到下一个更高级别，直至达到路网层聚合器。

在路网层聚合器中，来自较低级别的接收到的模型被聚合成一个全局模型，该模型代表整个基于交通的分层联邦学习系统的集体知识。更新后的全局模型然后被分发回层次结构，重复模型分发、本地训练、本地聚合、通信和向上聚合的过程。分层联邦学习可以执行多次迭代，以优化全局模型并最终实现收敛。

每个数据源（如不同交通模式的数据）都在本地进行模型训练，只共享模型更新而不共享原始数据。这种去中心化的方式可以避免将敏感个人出行数据集中在一个中心化服务器上，从而降低数据泄露的风险。联邦学习也在模型更新过程中使用加密、差分隐私等技术，保障模型参数和数据隐私。

个体数据不会被明文传输，仅传递模型参数更新，大大降低了隐私泄露的风险。联邦学习的加入可以增加政府与个人对于数据隐私保护的信心，从而帮助MT-GPT 的落地。

面向多模式交通的多任务学习

在许多情况下，交通任务之间存在相关性。例如，由于流量和速度之间的物理关系，路网流量预测与路网速度预测是相关联的。鉴于交通任务之间的这种相关性，MT-GPT 自然而然地引入了多任务学习框架，并使用 Transformer 充当共享的骨干网络，如图 2 所示。

MT-GPT 中多任务学习的核心在于点线面三个层级中根据交通任务特点各存在多个多任务学习框架，MT-GPT 通过每个层内的共享层来向上进行表征共享与传递，其表征共享与传递的基本逻辑可以被总结为“层内共享，层间表征向上传递”。

首先，点线面三个层级中不同任务之间的关系是不一样的，因此可以形成不同的多任务学习框架，也即每个层级的大模型可以按照多模式交通任务之间的关系搭设多个多任务学习框架。

在点线面三个层级的各自层级的共享层中，可以根据交通先验知识引入耦合的共享表征，使层级内彼此存在依赖关系的多任务学习框架共享局部特征提取，从而捕获不同任务之间的耦合关系。共享表征可以作为彼此依赖的多任务学习框架的输入，从而实现跨多任务学习框架的表征传递。

具体而言，在单点层上， Transformer 捕捉每个单点的时空交通的表征，同时为一系列相关单点交通任务提供输入表征，如流量预测、排队长度估计、路口延迟估计和路口冲突分析等单点任务之间的表征由分层 Transformer 提取并且共享。单点层内的共享层进一步向上传递至干线层，由 Transformer 进行利用和聚合。干线层的共享层捕获了干线内单点之间的时空依赖性，同时对干线层的一系列相关任务提供贡献，例如主干道流量分析和公交车道设置等。最后，在路网层，借助 Transformer 聚合干线层的共享层表征，捕获干线之间和单点之间的全局时空依赖性。最终的路网层的共享层可以更好的处理路网任务，例如路网流量预测和交通需求预测等等。

显然，层内和层间传递的共享层表征不仅有助于复杂交通表征在点线面各个层级内任务间传递，还允许关键交通信息的自下而上的传播。需要注意的是，在点线面各个层级的共享层之后，都将引入特定层，以此更好地针对不同的交通需求处理不同的交通任务。

640 (3).png

面向多模式交通的 Transformer

与其他大模型类似，构想中的 MT-GPT 选取了 Transformer 作为其多任务共享层的骨干网络。Transformer 拥有天然的计算并行性，其注意力机制使得模型在处理序列数据时可以并行计算；

其次，自注意力机制使得 Transformer 能够捕捉长距离的依赖关系，这对于处理复杂任务和大规模数据特别重要。模型可以轻松地处理长序列，而不会受到传统循环神经网络的梯度消失和梯度爆炸问题的困扰。

但是，将 Transformer 迁移至多模式交通大模型，仍有几个难点需要攻克。

第一个难点便是位置编码的重构，由于多模式交通复杂的拓扑结构，传统的针对文本或者图像的位置编码（Positional Encoding）技术无法与多模式交通场景进行适配，所以必须寻找适配复杂多模式交通的位置编码。

第二个难点来源于多模式交通数据多源异质的特性，由于多模式交通数据包含多种类型的信息（图像、文本、地理信息等），并且涉及交通拓扑结构、时空特性等复杂因素，传统的注意力机制可能无法直接适用于多模态交通数据，需要根据不同模态的数据特点和交通任务需求进行灵活的改进。

位置编码

Transformer 只能理解点线面之间的粗略表征关系。受到多维空间位置编码技术的启发以及为了使深度神经网络充分理解复杂交通网络的拓扑结构，UT-GPT 配备了一种面向多模式交通的改进分层位置编码技术。

对于多模式交通间的拓扑关系，MT-GPT 考虑将不同交通模式的位置信息整合到位置编码中。

例如，可以使用多模式交通网络中不同节点的地理坐标信息、道路拓扑结构、节点类型等来构建位置编码，以确保在多模式交通中能够准确表示位置。为了更准确的刻画复杂交通网络的拓扑关系，可以将交通网络建模成图结构，节点代表位置，边代表交通关系。可以通过图神经网络等方法来学习节点之间的关系，进而生成适应多模式交通的位置编码。

同样，针对点线面三层大模型，需要使用分层的位置编码，将不同层级的位置信息分开建模，从而适应不同尺度和层次的拓扑关系。

具体到分层的位置编码中，对于单点层，MT-GPT 采用了与原始 Transformer 相似的简单位置编码技巧，即根据相对位置，为每个单点构建一个独特的位置编码，以描述其空间依赖性。

由于干线由多个单点组成，分层位置编码技术计算了干线内所有单点的位置编码，并将单点层的位置嵌入进行（加权）平均，形成干线层的位置编码。

干线与路网之间的关系适用与相同的逻辑，在路网层，面向交通的分层位置编码着重于描绘干线之间的空间拓扑关系和全局路网编码。每一个路网的位置编码是一个独特的嵌入，代表了路网中的空间连通性。

除了各个层级的位置编码，MT-GPT 还可以引入跨层级位置编码的概念，以捕捉点线面层间的分层关系。

具体来说，单点层的位置编码与相应的干线层的位置编码相结合，为每个单点创建一个纳入干线位置信息的综合空间编码。同样，对于干线与路网之间的分层关系，也采用相同的逻辑，为每条干线创建一个纳入路网位置信息的综合空间编码。通过这种跨层级位置编码思想，面向交通的改进位置编码技术不仅捕捉了点线面中每个层级的空间特征，还捕捉了层级间的交通网络拓扑关系。

这种综合性的位置编码增强了分层 Transformer 从时空交通数据中提取空间依赖性的能力，从而帮助MT-GPT 更有效地建模和训练来解决多模式交通问题。

注意力机制

多模式交通数据涉及不同类型的跨模态信息，如交通流、图像、文本、地理信息等。Transformer 中面向多模式交通改进的注意力机制需要针对不同模态的特点、多时空尺度、复杂拓扑关系进行设计，将不同模态之间的关系进行有效融合。

之前的研究使用注意力模块来做视觉与语音的多模态融合，也有文章设计了多交叉模态注意力模块，然后用自注意力机制来编码多模态序列做分类。

针对地理信息的注意力机制，也有研究设计局部（local）与全局（global）注意力机制，来分别获取本地传感器的数据与空间信息与外部传感器的数据。

但由于多模式交通数据的多源性与异质性，在经过跨模态表征学习之后，我们需要设计一种跨模态的包含复杂交通拓扑信息的注意力机制，来让 MT-GPT 更好的理解多模态数据中的有效信息。

首先，针对跨模态的多模式交通数据，跨模态的注意力模块可以借鉴早期融合（EarlyFusion）的思想，将多模态表征堆叠，让注意力在每个模态表征的不同时空区域之间自由流动，也使模型能够在不同模态之间动态地分配注意力，以捕获多模态数据的交互信息。

在交通数据中，空间和时间信息非常重要，它们是生成最终交通任务方案决定性的因素之一。

因此，对于复杂多模式交通中的点线面结构，分层的注意力机制可以结合空间和时间信息，使模型能够更好地关注不同时空位置的交通特征变化。

分层的注意力机制分为点线面三层，每层中都包含局部的注意力模块、全局的注意力模块与时间注意力模块。局部注意力可以使模型更关注局部特征，捕获每个节点周围的交通情况，这有助于识别交通拥堵、停车后溢等局部现象。

全局注意力机制使模型能够关注整个交通网络的结构和动态，可以帮助模型捕获交通流量、趋势等全局模式。时间注意力机制有助于帮助模型捕获多模式交通系统中短期和长期的特征依赖。

单点层的注意力模块仅关注特定路口与路段，处理路口与路段的数据表征，并结合考虑交通复杂拓扑关系的位置编码来理解每个路口路段在其干线内的重要性。

干线层与路网层将使用分层的注意力机制，并对于每个干线路网层，引入局部-全局注意力机制。

局部注意力部分关注本地单点（干线）内的交通信息，全局注意力部分关注整个干线（网络）的结构。这使模型能够在不同抽象层次上同时关注局部细节和全局关系。干线层基于分层注意力机制为不同单点分配不同的权重，关注与任务相关的重要点并降低与问题不相关的点的权重。

为了获得干线层的表征，Transformer 将单点层的输出与基于交通拓扑关系的位置编码聚合，分层考虑形成特定干线的点序列，并根据它们与干线层问题的相关性分配重要性权重。

根据干线的拓扑关系，干线层的输出被聚合，模型最终得到最高级别的路网层的表征，使得Transformer 理解点线之间的全局依赖关系和交互作用。

分层注意力机制有助于模型理解全局交通表征，允许模型关注重要的单点与干线，提升模型训练效率，从而有助于 MT-GPT更准确地对耦合的复杂交通系统进行建模。

03、MT-GPT 分层递进式落地路径

一个新的模型或产品的落地无疑是困难曲折的，不同领域大模型的落地方式也是不一样的。

比如，ChatGPT 从 GPT-1 到 GPT-3，首先完成初始版本，再通过每个版本的更新，不断提升参数量，不断引入诸如零样本学习、API 集成等等新技术，最终实现 ChatGPT 的成功商业化；盘古矿山大模型采用了“众筹模式”，将大模型切割为小场景的“小”模型，并呼吁高校企业进行算法众筹、场景众筹，分担在算法研发上的压力；一些垂直领域大模型会采用“一步到位模式”，以任务为导向从数据获取到训练、测试都一体化完成。

但多模式交通大模型的落地与上面三种方式不同。

首先，复杂的多源异质交通数据不同于文本数据，MT-GPT 无法通过简单的技术迭代就能够实现初始落地版本；

其次，MT-GPT 不是小模型的“汇总”，“众筹模式”无法真正实现 MT-GPT；

最后，由于数据获取困难，多部门间协调数据将耗费大量的精力与时间，阻碍了多模式交通大模型的“一步到位”落地。

640 (2).png

为了探寻 MT-GPT 的落地方式，我们首先梳理了多模式交通大模型所涉及的九个行政部门，分别为发改委、自规局、城乡建设局、交投与城投部门、交通局、交管局、大数据局、城管局、应急管理局，表 1 给出了行政上九个部门可提供的数据类型与 MT-GPT 可提供的服务。

可以看到不同部门有不同的职能，收集到的数据也是异质的，存在行政壁垒阻碍部门间的合作，想要将数据从九个部门中全部收集完成是一个非常困难的任务。

但鉴于 MT-GPT天然的点线面分层结构与多模式交通任务的分层特性，我们构思了一种“分层递进式”落地路线，如图 3 所示，分层式、递进式、并行式的实现单点大模型、干线大模型与路网大模型，并最终平稳实现多模式交通大模型 MT-GPT 的落地。

640 (1).png

单点大模型是 MT-GPT 中最基础的大模型框架，由于不涉及复杂的交通网络拓扑结构，并且单点交通任务的数据具有来源单一、同质的特点，所以单点大模型需要的是区域性的多模式数据，而不是全局的多模式数据。而这类区域性数据易于收集，也易于商业化，使得单点大模型易于落地。

单点大模型主要探索大模型底层技术，具体需要突破的核心技术包括多模式交通多模态联合表征学习、传统交通模型辅助交通大模型的弱监督学习技术、面向复杂交通生成方案的多模态交互技术。

面向多模式交通任务，单点大模型的落地可以借鉴“众筹模式”进行搭建，首先收集每个单点多模式交通任务的基于深度神经网络实现的头部（Head）网络，再根据每个交通任务的特点，进行多任务学习框架的划分。

例如所有交通流任务可以划分在一个多任务学习框架中，所有涉及地铁站的任务可以划分在另一个多任务学习框架中。

单点大模型的 Transformer 架构也与其他大模型存在差异，由于不涉及复杂的位置编码，单点大模型的 Transformer 架构不需要复杂的注意力机制，容易实现。

此外，单点大模型还负责为干线大模型与路网大模型提供重要的输入特征，例如单点大模型的交通流异常检测可以作为路网层的巡检调度任务的输入，单点大模型的共享单车数量预测可以为路网层的共享单车停车点的设置提供重要的数据支撑。

单点层的输出可以作为变量传递至上层大模型，因此单点大模型的构建是干线与路网大模型的必经之路。

在实现单点大模型的落地之后，干线大模型扩展模型的范围从路口路段至干线道路。与单点数据不同，干线数据具有多模态的特点，包括来自雷达、摄像头、车辆 GPS 等多种传感器的交通流量、速度、密度等数据，需要多个政府部门的协同合作。

干线层主要探索面向多模式交通分层的先进机器学习架构，核心技术包括基于交通点线面层次关系的分层多任务学习框架、针对交通时空特征改进的 Transformer 架构、面向交通边缘智能的分层联邦学习架构。

首先干线大模型整合多个路口与路段的数据，形成干线层的表征。同时，干线大模型也从单点大模型获取基础交通任务的输出作为重要输入特征。

在明确了干线层的多模式交通任务之后，干线层使用了双层的多任务学习框架，在保证了干线层任务的精度的同时，捕捉利用干线层单点的耦合关系提升了单点层任务的精度。

干线层加入了基于干线拓扑关系改进的位置编码，并使用了改进注意力机制的 Transformer。

干线大模型作为从单点向路网过渡的大模型，可以通过额外获取适当的数据来帮助构建更加精准的干线层多模式交通任务，支撑MT-GPT 的最终落地。

路网大模型将焦点放在全局的路网上。由于路网数据的稀疏性，需要获取多源异质的全局多模式交通数据进行训练，因此需要所有政府部门的协同合作，落地难度较大，成为MT-GPT 的最后一环。

路网层主要探索了多模式大模型的拓扑特征、感知迁移、决策输出等方面，核心技术包括基于交通点线面复杂拓扑结构的位置编码技术、稀疏感知场景下基于迁移学习的多源异质数据补全与迁移、面向复杂交通决策任务的集成强化学习框架。

与干线大模型类似，路网大模型也使用了分层的多任务学习与 Transformer 结构，在确定了全局路网的位置编码后，使用了改进的注意力机制来获取局部与全局的多模式交通表征，通过帮助模型更好的理解点线间的耦合关系来综合解决单点、干线与路网层的多模式交通任务，生成复杂多模式交通系统中多层次、全方位决策方案。

作为真正意义上的多模式交通大模型，路网大模型的落地无疑是一个巨大的挑战，需要群策群力。

但是，通过单点与干线大模型的成功落地，政府部门、出行人员与用户都将信任路网大模型的优秀的隐私保护能力与卓越的方案生成能力，最终携手完成 MT-GPT 的真正落地。

04、交通大模型理论进展与挑战

由于具备自动化评估和生成解决方案能力，MT-GPT 可以处理多模式交通系统中多种任务，我们可以将 MT-GPT 的应用场景分为交通规划、网络设计、交通基础设施建设以及交通管理。

同样，MT-GPT 可以根据交通天然的分层特征，将交通任务分为单点任务、干线任务与路网任务，不同的层级大模型可以处理对应的多模式交通任务。

下面我们列举了两个层级的 MT-GPT 应用实例，即单点大模型的智能道路巡检调度与路网大模型的道路交通设计精细化调整。

智能道路巡检调度

不管是传统的人工巡检方法还是目前主流的利用智能巡检车的视觉与雷达自动巡检，都存在盲目检测的情况，无法借助多源交通流数据来帮助让巡检车的巡检更加智能化，更加“有目的性”。

道路病害会使交通流出现异常，比如抛洒物导致车辆刹车、栏杆倾倒导致的车辆异常换道等等。基于以上的考虑，MT-GPT 的单点大模型可以通过识别交通流异常来优化智能巡检调度。

MT-GPT 首先通过联网摄像头、雷达等路端设备收集近期的多模态交通流数据，包括交通流量、速度、摄像头图像、雷达数据等。

随后对数据进行预处理，清除噪声、填补缺失值等，确保数据的质量和一致性。

作为异常检测任务，交通流的异常检测可以看作分类任务，MT-GPT 可以修改单点层多任务学习（检测类）中特定层的头部（head）为异常交通流分类器，建立起异常检测模型。

使用训练好的异常检测模型对近期交通流数据进行检测，识别出异常的交通流情况，如点位异常刹车、换道等事件，最后将检测到的异常交通流标记为异常点位，作为潜在的巡检调度候选项。

MT-GPT 最后可以将检测到的异常点输入到路网大模型的多任务学习架构（决策类），考虑交通流的严重程度、交通网络拓扑、巡检车辆的位置等因素，使用诸如强化学习的决策算法制定最佳的巡检行进路线和调度时间。

对于预防性养护，可以建立巡检调度反馈机制，MT-GPT 将调度结果作为另一个多任务学习（预测类）中特定任务的输入，考虑交通流的变化趋势、道路设施的状况、养护资源的分配等因素，预测未来的道路养护状况，制定最佳的预防性养护计划。

通过这个流程，单点大模型可以实现智能道路巡检调度，从而有效地识别交通流异常与潜在巡检点，减低道路巡检的耗时与成本，提高道路巡检的效率和精确度。

道路交通设计的精细化调整

在道路交通设计领域，传统道路交通设计方案由人工设计，往往只考虑到当前或邻近路口与路段的交通特征，只依赖于有限的历史数据和人工调查，缺乏实时和全面的交通流信息，导致设计不够准确和适应性弱。

同时，在多模式交通环境下，人工无法准确的捕捉多模式交通如公共交通、自行车和步行之间的耦合关系，导致交通设计方案不够综合和多样化。

但是MT-GPT 中路网大模型可以综合考虑干线层与路网层的道路交通设计所需要的多模式特征及其耦合性，生成更为精细的交通设计方案，有助于辅助人工优化道路布局，提升效率降低成本。

MT-GPT 可以获取当前道路的多模式交通流信息，随后路网大模型对道路交通流进行预测和模拟，基于历史数据得到未来的交通流量（人流量）、拥堵情况的趋势等信息。

这有助于更精确地规划道路容量和道路连通性，识别交通潜在拥堵、事故易发等区域。

这些预测与分类任务的表征都可以成为道路交通设计方案这一决策任务的状态（State），随后，以交通设计知识库为基础，利用大模型的基于上下文学习（In Context Learning）的能力，构造基于安全、高效、环保、经济的道路交通设计损失函数，根据需求给不同模式的交通出行调整注意力，考虑到点线面之间的耦合关系仿真迭代生成精细化道路交通设计方案，比如地铁站出口的选址、红绿灯配时、交叉口渠化设计等等。

路网大模型生成的道路交通设计方案可以分析交通事故拥堵高发地点、分析多模式交通中的碳排放量、分析不同设计方案的成本，精细化调整道路交通设计的方案和交通安全设施的布局，提高道路交通设计的安全性、高效性、环保性与经济性。

通过这个流程，路网大模型可以辅助人工进行道路交通设计方案的生成，实现更智能、更综合和更可持续的精细化道路交通设计，满足日益复杂的多模式交通需求和可持续发展的要求。

05、结论

目前，越来越多的领域都在发展和应用大模型，并且这种趋势是不可逆转的。

ChatGPT、Lawformer、DALL·E、盘古等大模型的成功已经清楚地证明了大模型在处理复杂决策任务方面的强大能力。

庞大的数据、超级算力和强大的算法是实现这些创新的前提条件，随着生产力的发展，这些硬件软件资源将越来越丰富，为大模型的真正实现提供了客观上的帮助。

在这些尝试的推动下，本文深入研究了复杂交通系统的时空特征与拓扑结构，构想了一个名为 MT-GPT 的新的大模型概念框架，MT-GPT 将大数据分析、先进的机器学习技术和可信的交通领域知识巧妙深入地结合，可以用于生成复杂多模式交通系统中多层次、全方位决策方案。

MT-GPT 的技术路线与自然语言和视觉大模型有着显著的差异，主要体现在对于机器学习模型的改进上。

本文所构想的 MT-GPT 数据范式、点线面分层、面向多模式交通的Transformer、联邦学习和多任务学习等都针对复杂多模式交通系统的时空特征进行了进一步的适配与改进。

但需要注意的是，前沿机器学习模型的引入并不意味着我们就要全盘否定传统交通模型，MT-GPT 可以通过多任务学习与集成学习等方式将传统交通模型融入大模型，也可以借助弱监督学习的思想将传统交通模型纳入大模型的训练中，来让传统交通模型指导MT-GPT 的方案生成。

而由于具备自动评估和生成解决方案的能力，MT-GPT 有望为交通规划、网络设计、交通基础设施建设和交通管理等一系列交通任务提供智能化的解决工具。

本文还探讨了 MT-GPT 的可能落地路径，我们呼吁通过循序渐进式的分层落地，从简单到复杂，来获取政府部门与出行者的信任，最终实现多模式交通大模型的真正落地。

尽管多模式交通大模型概念性框架要真正转化为现实还需要跨越不小的障碍，我们坚信随着多模式交通系统在智慧城市的大背景下日益数字化、信息化和智能化，MT-GPT 的潜能必将得到充分释放，为实现更高效、更智能的交通出行贡献巨大力量。

作者简介：周臻、顾子渊、刘攀、刘志远*，东南大学交通学院。

未经许可，任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题，烦请提供版权疑问、身份证明、版权证明等材料，与我们联系，我们将及时沟通与处理。

万字长文详解：东南大学「多模式交通大模型MT-GPT」

意见反馈