TrafficGPT:交通大模型的应用、测试与未来
推动大模型在交通领域的发展需要行业多方共同探索
编者按:3月19日,在由赛文交通网主办的“交通大模型技术应用场景实践”论坛上,北京航空航天大学交通科学与工程学院智能交通技术与系统教育部重点实验室张钊作了《TrafficGPT:交通大模型的应用、测试与未来》的报告。
该报告阐述了大语言模型的发展历程及交通大模型的应用与未来展望。由于通用大模型如在交通专业领域存在知识局限性,故TransGPT和TrafficGPT应运而生。TrafficGPT可在城市路网交通缓堵、安全防控、交通建模等场景落地应用,未来,交通大模型发展需面对细分领域知识储备不足等问题,强调数据积累与算力整合的重要性,提倡开放合作、共享资源,共同推进智慧交通建设。
01、大语言模型的发展历程
大模型也叫大语言模型,本质上是一种语言预测模型。而语言则是人类表达和交流的突出能力,其在儿童早期发展并在一生中不断演变。
从上个世纪五十年代以来,人们一直希望机器能够像人一样具有理解能力和沟通能力,然而,除非配备强大的人工智能(AI)算法,否则机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一直是一个长期的研究挑战。
语言模型的发展经历了统计语言模型、神经语言模型、预训练语言模型到大规模语言模型的发展阶段。近年来,随着规模法则的发现,人们发现更大的模型参数量、更大的训练数据以及更大的算力会带来大规模语言模型能力的飞跃,使大语言模型具备类人的理解能力和语言生成能力。
如今,大语言模型正在对人工智能社区产生重大影响,ChatGPT和GPT-4的出现引发了对人工智能通用智能(AGI)可能性重新思考。2022年微软研究院对GPT-4的研究结论认为,GPT-4可能被视为一个早期版本的AGI系统。大语言模型的快速进步正在彻底改变人工智能的研究领域。
然而对于各专业研究领域,我们发现大语言模型并不具有很强的智能能力,其在某种程度上可以充当通用语言任务求解器,因此,各专业领域对大语言模型的研究范式已经转变为如何应用大语言模型。
ChatGPT在通用领域展现出的卓越的常识、推理和规划能力,引起了交通领域研究人员对大模型技术的关注。但在早期实践中我们发现,以ChatGPT为代表的通用大模型对交通领域的知识储备不足,因此,TransGPT・致远基于约 34.6 万条交通领域文本数据(用于领域内预训练)和 5.8 万条交通领域对话数据(用于微调),开发了首个融合交通行业知识的问答大模型。
在进一步的研究中我们发现,传统知识问答类大模型不能满足交通行业的实际应用问题,难以落脚到真实交通场景,同时,由于交通问题的大规模、复杂性、非线性问题,大语言模型难以与交通系统开展交互。
为此,北航发布了首个大模型与交通行业模型结合的产品TrafficGPT,通过强大的自然语言理解能力和复杂的交通系统开展交互,通过一系列可拓展的工具赋能大语言模型完成复杂交通任务。从而进一步引出了大量的交通领域大模型。
回过头看,TransGPT和TrafficGPT这两个早期项目成为了链接通用大模型和交通大模型的桥梁,开启了交通大模型研究的井喷时代。
02、交通大模型的应用
下图所示是TrafficGPT的用户界面,与ChatGPT类似,有对话系统和对话历史,我们也可获得问题的答案,其输入和输出采用的是多模态形式。
我们采用了如下的架构将大语言模型与交通基础模型进行结合,通过多模态数据的输入、数据融合、在大语言模型对任务进行分解,最后交通行业模型进行数据和模型功能的交互,进而获得我们希望得到的答案。
在这项研究中,我们的工作涵盖了框架开发、行业模型开发、大模型优化、安全性提升等四个方面。重点在于解决大模型技术落地面临的长尾问题,其中非常有价值的一个部分是
依赖以概率预测模型为基础的生成式人工智能,我们如何在以概率方式生成的任务和功能的前提下,确保交通系统决策的可靠性、安全性和稳定性。
尽管没有相关的研究成果可以参考,但我们还是在4个月的超短时间内产出了大量的技术成果,包括框架任务开发,使得传统基座大模型在解决交通领域问题的准确性提升20%以上,形成行业模型开发规范并支持无缝拓展,使百亿参数大模型性能优于千亿参数GPT3.5,实现了辅助决策100%的真实数据支撑,相关论文在开源社区进行了发布,相关专利也正在受理中。
下面来看一下TrafficGPT是如何来应用和实现的。假设某用户向TrafficGPT提了一个问题,如我想预测未来1个小时的路网流量,并形成一个可以操作的方案,用于缓解道路拥堵。在得到这个问题后,TrafficGPT会依靠其逻辑思维能力和预训练结果对任务进行分解,在分解后会到交通系统模型中和相应的模型以及数据进行交互,最后得到初步的答案,这个答案会通过循环的方式反馈给TrafficGPT。
TrafficGPT会对给出的答案进行思考和检查。如果答案满足要求,它会以几种结构化的方式输出答案。如果答案不能满足要求,它会到交通系统模型中再度进行交互和数据处理,最后通过一系列图表或数字的方式得到真正所需的答案,再进行反馈和思考。
如果它认为答案是正确的,就会输出对应结果。如会根据近一个月的历史数据和数字孪生仿真结果,预测晚高峰可能会晚半个小时或40分钟到来。
上图所示是一个简化版的示例,我们要对5个重点区域进行相应部署。如对一区域进行主干道的信号灯延长,对二区域进行交通组织优化等,对三区域进行非机动车道的引导等等。
再看以下示例。我们所用到的核心模块是交通状态估计,在对任务进行分解后,TrafficGPT会基于现有数据来进行计算。比如其中内置的数据是车载GPS轨迹数据,它会根据轨迹数据先来进行排队长度估算,再来进行交通到达率的估算。最后再基于一系列机器学习的模型来进行交通状态的预测。最后生成一系列的表格返回给用户,以多模态的方式返回给用户。
TrafficGPT通过多模态交通数据、交通仿真环境接口,为大语言模型提供交通感知能力;大语言模型与辅助决策工具集相结合,通过交通信号调整、快速决策支持等服务,实现交通系统的动态优化;通过大语言模型的语义理解、泛化推理等能力,对历史交通数据和实时交通数据进行分析,精准定位、判断某路段和某区域的交通状况,这样的优化结构最终可形成感知-评价-优化的闭环。
在交通管控或交通规划、交通仿真的过程中,无需具备非常专业的知识,只需了解求解的问题并将问题交由TrafficGPT,TrafficGPT会自动对问题进行分解,寻找数据、寻找模型、生成答案,最终可实现真正零代码输入交通解决方案。
下面来看一下具体的应用场景,第一个主要应用场景是城市路网交通环堵。基于大语言模型搭建专业的交通拥堵识别与缓解框架,基于数字化平台感知路网运行状态、智能识别拥堵点位,可以交通仿真系统赋能大语言模型进行数字孪生管控方案验证,最后将相应的决策方案交由交警把关。
第二个场景是交通系统自主监控 & 突发事件交通处置,这需要系统具备更大的算力。在常规的交通监控中,常常需要人力来进行监控或辅助,但有了大语言模型之后,我们可以构建7x24小时不间断运行的智能体对交通系统运行态势进行监控,当识别出异常情况出现时,及时上报。
同时,大模型自动开启对异常区域的运行状态分析,结合智慧交通管控经验知识图谱,提出辅助决策方案,并在仿真系统中对各方案进行快速推演,在短时间内形成可靠、有仿真推演结果支撑的决策建议,决策落地支持人工把关。
第三个场景是安全防控。基于大语言模型搭建交通事故智能分析师,可提供数据读取接口,将交通事故报告进行向量化存储,利用交通大模型生成本地交通事故宏观分析报告,包括对事故的规律总结、原因分析、预防手段措施建议。
第四个场景是智能规程导引系统,利用先进的RAG检索增强生成技术。通过将知识库文档、规章制度、操作手册等规程数据进行向量特征提取,我们构建了一套智能服务系统。在企业内部,员工可以通过这个系统迅速获取规章制度和操作手册中的信息,提高工作效率并确保突发场景下的规范操作。
第五个场景是交通建模,这也是TrafficGPT2.0的内容。我们创建了一款大模型驱动的智能化交通仿真建模助手,可实现自然语言交互下的全自动化路网建模,也就是通过文字的方式进行建模,得到交通规划仿真建模的标准路网文件,可为交通规划和交通仿真提供底层数字基座,重塑交通仿真建模工作形态。
在此基础上,我们正在进行TrafficGPT3.0的相关工作。通过搭建自然语言交互的城市微观交通仿真平台,赋能大语言模型实现基于多模态数据的智能化的城市微观交通仿真环境搭建、交通状态推演、缓堵方案生成、管控措施验证与落地,大大提高交通研究和工程开发的效果。
此外,我们更加专注于多模态大模型在交通领域的应用。如今大模型越来越关注多模态的输入,如依靠图片的输入和视频的输入直接对交通拥堵进行识别。在一些较为初级的情况下,可无需调用上文提到的交通预测、交通运行估计模块,直接通过图像的方式进行拥堵识别,或者进行精确导航辅助以及作为自动驾驶的场景交互决策。这方面现在有非常多的研究内容。
03、交通大模型的测试
交通大模型的测试是一块全新的内容。首先,为什么要进行评测?通用大模型测试的目的是为了更好理解大模型的长处和短处,在了解短处的基础上更好为人与大模型的协同交互提供指导和帮助,更好统筹和规划大模型未来的发展和演变,防范可能的风险。
其次,评测什么内容?知识和能力评测包括常识问答能力、知识补全能力、推理能力、工具学习能力等的评测;对齐评测包括道德和伦理评测、偏见性评测、毒性评测、诚实性评测等。对齐评测非常重要,这涉及到在大模型开发训练的过程中语料库的重要性,我们希望语料库训练出来得到的结果是无偏见的。
安全评测包括鲁棒性评测、风险评测等;行业适用评测是针对特定领域或行业(如金融、医疗、交通、法律等)的任务进行评测,以了解大模型在专业领域的应用能力;综合评测组织通过将多个评测维度或子维度组合起来,进行综合性评测,如自然语言理解和生成任务的评测基准,以及学科能力评测基准
最后,如何评测?通用大模型的评测主要使用自动评估 + 人工评估的方式。每个厂商在开发并推出基座大模型时都会进行相关的评测。在此基础之上,各行各业更多想是做开发专业的大模型,如交通领域的专业大模型等。
但交通领域的专业大模型到底好不好,也需要一个评测方法。那么通用测试能否满足对“交通大模型”的测试需求呢?我们发现是不太可行的,通过在专业领域进行评测,我们进行了两方面分类。
一是生成内容的准确性测试,如基于多模态数据对路口拥堵点排队长度进行测评,这需要法律法规等固有知识的准确性和交通领域训练效果的准确性表达;交通决策等启发式内容的可靠性涉及交通领域大模型对于交通领域问题的泛化理解和泛化输出能力,这两部分需要通过优质数据和专家打分的方法来进行。
二是智能体思考-行动能力测试。交通大模型之所以有这么广泛的应用场景,并非是简单的能够和我们进行对话,而在于其是一个数字人或智能体。对于这样一个智能体,我们其实希望他具备一定的思考和决策能力。因此,思考决策的正确与否是我们需要评测的内容,如要评测其逻辑分析能力、任务规划能力、工具调用能力等。
下面来看一下TrafficGPT进行评测的结果。如下图所示有三张表格,第一个表格是对TrafficGPT和GPT-3.5、GPT-4进行的评测。GPT4中有一个模块叫做Data Analyst,也就是数据分析模块,通过数据分析评测可以看到在准确性和响应性两方面,TrafficGPT都实现了很高的准确性和极快的响应性。因为其内置了很多相应的模块,所以只需要准确地调用再执行就可以了。而GPT-3.5的准确性比较低,但它的响应速度很快。GPT4的Data Analyst准确性比3.5高一些,是中等的准确性,但其响应速度很慢,这是由于GPT4具有很多插件,其中内置了逻辑分析功能。
第二个表格是研究适配不同基座模型的任务完成能力。这些基座基本囊括了国内外二十余种基座模型,我们对此都进行了评测,通过问答、明确指令、模糊指令、开放性问题等得到了各个机构大模型在交通领域问题上的准确性,并通过对这些大模型进行预训练和微调,提升了他们的效果。比如相较于在宽松框架下模型选择73.5%的准确性,严格的框架下模块的选择准确性提升至98%等。
对于交通大模型的未来,我们也有一定的构想。一是要构建交通行业大模型测试数据集,通力合作构建标准化的领域测试基准;采用动态评测方法,持续更新测试样本,引入开放式问题。
二是更全面的智能体评测,增加智能体所处环境的多样性,全面测试其行为能力和自主性,进一步评估大模型与交通行业模型融合的效果。
三是可靠性和质量评测,开发更深入的量化方法,评估大模型在智慧交通复杂场景下的决策安全性,测试其对交通领域知识的深入理解程度。
四是以优化大模型为目标,提供模型能力分析和优化建议,而不仅仅是评分,推动交通大模型在行业的发展。
04、交通大模型的未来
一是更细分的知识储备。未来,随着交通大模型技术的落地应用,交通领域特殊场景下的特殊需求往往会揭露大模型技术在细分领域的知识储备不足的问题。
例如,在交通仿真方面需要有更丰富的仿真操作经验,在交通管控领域的应用需要对管控原理有更深刻的理解,在自动驾驶领域则需要更全面安全驾驶行为逻辑等,这一切都离不开数据和算力。因此在知识储备提升方面,数据才是王道。交通行业需要齐心协力,收集更多的优质数据,用于训练大模型,从而提升大模型在交通各细分领域的表现。
二是更精准的任务规划。我们这里讨论以Agent(智能体)为基础的交通大模型应用。现有的多数智能体在落地时面临问题主要是由于在执行复杂任务时,无法产出准确的任务规划,导致执行阶段容易中断。而交通大模型的应用场景,又对时效性、稳定性的要求较高。
因此,未来的交通大模型智能体,需要更精准的任务规划,方向可能是在Cot以及Plan-and-Execute的基础上,研发更可靠的prompt范式;或者尝试通过微调、RAG的形式,提升任务规划的精准性,这也是需要未来行业同仁共同思考并推动的事情。
三是更强大的平台生态。从更高的视角来看,交通大模型领域还需要更强大的平台生态。就像OpenAI开放了GPTs让全球开发者参与到ChapGpt的平台建设中,交通领域同样需要对多样的细分领域工具进行整合,在统一开发标准、统一测试方法的基础上,汇集交通领域研究者的成熟、前沿成果,以一个类似TrafficGPT这样强大的大模型智能体为平台中心,构建超级交通大模型TrafficGPTs,形成一个开放、共享、可持续的交通大模型应用平台。
四是更前沿的价值探索。大模型技术发展迅速,以Open AI为代表的行业巨头近期再次发布了迈向AGI时代的最新一步。新质生产力也成为了“两会”热词。但是,交通领域大模型的研发者在埋头跟进最新技术的同时,也要时刻保持对大模型这类内容生成技术在交通领域的价值探索。
就像Open AI最新发布的sora为我们带来了全新的视频内容生成时代,在交通领域,我们是否也可以尝试做出Text to Simulation一类的产品?并且,这类产品能为我们带来什么样的价值?要推动大模型在交通领域的发展,需要行业多方共同探索。虽然短期内不一定能够产生很大的经济价值,但我们相信,这对于交通行业在国民经济中的发展将起到非常大的作用。
未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。