圆桌对话:交通大模型与传统AI的区别到底在哪
技术、应用及变现
大模型时代大幕拉起,科技大厂、科研院校们纷纷狂奔突袭,技术创新大潮一浪高过一浪,但在经历一众热捧之后,有关大模型的思考正在回归该有的冷静。
交通大模型该如何定义?交通大模型与传统AI的区别在哪?未来交通大模型的变现模式是怎样的?带着这些问题,赛文交通网组织了“交通大模型企业的生存之道”圆桌讨论环节,邀请到了北京卓视智通科技有限责任公司CEO吴柯维、擎翌(上海)智能科技有限公司CEO陆肖元、佳都科技集团股份有限公司智能城市交通业务群产品研发中心总经理刘弘胤围绕上述话题展开讨论。
赛文交通网:应该如何定义交通大模型,如何向用户说明什么叫大模型?
吴柯维:目前市场上部分企业并非真正研发了大模型,而是套用大模型的框架将原有平台重新包装。从技术角度来看,还是要追求本质,提到大模型,必然要用到大模型的技术架构,基于Transformer框架和海量的类GPT架构进行训出来的才是大模型。
刘弘胤:技术维度是有相对标准的答案。而从交通参与者和用户的角度来看,我理解可以从以下两个角度来思考,一是大模型给我们带来了什么?这样的技术应用到现有的场景能带来哪些改变?二是大模型能够解决哪些传统AI不能够解决的问题?
大模型本身而言只是一项技术,但运用到城市交通的具体应用场景当中,其所具有的最简单的多轮问答、语义理解等能力能够使用户和市民在使用过程中产生不一样的效果。
以佳都科技联合广州交警围绕车驾管服务共创的“小佳”数字人智能客服为例。智能客服不是什么新鲜的应用,但加入大模型技术后则会变得更加智能,即使问一些非常复杂的问题,它也能够很精准地捕捉到问题的关键并给出相应的回答。比如我向智能客服提问比亚迪是否可以上蓝牌,该问题的背后涉及比亚迪属于新能源车、限号城市是否有蓝牌指标等一系列问题,这就需要大模型能够理解问题并通过问答的方式给出标准的答案。
这是大模型的一个很小的应用,但通过这样多方面的应用场景能够使用户切实感受到大模型所带来的变化。
陆肖元:从技术方面来看,大模型相较原先的小模型参数量要大很多。从应用方面来看,可以分为两部分来理解,一是我们原先讲的人工智能,无论是视频还是雷达,都是以识别作为主要功能。但多模态大模型的主要功能由原来的识别变为了理解,能够对场景进行理解。举一个最典型的例子,原先道路上的抛洒物识别非常困难,依靠小模型无法解决这一问题,而大模型能够基于对场景的理解对抛洒物进行识别,这是我认为感知在多模态方面的最大不同。
二是大模型技术在生成式的应用方面大有可为,原先模型给出的答案都是选择题,可供用户进行选择,而目前的大模型能够实现生成式决策,这种决策能够为用户带来非常大的便利。
三是在基础设施的角度来看,原先大量的智能设备,尤其是路侧的嵌入式设备都是小算力的推理设备。在有了大模型后,必须要使用大算力的数据中心,通过云和边的结合开展相关工作,这会对基础设施架构带来很多变化。
赛文交通网:大模型可以解决哪些传统AI不能解决的工作?
吴柯维:一是对话客服,可以假设这样一个场景, 我们需要查找一个闯红灯的违法代码等文件,原先需要从一堆文件当中不断翻阅才能找到所需材料,而现在将文件导入到大模型,通过知识问答的方式即可快速简易地获取所需内容。大模型能够快速地提供解答和叙述参考,相当于建立了一个内部的强大的搜索引擎。
二是大模型在感知层面有了很大的改进。以往交通行业的事故识别做的并不好,但大模型能够很好地理解道路上发生的事故并进行识别,感知能力有了较大的提升。
大模型的核心是一套生成技术,交通行业有很多需要作图,需要生成报告的工作,目前大模型在专业的生成方面还有一定的距离。大模型目前能够生成的内容可以理解为N个图像的平均值,如果让其生成一个渠化的标志标线效果并不特别好。生成式应用是非常有价值的,期待未来在这方面有更多的突破。
赛文交通网:做好交通大模型取决于哪些因素?
吴柯维:当下做大模型首先需要有核心的算力训练服务器。其次是要有很多标注的数据,目前的标注成本相较以前要高出很多,生产高质量数据的成本非常高。
刘弘胤:大模型本身的工程、产品化落地也是不小的门槛,跑一个demo是一件很简单的事情,但具体到某个客户的真实场景落地,仅一个简单的切片和围绕知识库的问答中就有大量的工程实践方面的工作。
这考验企业的长期、持续性投入,从中也可看出企业是否通过大量的场景对大模型进行过打磨。很多工作在实验室中非常简单,但一旦进入到真实的工程场景当中,消耗的人力、物力不可估量,这会成为未来垂类大模型在行业应用中差异化比较大的地方。
陆肖元:在2023年大模型爆火后,一个很强烈的感受是做算法的人很焦虑,算法迭代的速度实在是太快了。最初生成式大模型ChatGPT主要是偏文本类的,我们希望找到一种最恰当的算法,将这种通用型的技术应用到交通领域中。
擎翌智能持续跟进相关算法的最新进展,并参与算法的开发,我们认为基于图片、视频的多模态理解在算法方面是有一定的门槛的。目前来看包括Sora、ChatGPT在内的大模型的文本能力已经非常成熟,多模态主要集中在图片,视频方面还有较大的提升空间。
回归交通场景,大模型对于视频,在算法上的需求还是比较多的,擎翌智能也在持续关注行业的最新动态,不断探索新的算法,但目前来看,在算法方面还存在不足。
其次,在辐射场的空间建模方面,近年来快速建模的能力也在不断迭代,擎翌智能基于已有的数字孪生三维平台和引擎,将场景建模和大模型的语义项结合,进行三维模型的构建。
赛文交通网:未来大模型的发展可能会分为哪些阶段?分别将会有什么样的特征?
陆肖元:从大模型本身来讲,问答式文本类大模型、多模态大模型以及决策类大模型相当于一个技术领域的三个不同的应用方向。
从某种意义上来讲,大模型应用在交通领域大家的第一反应是思考如何提升识别和感知的准确度,尤其是之前提到的对于场景的理解,这方面原先小模型一直做得不好,在完成事件检测、目标物的检测后,还需要大量的人工进行第二道的筛选工作,这是行业目前的现状。
从算法层面来讲,通过感知或识别的多模态大模型可以解决这些问题,主要是完成语义和图片、视频的关联性工作,但这项工作目前还刚刚起步,距离落地还有一定的距离。这是由于互联网大厂、ChatGPT等关于交通场景的数据还没有积累完成,使得其无法理解交通行业中的很多场景。
此外,如果大模型只能解决一些小的问题,那么对于用户来说性价比不高,吸引力也会变弱。2024年是从大模型向小模型发展的关键阶段,如何将大模型蒸馏成小模型,在路侧低算力设备上进行部署,是今年要解决的一个非常重要的问题。
决策方面,相关工作还处于起步阶段。目前来看,基本可以将大模型看作一个黑盒,其无法理解大模型如何生成策略并理顺其推理逻辑,可理解的大模型目前还是一个比较长远的工作。
最后,在空间建模的过程中,快速建模是一个永恒的话题。原先通过无人机、无人车扫描建出来的空间模型,整体使用了大模型和人工智能的方法,一方面确实减少了人的工作,但带的另一个问题是计算时间非常长,且算力资源消耗很高。如何将时间成本和算力资源节省下来,还有很长的一段路要走。
综上所述,大模型要在交通领域中用起来,解决实际的场景、成本问题,还有很多工作需要进行探索。
刘弘胤:现在处于大模型刚刚兴起的阶段,整个市场也在不断地受教育,行业也在不断摸索到底应该如何应用这项技术。大模型的发展可以理解为两个阶段,第一阶段是copilot阶段,是一个助手;未来是autopilot阶段,大模型将融入到交通业务流当中,变为某个角色。
copilot阶段我们理解又可分为两方面。一是大家都已经接触到的知识库的用法,做知识增强,最典型的应用就是外挂到各种各样的业务系统当中,在具体的系统当中可以随时提问,它的数据来源于现有的知识库,这是一个很浅层的应用。
再往下走可以看到随着大模型能力的增强,我们希望将其变为一个真正的助手,通过人的指令,让大模型帮我们进行操作、查询等工作。3月,佳都在重庆做过这样的验证,希望和一些线网系统打通,能够在指挥中心下指令的时候,就能从数据库中将数据查出来,并调取相应的接口,把对应的指令执行下去。但这是中期的过程,目前还处于探索阶段。
再往下走真正到了整个系统围绕大模型的能力进行设计,未来可能会成为整个行业应用的一个超级入口,它重构了我们现在的使用方式。但这项工作目前还处于探索阶段。
第二点具体到语言方向、视觉方向和时空决策方向来看,佳都认为语言类、视觉类或者多模态这一类会走的更快一点,特别语言类现在发展愈发成熟,开源社区以及围绕语言的训练样本也更加多样。
但多模态的进步也非常之快,多模态能够更好地通过图片、视频理解复杂的交通业务场景。举个最简单的例子,有两辆车停靠在路边,人很容易判断出是出现撞车还是其他情况,但小模型却无法判断。这时多模态大模型加上对于业务规则的清晰描述可以快速对此场景进行理解,能够做到万物可识。因此,我们认为多模态方面未来走的也会比较快。
持续的时空决策方面,由于其场景更加复杂,且涉及像雷达,雷视融合等内容,它的路可能会走的稍微慢一点。
吴柯维:目前,大模型的应用还处于探索阶段。最近非常火的AI agengt就是由于单个大模型的能力还没有那么强大,因此要将其分成多个步骤,分步骤进行实现并将其串联起来。此外,大模型的推理能力也相对较差,还处于比较早期的阶段。
面向交通行业,在感知层面如何识别准确是非常困扰行业的一个问题,我认为大模型在这方面取得的进展及落地速度会快于其他的应用。
赛文交通网:如何看待交通大模型的商业变现问题?
吴柯维:大模型的变现有两种方式。一是做大模型核心引擎的公司通过售卖基础模型进行变现。但作为垂类大模型企业来说并不会选择这种方式,卓视智通的做法是通过大模型将原有产品进行增强,对原有产品的价值进行提升以实现变现。
刘弘胤:大模型本身是一项技术,变现的话还是要依靠产品。在今年看到的一个很欣喜的变化是越来越多的用户开始接受大模型这一概念,并开始在做POC和相应的采购决策。佳都的变现方式是对原有产品进行增强,技术还是要放到产品当中才能向客户交付价值。
陆肖元:大模型是技术,最后还是要回归到到产品当中。擎翌智能将感知类产品和路侧感知单元结合在一起,向大模型进行迁移,变成新一代产品;包括数字孪生的三维引擎,通过将辐射场渲染技术直接融合到平台里面,使这些平台都升级为新版的产品。技术是为了提升产品的性能,只有这样才能最终使技术形成闭环。
赛文交通网:分享一下对于未来大模型市场的展望。
陆肖元:大模型作为整个的交通AI底座型技术,是一个不可逆的趋势。擎翌智能将持续围绕感知、空间建模和决策三大方向,从算法、技术、产品等方面持续深挖。让大模型技术在产品上进行应用,增强产品的竞争力,我认为这是最核心的要素。
刘弘胤:佳都坚信大模型未来会成为像云计算、服务器一样的新型基础设施,并且也看到了这样的发展趋势,因此大模型是佳都科技坚定不移投资的方向。同时,佳都在交通行业大模型的应用方面已经有相应的产品和一系列成功应用,未来也将不断探索大模型在交通领域更深层次的应用。
吴柯维:卓视智通在计算机视觉领域深耕多年,也经历了很多算法的变革。从最初的模式识别到卷积神经网络,再到现在的大模型,我们认为当前大模型是一个阶段性的过程,未来可能还会有更加先进的技术的出现。
作为行业从业者,我们只能顺应技术发展的潮流,将先进的技术利用起来,为用户提供更多功能更加强大、更有价值的产品,解决用户和行业的痛点问题。在此过程中,我们也十分愿意将我们的研发成果分享给大家,以实现全行业的共同发展。
未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。