交通大数据行业困境
本文摘选于《交通大数据:存储与计算》一书
01
行业标准不统一、数据融合困难
在综合交通运输行业,存在着明显的大数据行业标准不统一的问题。交通大数据存在多样性、复杂性的特点,包含了文本、图片、视频等结构化、半结构化与非结构化的数据。以数据收集设备前端传感器为例,由不同的生产与安装厂家铺设的前端传感器可以用于收集交通大数据,但这些前端传感器行业没有统一的接口标准,使得全省甚至同一个县市的不同数据平台之间的连接和数据兼容变得困难。
各政府部门、各系统、各企业间有很多数据是独立存储的,各自为政:一是数据的储存标准与格式不统一:二是数据开放、数据交换和数据交易这三大体系未打通。目前在综合交通运输行业没有一个成规模的大数据平台来进行数据的统一标准制定与管理造成了对开展大数据深度整合、分析、应用工作的阻碍。同样地,一些地方在规划和建设交通大数据平台的过程中,不注重大数据平台的顶层设计,也缺乏相关的管理、考核监督机制,这使得建设过程中容易出现仅关注单个信息化项目、单个领域信息化建设的现象,对整个大数据平台的统筹规划和总体架构把握不够,难以实现智慧城市建设平台化、集成化发展,从而在建设过程中形成新一轮数据“孤岛”。
02
数据收集不足、分析方法单一
在数据应用层之前,最重要的是大数据的收集与分析,但目前交通大数据存在数据收集不足与数据分析方法单一的问题。
尽管已经进入了大数据时代,大量的数据时时刻刻都在生成,但综合交通运输行业场景人工智能应用相关的训练测试集没有被有效地收集,数据也缺乏标注。目前行业大量依赖国外数据集,但由于综合交通运输行业的国内外标准不一样,造成本土化的大数据应用存在缺陷,导致“水土不服”的现象。
目前综合交通运输行业还存在感知数据收集不全面的问题,因缺乏全面感知的数据,无法对事件发生的根本原因通过仿真等方式展开溯源,无法确定问题症结,导致天法实现精准化管控。因缺乏数据支撑,系统预测能力差,无法为人工决策提供有效的辅助,目前综合交通运输行业涉及决策的场景还是取决于指挥人员的经验,没有达到“少人化”,减少一线工作人员作业量的目的。同样,目前基层人员缺乏专业知识,数据分析手段过于单一,大数据应用最多的方向往往是基础的数据统计与综合指挥演示,缺乏深度的数据分析与数据应用,没有充分挖掘数据的价值。
03
数据运维水平低、数据管理能力差
数据从原始层进入数据仓库与应用层往往需要对数据进行预处理,但很多时候在实际场景中,存在数据采集基础设施运维困难与数据管理缺陷,导致数据不完整、不正确与不相关,进而导致了数据预处理的困难,最终使得数据仓库与应用层的使用不合理。
数据运维与数据管理的水平低有两大原因:一是运行业务与维护业务之间缺少联动与协同,统一业务跨路径、跨路网、跨区域的协同不密切,运维人员缺乏专业知识,造成数据采集设备与数据库的损坏、容灾解决方案的设计和实施的缺席。二是一些项目缺乏运维管理的长效机制,缺乏相应的配套政策和法治环境,使市场配置资源的基础性作用难以发挥,无法激发社会力量参与大数据平台建设的积极性和创造性,最终导致项目难以持续。
04
数据存在安全风险、隐私保护需要完善
我国综合交通运输行业目前还没有一个统一的数据处理平台对产生的海量数据进行保护、挖掘、分析、利用,也没有对产生的数据特征进行识别,甚至在生产过程中产生的原始数据由于存储空间等问题会被定期删除,或者存下来的数据未能进行高效处置使大量数据资源闲置浪费,加之行业长期以来存在“重建设、轻管理”的现象,信息系统建设过程当中针对数据的存储保护较为薄弱,经常会发生数据丢失、数据泄等事件。
据媒体报道,某打车软件存在司机身份证号码被占用、车牌被注册的现象。在信息被盗用的背后,不容忽视的是运营车辆隐私泄露的黑灰产业链。从近年来不断发生的数据泄露事件可以看出,综合交通运输行业的大数据首先存在隐私保护关键技术不完善的问题;其次存在隐私保护法律法规不健全的问题;最后存在个人隐私保护意识薄弱的问题。隐私侵权的行为在目前的技术手段及立法水平层面上是无法被根除的,但交通大数据的发展和普及让隐私保护面临前所未有的挑战,这要求我们在进行交通大数据建设的同时,重视数据安全风险问题。
05
大数据投入成本过高、存储与计算效率过低
大数据平台前期投入与具体应用存在成本过高的问题。数据的收集、标注、存储、计算、管理等环节都需要大量的投入。在进行大数据的深度开发与应用时,需要大量的计算机算力、服务器与机房等各类硬件、软件设施及专业人才的支撑。在很多时候,前期投入成本过高是阻碍各地政府建设大数据平台的最重要原因。
所以如何降低大数据平台建设与管理的成本是亟须解决的问题。由于大数据成本的过高,以优化交通大数据的存储方法来降本增效成为非常重要的手段。存储优化的方法有很多,比如数据压缩、数据重分布、存储治理项优化、生命周期管理等。以生命周期管理策略为例,当数据库中存在因业务变更与人员流动而产出的长期无人使用的表时,可以采用分区的过期策略,对无效的历史数据进行定期清理,同样地,大数据计算也存在优化方法。比如防止数据倾斜、防止数据膨胀、小文件优化并行执行优化等。以防止数据膨胀为例,当数据的输出规模远远大于数据的输入规模时,就说明可能存在数据膨胀的现象,这时候就需要采取分区过滤、慎用“SELECT*”等手段对任务进行优化,从而达到优化性能的目的。
赛文荐书:本文摘选于《交通大数据:存储与计算》一书。随着数据规模的不断增大,如何高效地存储大规模的交通数据成为一个关键问题,传统的数据库管理系统往往无法胜任这样的任务。交通数据的多样性和复杂性使得数据的存储结构和查询方式需要特殊的设计和优化。
本书介绍交通工程实践中常用的数据结构与数据库管理系统,在此基础上介绍一些常用的存储技术和方法,如常用数据库、数据组织方法、数据库操作与优化等,帮助读者理解交通大数据存储的原理和应用。此外,交通大数据的计算通常涉及复杂的算法和大规模的数据处理,对计算资源和算法的效率提出了高要求。
本书将介绍一些常用的计算方法和技术,如并行计算、分布式计算、虚拟化技术等,帮助读者掌握交通大数据计算的关键技能。本书是一本面向广泛读者群体的专业书籍,适用于数据存储与计算领域的专业人员和从业者、学术界的研究人员与学生、工程技术人员和决策者。
作者介绍:
刘志远,东南大学交通学院教授、博士生导师,获东南大学“五四青年奖章”、江苏双创人才、国家自然科学基金优秀青年基金。长期从事交通大数据分析与建模、交通络规划与管理、公共交通等领域的科研工作。
黄凯,东南大学专任教师、至善青年学者,江苏省双创博士。主要研究方向为智能交通系统优化与仿真、基于数据驱动的交通系统分析,致力于网联化、共享化、电动化交通系统发展。
刘攀,东南大学党委常务副书记,教授、博士生导师。国务院学位委员会交通运输工程学科评议组成员/秘书长,国家自然科学基金杰青项目获得者。先后主持国家重点研发计划项目、国家自然科学基金重点项目等国家、省部级科研项目20多项。以第一第二完成人获国家科学技术进步奖二等奖2项,牵头获江苏省科学技术奖一等奖1项教育部自然科学奖一等奖1项、教育部技术发明奖一等奖1项。主要从事交通工程、交通安全、智能交通等领域的研究工作。
未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。