欢迎来到赛文交通网!

智能交通 数据为王 | 基于信号控制的数据质量探讨

2018-03-28

来源 : 赛文交通网

作者 :

0人评论

3月24日,“江西智能交通论坛(第四期)”在南昌成功举办。迈锐数据(北京)有限公司市场部经理赵攀分享了《基于信号控制的数据质量探讨》的主旨演讲。介绍了“数据”之于智能交通的意义,以及交通数据当前现状。

以下为赵攀演讲实录,经赛文交通网编辑整理

今天我要分享的内容主要围绕数据质量展开。

blob.png

(如上图)大家看到这几个词,应该不会很陌生,随着互联网企业最近一到两年在国内交通的融入,像心脏,大脑,数据融合等等这些概念我们已经屡见不鲜。

围绕这些概念,互联网企业做了很多工作,他们的成果也使我们业主,系统经销商,在工作中发现了我们传统交通行业的数据问题。

比如我们经常会发现我们之前三四年,埋设的一些设备,不管是视频还是线圈,或是雷达等等,很多我们检测到自以为很好的数据,很好的历史数据的积累,在使用调出进行信号控制、进行优化的时候发现这些数据质量并不完美,有大部分甚至不可用。

目前,我们智能交通的一个心病就是数据,所有的控制,方案都是基于准确,严谨、稳定、可靠的数据之上才可以实现。

所以我想,数据的发展和建设,在现在,甚至未来几年都将是交通行业里面最重要的一个部分,他的重要性也会越来越强,那么当前我们手里所拿到的这个数据他的质量究竟如何?

我觉得目前,在一个路口做信号控制或者是做优化,如果要用数据,我们先不说用人去做优化,用数据去做的话,我觉得很难仅用一种检测手段,拿到所有需要的并且是准确的数据,所以我觉得我们的检测技术应该是一个严于律己,宽以待人,然后以包容合作的一个心态去协作。

那我们当前的数据质量怎么样呢?下面我们以真实数据来说话,我觉得既然做数据采集,一定要有数据才可以的。

blob.png

首先我展示的这张是一个月的流量数据,在这张图里面蓝色的部分,每一个色块代表一天的流量。

那么,在上面就是异常数据了,不管是任何的检测数据,检测出来的异常数据都会有这几种形态,我们可以了解一下,比如像上面系统长期离线的一个状态,很多系统都是这样的,我们再拿一周为例。

blob.png

一周的话会有这种(如上图)间歇性的检测器离线,比如像雷达、视频、线圈包括地磁等等都可能产生这个问题。

blob.png

好,下面我们再看这个(如上图)5分钟为例,这个下面蓝色的是正常数据,展示的是5分钟的一个数据,上面突然之间出现了一个数据的断崖式下滑,没有数据了。

那我们为什么要用5分钟来做一个标定?

因为5分钟的话基本上可以涵盖现在国内绝大多数的单个周期时间了,所以如果你在5分钟里失去了数据,那也就是说在这个相位的信号控制会受到影响,会有问题。

所以5分钟是一个对数据而言非常重要的时间参考。

blob.png

那么1天的数据里面出现数据的间歇性离线,包括数据本来没有问题,突然之间在某一个时刻没有数据了,比如说在早高峰或者晚高峰的时候数据突然间没有了,那么这个都是会很大幅度影响我们信控质量的,包括像这个异常数据。

blob.png

就是这种,这是一个月的数据,之前每天都不错,但是突然之间在红色的地方出现了数据的异常下降,这是在某一天,连续几天的时间出现了数据流量的一个异常上升,异常的一个抖动等等,刚才我展示的这些都是我们手里面,我们以前所积累的或者现在正在检测时候出现的数据问题。

那么所有的这些异常数据,我们归结了一下原因,主要有两个:

一个是检测器的故障问题,检测器的采集、通信、计算,对于任何检测技术二千,现在都还在发展期间,只是阶段不同,同样都有各自的技术难关。

第二是实际道路上发生的某些真实的事件所引起的数据异常

那我们现在看第一点原因,设备故障引起的数据异常。我们总结了一下,他应该涵盖三个非常重要的指标,掉线、离线和丢包率。

如果做数据的企业不谈谈这三个指标的话,那就有点放空话的意味。

那什么叫掉线?作为检测器来讲,在5分钟之内没有回传自己状态数据和事件,那么他就有可能掉线了,这5分钟内信号机或平台就收不到数据了。

离线可以这么理解,他指的是更长时间的掉线, 比如两个小时无任何数据,那就说明这个设备出了大问题,是摄象头就要赶紧去检修,是线圈就要赶紧去维护,是地磁需要马上更换。丢包率是说在一定的周期之内,我们所接收的数据包,占所发送的数据包的比例。因为丢包率对流量准确率的影响非常大,不同程度的丢包会造成其相对应数据准确率的误差,所以数据的丢包是一定会对我们检测数据有很严重影响的,丢包率一定要进行有效控制。

因此,我们谈数据质量,一定要分析其背后掉线、离线和丢包率这三个指标。

那么,首先我们来介绍第一部分,关于我们之前提到的由检测设备故障所导致的数据异常该如何来判断。

这方面我们现在是通过设备状态回传和数据状态回传这两个机制来确定的,并且去进行后面的维护工作。

首先我们看设备的状态回传,因为我们做交通数据,他5分钟的数据如果试验有问题,那么就将产生影响,所以我们就将设备的状态回传时间,标定在每5分钟一次,需要回传一次设备状态,这个设备状态包含了设备稳定工作的几个重要条件,比如像信号强度,电池电压,链路质量。因为对地磁来讲,链路质量是否稳定直接影响其采集和通信的准确性,数据发生丢包有很多时候就是因为其链路质量降低导致的。

blob.png

通过这个远程故障诊断平台,我们可以实时观察到全国所有具备远程通信功能的检测器。

blob.png

随后,在做诊断的时候我们还可以根据项目具体所在地点进行检索,可以具体检索到他所在的城市,路口,甚至车道来进行精准的定位,比如像这幅图中(如上图),我们就可以获取很多设备信息。

展开之后我们就可以对单个地磁检测器进行状态察看了,在状态信息列表里面,我们可以看到该设备的信号强度,电池电压状况如何?他是否供电稳定呢?链路质量怎么样?传输是否通畅等等,这些数据一见了然。 

如果其中某一项数据出现了异常报警,那么就表示该检测器可能出现故障了,他会给我们后台发出预警,提供一个很好的预防手段。

那么我们结合前面的设备状态监控完善了一系列对于设备故障的维护流程,比如像从信息发送,平台接收,故障确认到最终人员现场进行解决,最终达到我们保障数据质量的目的。

blob.png

第二个我要提到的就是数据状态的回传。

刚才是设备状态,现在我们来看数据状态,数据状态的回传分两个部分,包含了数据质量的重要参数,如丢包率,实收包数,数据故障码等等,并且同样也要有5分钟进行一个状态回传,这个非常的重要。

blob.png

同样通过回传平台进行监控每个检测器的数据状态,从而去看他的掉线率和离线率,这个图我们举一个例子。

blob.png

(如上图)这是在四川宜宾我们的某一个路口采集点,这个图横纵坐标分别都是时间纬度,横坐标是360天,纵坐标是24小时,我们在宜宾这个路口检测的是一年的时间,他包括了每5分钟一次数据回传,数据包由10万个数据点组成。

其中我们可以看到一些零星的彩色小点,我们把他放大一下,这每一个黑点和彩色点都代表我们系统里面收到的一个数据包,通过这些数据包的颜色分布我们可以判断出他每次发生故障的状态和频率。

比如像这个彩色的点,紫色和绿色的他就代表掉线了,但是这些极短时间的掉线对数据准确性是无损的,因为数据两端会进行补包,通信状态比较好,速度比较快,所以包的损失会很小。但其实这些海量数据包就是我们现在对于数据准确性判断的基础,通过大量数据包的分析和回顾,来检索我们的数据,确认他的质量。

我们再举一个故障的一个例子,什么时候你的检测器发生故障了,你要做到心知肚明,要很清楚。

blob.png

(如上图)这里面我们首先说一下这个图例。横坐标是从2016年11月份到2018年2月份,一年半的时间一个检测器他的状态数据。

“1”代表他的丢包率大于1%,“2”代表丢包率大于5%。“4”代表他连续两个小时断线,那么1和2是可以进行数据补偿的,可以生成近乎无损的的数据,有误差,但是不影响我们上层方案使用。

但是“4”就有问题了,就是检测器离线了,我们可以看到2018年以前,偶然会有掉线的事件发生,但是通过补包和30分钟自检功能可以恢复数据的无损传输。

但进入2018年以后,尤其是在1月份的时候,我们就会发现代码“4”也就是离线的状态频繁的爆发,就是我们红圈标出来的地方,因此我们就可以根据这种数据状态,判断这个检测器有可能出现故障,并且立即响应后面的维护程序,这就是我们通过丢包率来进行判断的一个检测器状态的手段。 

那么结合前面我们对数据状态的监控手段,我们也完善了一系列的诊断流程,从数据的信息发送到平台接收,确认数据状态,到后期的设备维护等等,这就是我们最终达到的保障数据质量的第二个手段。

上面分享的就是我们通过远程平台来分别监控设备的状态和数据的状况这两个方法,从而共同保障我们的数据质量。

blob.png

目前具备远程诊断功能的项目在全国已经覆盖了50个城市,其中有3200个路口,现在每5分钟正在往我们的后台里面回传他的状态数据,做到对设备的心中有数。 

最开始的时候我讲过就是我们的数据异常有两个成因,一个是设备状态出现问题了,第二个就是可能真的是因为某些事件发生而导致了数据异常。

那么他是否是因为事件发生而导致异常,我们怎么去判断呢?

那这个时候我需要做的是一个数据的回溯工作。数据回溯,就是通过分析异常数据时刻的丢包率是否正常来判断他的异常成因,下面我们举一个例子,后面的这些图我都是从鄂尔多斯这边拿的数据。

简单说一下为什么这个原因?因为鄂尔多斯是迈锐在2012年开始埋设地磁,采集数据的城市,近6年来,咱们一直在鄂尔多斯帮助用户实现感应控制,我们都知道感应控制对于数据的质量和实时性要求非常高,所以这边的数据质量是非常准确的。

首先我们看鄂尔多斯伊煤路-杭锦路这个交叉口,获取了15个车道的丢包率数据,这个丢包率数据是将近1年的时间,总样本量11万。

blob.png

(如上图)我们看一下他的呈现状态。首先左图我们可以看到在11万条丢包率的数据中,其中有5%是没有发生丢包的,完整的数据。重点我们就要分析这5%的丢包率,分析出规律和问题。

在右图我们这个雷达图里面,我们的外圈这个时间指向是丢包率的比例,比如在12点位置,是丢包率发生的最小的比例,1%到5%,顺时针旋转,间隔5%,他的左边就是最大的比例,95%到100%。

圆点的大小代表当前这个丢包率发生的频次,原点面积越大,他发生的次数就越多,从图中可以看到,5%的丢包率总,发生1%到5%的丢包事件的样本,占了总样本量的2.8%,因此,小概率丢包情况占比较多。

而15%以上的丢包概率发生的情况并不多,占总丢包事件的0.25%,所以我们非常确信的说我们在这个路口,这个检测器他的工作状态是十分稳定,数据质量也是非常可靠的。这个就是我们通过丢包率来进行判断的结果。

blob.png

下面我们再看一些其他的异常数据的表象,(如上图)这个是在伊煤路-民族街路口,我们收集了九条车道一年内每天7点至10点三个小时的时刻流量。

三个不同颜色的点分别代表:

蓝色的点代表7点到8点这一个小时的时刻流量;

红色的点代表8点至9点这一个小时的时刻流量;

绿点是点代表9点至10点这一个小时的时刻流量;

横轴是时间,从去年的3月份到今年的3月份。纵轴代表流量,从这里面我们可以明显的发现流量规律出现了一些异常。

车道二和车道三分别在某一时刻流量出现了一个明显的变化,就是突降,那么现在我们就要分析了,刚才我说他这个数据异常是因为什么原因产生的?是设备故障了?还是真实的事件导致的?

blob.png

现在我们看丢包率的对应关系,(如上图)我们拿丢包率和流量进行一个对比,上面就是刚才车道三图展开之后的样子,下面这个图我们可以发现黄色代表的这个接收包数和上图的趋势是完全一致的,并且蓝线代表的丢包率为0%,也就是说在这个车道,这个检测器他没有发生过任何的丢包,数据质量完好,因此我们得出结论这个数据异常现象,应该是一个事件导致的。然后追溯到他的发生日期,原来是因为其所在事件为十一休假期间,早高峰流量明显下降,那么这就是我们所说的事件影响。

blob.png

(如上图)同样我们再看车道二的这个情况,车道二也是我们的流量数据和收包数的数据形成对应关系,并且蓝色所呈现的丢包率没有发生任何的丢包现象,然后我们追溯了当时发生这个现象的日期,确认是因为伊煤路这个路口在进行管道供暖改造,所以影响了车辆正常行驶,因此数据会有变化,这样我们就可以结合之前的状态判断来确定我们这个路口的数据出现异常的原因是事件导致。

blob.png

各位刚才有没有仔细看到,(如上图)在这个路口还出现了这几个非常奇怪的点,我用红色的圈标出了,九个车道中都发现了在某天同一时刻,都有一个异常点,这种现象我们分析之后同样发现数据无误,于是去查找了路口维护日志,发现是因为我们在路口做信号机维护的时候出现了断电,所以在那一个时刻我们整个路口所有车道所有方向的流量都出现了一个变化,都为0,没有任何数据回传。

这个例子也是真实的事件导致的。 

blob.png

下面我们是通过单日流量进行的对比,也能够发现异常的数据,该路口一年内所有车道出现过9次在同一天,同一时间段出现掉线,累计时间19个小时,全年累计占比是0.22%,我们把他展开来,放大之后拿出一条数据。

blob.png

(如上图)这里面每一条细线代表一天一个车道的累计流量,比如说这一年的每一个周一,每一个周二的总流量,我们发现里面出现数据异常的变化蛮大,导致的原因是数据的处理器断电,具体断电的原因我们现在还不太清楚,但是我们可以从数据的追溯里面发现这种现象。断电的这个时间正好是流量没有任何累加,因为正常情况下流量应该是线性上升的一个趋势。

blob.png

最后这个图是展示了相邻两个车道某天流量数据图,一车道和二车道。橙色和绿色,这个其实很好分析,从数据上可以看到,一车道流量突然间降低和相邻车道升高,是因为一车道发生交通事故导致的,之后他后面的车都并线去了二车道,所以我们同样也可以从单车道的流量上去进行这个异常数据的判断。

那么上面展示的这些都是我们对于数据异常的一些现象,我们通过对丢包率的数据的分析,能够准确的判断出他们是属于第二种情况,也就是事件导致的数据异常。

最后我们总结一下。

为了确保我们的数据质量,我们做了两个工作,其一就是通过远程的故障诊断平台来实时监控我们的设备状态和数据状态,其二是通过历史大数据的回溯,来判断异常数据的成因。

主持人北京工业大学关宏志教授现场点评:

首先,我非常喜欢这样的演讲,演讲的内容非常好。我们的企业发展应该从问题入手,怎样提高我们的技术,怎样改进我们的技术,让检测更加准确,传输更加可靠。如果发现问题,到底是我们技术的原因,还是设备的原因,还是因为客观的什么原因。我觉得有这样一种追溯的精神,才能够把企业的技术,包括硬件技术、软件技术和分析技术不断提升,这应该是我们企业应该走的一个方向。

1.7its.com 遵循行业规范,任何转载的稿件都会标注作者和来源; 2. 7its.com 的原创文章,请转载时注明文章作者和来源,不尊重原创的行为将追究责任; 3. 7its.com登载此文出于传递信息,并不意味着赞同其观点或证实其描述,文章仅供参考。
延伸阅读
2018中国港珠澳大桥信息化研讨会顺利召开
自主式交通违法提醒系统,牛在哪里?
智多兴投控即将亮相第二十届中国高速公路信息化研讨会
智载科技即将亮相第二十届中国高速公路信息化研讨会
贺州市将建设“基于大倾角视频识别”的路内停车项目
AI引领智能制造丨大华机器视觉再推新品 点燃创新引擎


微信二维码


新浪微博


交通包打听


360网站安全检测平台