分享

收藏

点赞

  1. 主页 > 资讯 > 智慧交管

闵万里阿里技术分享:浙江预测拥堵准确率超90%,如何实现的

“互联网+交通, 物联网,大数据,云计算,数据科学, 智慧交通, 排堵保畅”,时下最火的词汇都投射在同一个项目中:浙江高速未来路况预测。

未来路况预测的理论及技术发展简介

“互联网+交通, 物联网,大数据,云计算,数据科学, 智慧交通, 排堵保畅”,时下最火的词汇都投射在同一个项目中:浙江高速未来路况预测。

最近阿里云与浙江省交通厅合作,在阿里云公有云上实现了未来高速路况实时预测系统, 提前预测未来5, 10,…., 60 分钟每个路段上的通行速度。自2015年9月底上线以来, 预测准确率保持在91%以上。项目公布后反响强烈,有不少人询问背后的技术细节。

这是一个典型的从DS(Data Science) 到 DT(Data Technology) 再到DA (Data Application)的案例。从大家熟知的“实时路况”到 “未来路况”, 区区两字的差别看似微小,实则有多重技术挑战,最终得益于阿里云的计算能力及大数据应用算法能力。此文试图用浅显易懂的语言科普这个项目背后的理论技术及其历经十年的打磨过程。

1:项目的初衷

在阿里巴巴西溪园区工作的同学19:00下班前想知道 19:20 时刻文一西路/崇义路口是否拥堵?如果还是拥堵的话,就再加班晚点走吧。

交通91.8 电台播报中河高架此刻拥堵,而正堵在中河高架上的司机无奈嘀咕道“不要你说我也知道现在堵,告诉我要堵到什么时候啊,美女主播!”

类似的场景还有很多,而大家熟知的“实时路况”无法解决这些问题。 基于当前时刻的全网路况规划出行,隐含了一个很大的假定:路况将会固化在当前的状态不随时间演变。

成语“刻舟求剑”每天都在被许多驾车的朋友演绎,就是因为缺少了未来路况的信息!

有些同学会指出说路况预测功能在有些产品中都已经实现了,为什么还要炒冷饭?现有的路况预测“基于历史路况统计预测,仅供参考”。可是实际路况并不是严格按照历史经验规律的,各种突发事件,天气条件,及道路管制等措施都会使得今天的路况偏离历史经验规律。事实上数据已经表明尤其节假日的时候历史经验值不可靠。所以,这个项目的目标就是为用户打造一个“与时俱进”的未来路况预测。

2:在线预测的整体流程

blob.png

1)实时路况采集:许多城市都有实时路况发布系统,数据源通常来自地感线圈,探头及浮动车。 但在城外的高速路上探头设备相对稀疏,这次项目中浙江省交通运输厅采用了手机信令的数据源,通过在手机基站之间的切换行为推断车流速度。

2)交通状态实时监测:由于人们出行具有周期性(上下班高峰,周末/工作日),每个路段的路况通常会在几个不同状态之间周期性轮替。从实时路况数据可以检测各个路段当前处在什么交通状态, 针对不同的交通状态启用相对应的预测模型。

3)未来路况在线预测:基于最近60分钟内的全网路况记录, 模型实时预测未来60分钟内各个路段的通行速度, 并且随着全网实时路况的变化同步刷新。

在以上三个流程中:

1) “实时路况采集”的最大挑战是手机信令数据的空间分辨率不足以及数据噪音大(很多非驾驶人员的手机数据)及流计算压力大。自2000年以来多个智能交通研究组克难攻坚突破了这个难题并且付诸使用。

2) “交通状态实时检测”则是智能交通领域比较早突破并使用的技术。

3) “未来路况在线预测”所用的模型则是本文介绍的重点。它集成了概率论,时间序列,拓扑学及分布式计算等多个学科, 前后经历了10年的时间铸造而成。

3:预测模型的理论基础——数据流形 (Data Manifold)

在路网上的车流就如同在自来水管道里的水, 都是网络流问题, 即:在一个相对固定的网络结构上的动态流。 统计学上比较相似的概念有 longitudinal data, spatial-temporal process, 区别在于网络几何结构决定了不同路段之间有相对固定的流向关系(有向图)。在每个路段上的观测值则是一个时间序列( 时间关联性 ), 而由于流向的关系决定了不同路段上的观测值之间有内在关联性( 空间关联性 )。为了区别longitudinal data, 笔者提出了 “数据流形” (data manifold) 的概念。要解析data manifold, 需要分解为两个逻辑上从外至内的串联问题 a) 与 b):

a)解析空间关联性
顾名思义, 解析manifold最重要的是局域空间的切向量(tangent vector)。即对任何给定的路段,需要判断与其有显著关联的路网局域范围。以图1 为例,在路段 i的观测量是时间序列 X{i,t},根据拓扑关系可以写出以下方程:

1531103159475587.png

图1:有向网络流的拓扑关系示意图。

1531103178102166.png

这里以第5个路段为中心构建的方程组为例,每个方程对应的就是一组切向量空间 (例如, 基于第一个方程选择的切向量空间就是有4,3,6(按公式中的顺序)号路段张成)。“≈” 而非严格的 “=” 则是因为有误差波动及行程时间滞后的影响。解析data manifold 的空间关联性就是要判断方程组中哪个方程更加“靠谱”。而如何衡量“靠谱”程度则需要从X{i,t} 时间序列特性着手,需要用到多维时间序列的最简约结构模型的判定方法, 参见笔者的论文【1】

b)解析时间关联性
上文所列举的方程组里每个系数,(α,β,γ)以及对应的 X{i,t} 时间序列的时间下标如何判定? 要解答这两个问题, 需要从时间关联性着手, 即指定路段上前后时间周期内观测值时间序列X{i,t}之间的关联性。 以图2为例, 有几个代表性的特征:

周期性:整体曲线的走势在三周里明显相似(早晚高峰拥堵,周末相对畅行)。百度地图的路况预测“基于历史路况统计预测”其实就是利用这种周期性,但是没有考虑到下面的两个重要特性。

差异性:在共同趋势的基础上,明显有一些尖峰参差不齐对应各种交通事件。

方差变异性:车速曲线的波动幅度(方差)在一天中不同时间段有变化,这个现象在金融时间序列中非常普遍(conditional heteroscedasticity)。Robert Engle 教授(2003年诺贝尔经济学奖获得者)于 1982年提出“自回归条件异方差模型”(ARCH) 来描述方差变异的现象,参见论文【2】。

1531103203876041.png

图2:单个路段连续三周(3种颜色)的通行速度, 从周日至周六按照每5分钟统计。

随后许多学者发现ARCH效应导致经典的ARIMA时间序列建模过程失效, 一些重要统计量的大样本分布性质也不清楚。笔者与导师在论文【1】中解决了这个问题,这个工作的核心理论则是笔者与导师在论文【3】中提出的“弱相依过程的样本统计量的渐进性分布特性”。【3】从经典概率论中的鞅差(Martingale Difference) 理论框架建立了相依过程的大样本不变原则(Invariance Principle), 颠覆了统治近50年的强混合理论(Strong Mixing)【4】,论文【3】也是随机过程期刊在2005~2010年间被引用次数前十名的论文之一。

4:预测模型的技术演变

2005的两篇论文【1】及【3】完成后笔者一直寻找应用场景。最开始应用在手机塔台网络的动态频率带宽分配上,帮助电信运营商优化不同地区的频率带宽分配从而提升通话质量, 降低通话断线的比例。这个应用场景对实时更新的速度要求不高, 因为频率带宽的分配方案是一个周期性非常强的缓变过程。但在2008年开始应用于道路路况预测试点的时候, 对实时性要求陡增。囿于机器性能的限制, 只能在很小的范围(新加坡的CBD 约506个路段)试测, 当时在不同等级的地面道路上预测准确率超过了85%,这是业界第一个能准确预测未来路况的实战系统。当时的科技媒体包括CNN, Yahoo都专题报道, 仿佛交通拥堵的顽症立马可解了。基于这个工作发表的论文【5】是交通研究期刊2010~2015年期间被引用次数最多的十篇论文之一,也有许多团队开始实现并改进这个论文的算法并且报导了十分乐观的结果。

可是迄今为止, 还没有看到此类系统大规模的应用。根本原因还是在于实时在线预测模型部署在超大规模的网络上对计算性能要求非常高。

2013年笔者发表论文【6】再次改进了预测模型,降低了计算的复杂度。2014年底,为“快的打车”建立智能推单模型上线后显著提升了订单满足率。这个项目切实证明了阿里云架构的计算能力,坚定了笔者的信心。阿里云交通云团队把在线预测模型进行了针对阿里云架构的改进,彻底突破了实时计算的压力。系统上线运行后成功经受住了国庆高峰期的考验。

坚实的理论奠定好的模型,保证能“算得准”,而阿里云强大的计算能力保证 “算得快”,两者合力铸就了这次项目成功。

5:未来展望

从应用的角度看, “互联网+“ 给各行各业注入了新鲜的思维, 数据深度挖掘及应用需求随处可见。以交通行业为例:信号灯控制方案优化, 停车位预测, 人流集聚,专车动态匹配及定价等等。而“云计算+大数据”的搭配在各个垂直行业面临绝佳的机遇。

未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。

加载中~

你可能也喜欢这些文章




稿
意见反馈0
商务合作

商务合作 扫码联系

返回顶部