分享

收藏

点赞

  1. 主页 > 资讯 > 更多

高德交通大数据在城市交通分析方面的应用

高德地图陈水平数据分析师于2015年4月16日在 RONG 系列论坛之三——大数据与未来人居研讨会上所做的题为《高德交通大数据在城市交通分析方面的应用》的演讲。

本讲座选自高德地图陈水平数据分析师于2015年4月16日在 RONG 系列论坛之三——大数据与未来人居研讨会上所做的题为《高德交通大数据在城市交通分析方面的应用》的演讲。

主讲人:

清华大学管理科学与工程硕士,德国亚琛工业大学生产系统工程硕士,清华大学工业工程学士。现任高德地图交通信息事业部数据分析师,参与构建了高德交通信息的数据仓库和数据开发平台,是高德交通报告项目的核心研发工程师。

演讲全文:

陈水平:大家好,很高兴今天有机会跟大家交流一下高德在应用大数据研究方面的收获。我叫陈水平,也叫追兵,每一个阿里员工在进入公司的时候都要自己给自己起一个名字,我给自己起这个名字,希望自己向遇到的每一位大师学习,奋起直追。

1.png

我在高德地图交通信息事业部,核心产品是路况信息的实时发布。GPS点有三个字段组成:时间、经度、纬度。我们数据的组成分为两个大类:第一,公众数据,也就是我们从用户身上拿到的数据,这里面分为两个来源:第一,手机地图APP的导航回传;第二,车载导航设备给我们传回的GPS点,目前这两类占到54%。第二,行业数据,行业数据通过置换和购买的方式主要是出租车数据,我们大概有全国80%以上的出租车的数据,还有一部分是物流车和长途客车。90%以上的车辆都会实时向我们回传他们的GPS信息,每月有100亿公里驾驶历程覆盖,70多万件交通事件向我们上报。我们对全国的高速路网进行交通信息的发布,高速路我们可以发布90%,主干路可以发布50%以上。

2.png

拿到这些数据以后我们处理的流程遵循这样一个逻辑:最基础的格式是GPS点,这个点跟普通的定位点不一样,一般每隔几秒钟、一分钟,它是连续的点的序列的信息,能够完整的复现一个用户出行的轨迹。我们从这些点中做一些切分,得到具有明确的出发地和目的地的轨迹,基于此,我们根据拥有的地图数据把他匹配到地图上,再做一些数据挖掘方面的研究。

对于我们一个依赖于交通大数据运营的企业,做到这些是不够的。前面有很多朋友抱怨获得数据是非常困难的事情,这件事情在我们这边并不困难,我们困难的是怎么样管理数据。管理数据在我看来可以分为四个部分:存储、运营、挖掘、应用。如果用武功来比的话,挖掘和应用是一个招式。更重要的是存储和运营,这是内功方面的修为。

3.png

GPS回传数据是我们最重要的数据,我们内部搭建一个实时处理的系统,把这些分布式消息列队,我们会把这些数据拿到做实时的处理,计算每条道路当前速度信息,结合道路等级发布他的拥堵状态,这是我们核心产品。

我们还会把离线的数据导入到我们的平台。我们现在也会把数据传到阿里云

的平台上,包括ODPS和其他的数据处理系统。我们还会对这些东西做一个实时的评测和监控,这对于我们保证数据的管理和质量是非常重要的。

下面讲一下存储和运营。最主要对实时数据的管理和监控,首先你要监控你的数据的量是不是发生最大的变化,一旦有异常就报警。你要保证你核心产品发布的路况信息的准确性,如果用传统方式来看,你只能开一辆车到路上,看是不是堵,跟我们发布的信息比较,这种方式成本非常高。我们内部开发了一个自己的自动化评测的系统,它通过挑选一些非常可信的GPS回传的终端样本,通过经过道路的状态和我们发布的状态做一个比较和自我校验,如果不一样的话,我们会自动的报警。

4.png

你怎么样能够快速的响应用户的抱怨,迅速的定位问题,并修复问题,这是一个非常大的考验。因为我们每两分钟就会发布一个全国路网交通信息情况,两分钟大概会有六七十万条的记录,你要达到实时的检索是很困难的事情。通过设计出一套非常复杂的索引技术,基于HBase搭建一个系统,比如说某个客户说我们哪条路报的不对。我们选中这条路,绿色的格子标注的是他的速度,红色的是状态。右侧就会复现所有经过这个道路原始数据的情况,从这个地方来看,是我们的算法有问题,还是我们在去噪的过程中有不好的噪点没有去掉,导致我们交通信息发布的错误。因为这个数据部门运营的人数就和我们研发部门的人数是一样的,说明了我们公司对这个问题的重视程度。

5.png

下面讲一下我们基于这些数据掌握的应用。第一,交通报告,针对全国40多个城市做交通的数据挖掘,它的道路拥堵情况,道路拥堵的成因。北京2014年Q3季度每日拥堵的曲线图,横轴是日期,纵轴是拥堵指标。如果指数是2,你在高峰期出行,你所花费的时间是在你畅通时间的两倍。红色点表示周一,蓝色点表示周五。周五是最堵的,经过这条绿线,转化成了最堵的是周一,周一就变成了一周里面最拥堵的一天。考虑到中国尾号为4的车辆比较少,所以限号4的车比较少,出现在路上的车就多了。

6.png

7.png

对比北京不同特征日出行的模式,灰色的是正常工作日的情况,早晚都要堵两个小时左右;黄色的是周末线,早高峰会推一些,晚高峰还是比较高的。十一大家都出去玩,所以北京的畅通是比较好的。APEC还是比较畅通的,但是它还是有比较明显的上下班的高峰。

8.png

这是我们实时查询一个城市最堵的道路,同时也可以查到昨天最堵和今天最堵的道路。这是我们和清华大学和戴姆勒公司研究出来的一个模型,这是北京二三四五环,纵轴是时间,西二环和东二环、东三环这几个地区是北京快速路上最堵的几个区域,北边道路拥堵情况肯定比南边要剧烈很多。北四环中路,红色的地方拥堵的概率是非常大的,工作日早晚高峰的时候,主要堵点位于保福寺的出口,拥堵概率90%。拥堵最先开始是出现在一个什么样的地方,我们去看横轴,7:30到8:00之间,第一个红色的点发生在学院桥的东入口,这条道路上拥堵最先发生的地点就在这个地方,如果你想治理拥堵,你要到这个地方实地考察一下,并进行相应措施的改进。

9.png

我们还有一个很重要的功能,把我们的交通信息,路况信息和导航合在一起。躲避拥堵,我们可以发现三环上整体的拥堵情况是比较明显的,如果使用了躲避拥堵功能,我们自动会为你推荐走四环的路。因为你从一个起点到终点,有很多不同方案,如果你只凭经验去走,不如用信息的手段得到最优的方案。今天我来如果没有用躲避拥堵这个功能的话,我可能就会迟到了。

10.png

规避事故也是一样,如果前方发生了一个事故,用户上报并通过我们的系统检测这是一个很可信的事件,我们也会改变我们的导航路线。我们根据你使用高德地图的情况挖掘你的家和工作地,这并不是我们最完美的一个案例,并不是很准,这两个点离工作地和家比较近,如果精确不到小区,可以精确到交通规划概念上的小区。我们可以获得比较好的指数信息,基于这些做城市规划,相信对指数平衡方面也是有一些帮助。

我们利用大数据反哺我们自己产品的功能,左边的有些点不在路网功能之上,一个是噪点,一个是新的路。我们跟清华大学另外一位教授合作,得到了这样一个结果:通过一些特征的抽取,把可能是新路的东西由点连成线,提供给地

图的更新部门,提高线路更新的频率。

右边是通车量的信息,对于通车量比较少的路,我们有理由认为这条路不太好走,我们会降低它在路线规划中的权重,保证我们提供路线规划的质量会得到提升。我们发现有一条路通车量非常少,你用街景一看,可以看到是这样的路。我们避免在导航规划的时候给你规划处这样的路线,因为用户也不太相信这样的路线。

11.png

简单总结一下。

第一,大数据。数据来源手机、汽车、物流车、出租车。

第二,交通大数据的处理。道路和数据结合在一起,进行了大数据的挖掘,我们提供一种响应度非常高的数据质量运营的产品。

12.png

介绍我们几个应用,交通报告主要是用于对这个城市的交通情况做定量的分析,分析出一些道路拥堵的原因,也可以对限号和天气影响做分析。动态导航,帮助大家找到触达目的地,对于不是特别堵的路线,加大目的地的功能,我们主要是想对个性化路线信息的推荐做一些帮助,反哺高德产品。新路识别和小路识别。

地图数据和业务反馈的日志的数据都没有包括在我这个演讲当中,因为很多专家朋友抱怨获得数据很难,我们今年部门一个重大的项目是要做一个数据开放平台,希望明年的时候能够向公众开放可以免费获得大数据。只要你可以拿出让我们眼前一亮的方案,我们可以签订协议,提供一次性大数据给大家,如果您无法处理一次大数据,我们能够分配我们的工程师帮助您处理成您所需要的格式,所以一次大数据、二次大数据都没有问题;而且我们还可以提供必要的项目经费支持。

网站-二维码广告图.jpg

未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明等材料,与我们联系,我们将及时沟通与处理。

加载中~

你可能也喜欢这些文章




稿
意见反馈0
商务合作

商务合作 扫码联系

返回顶部