出行大数据,滴滴发布400城数据可视化分析
一:出行大数据,滴滴发布400城数据可视化分析
二:滴滴背后的大数据应用
前言:这是一篇大数据应用文章,不涉及高深技术,适合大数据入门的同学了解大数据能干什么,所有数据/消息全部来源公开网络。
先聊个最近的消息,近年来发展最快的公司滴滴传言裁员,消息真假难辨。网络传言:“滴滴出行可能正在进行成立4年多以来最大规模的一次裁员。有多个信息源对36氪称,最近滴滴正在裁员;甚至有知情人士告知36氪,滴滴各个业务线加起来将会有一半的员工被“优化”离职。按照滴滴公开的说法,目前各个事业部加起来有6000多人。据此计算,这可能意味着滴滴有可能要裁掉3000人?”。有没有知道详情的同学告知一下真实情况?
今天核心要聊的不是这个,聊一聊滴滴的大数据应用。
1、滴滴的确是一家大数据公司
数据显示,滴滴平台每天产生超过70TB数据(相当于7万部电影),每日处理超过90亿次路径规划请求,日均定位数据超过130亿。2015年,滴滴出行平台完成14.3亿订单,这相当于在中国平均每个人都使用滴滴打过一次车;累计行驶里程达128亿公里,相当于环绕中国行驶29万圈,累计行驶时间达4.9亿小时,相当于昼夜不歇的行驶56000年。今年,滴滴平台日峰值订单超过2000万单,2016年的全年订单量将远超去年。
2、滴滴的智能交通云
滴滴的数据来源有两方面,一个是自身软件手机的数据,一个是和政府合作,获取公共数据。
在滴滴智能交通云平台上,通过收集到的出行大数据,可以实现区域热力图、OD数据分析、城市运力分析、城市交通出行预测、城市出行报告以及信号灯动态配时等,同时还能在公共出行服务,比如实时路况、实时公交、ETA、城市运力补充等方面发挥巨大价值。
未来通过将传感器数据、静态道路数据、道路事件等数据与滴滴的OD数据、司机数据、GPS轨迹数据以及运力等数据整合,将为整个城市的交通出行提供更好的服务。
3、滴滴的大数据应用
大家一起来看看滴滴的用大数据做了什么。
1)通过大数据精准分析和预测,实现预估费用和实际费用一致。
2)使用热力图提前预测需求,蜂窝动态调价,提升整体成交率。
3)智能拼车,通过虚拟站点设计,撮合不同地点乘客拼车。
4)此外,滴滴通过和政府合作,和城市一起实现智能交通。(目前已知滴滴和沈阳、武汉都签署了战略合作协议。目前看在这个能力目前应该是还没有实现,规划中。)
例如智能信号灯控制,“通过数据模型算出整个区域的车流量情况,理想情况下,比如让车在主干道上通行效率更高,可以靠区域的红绿灯协调实现。”
以上简单聊下滴滴的大数据应用,知道更多详情的同学留言一起讨论吧。
三:滴滴项目描述
滴滴出行预测
赛题详情
在出行问题上,中国市场人数多、人口密度大,总体的出行频率远高于其他国家,这种情况在大城市尤为明显。然而,截至目前中国拥有汽车的人口只有不到10%,这意味着在中国人们的出行更加依赖于出租车、公共交通等市场提供的服务。另一方面,滴滴出行占领了国内绝大部分的网络呼叫出行市场,面对着巨大的数据量以及与日俱增的数据处理需求。截至目前,滴滴出行平台日均需处理1100万订单,需要分析的数据量达到50TB,路径规划服务请求超过90亿。面对如此庞杂的数据,我们需要通过不断升级、完善与创新背后的云计算与大数据技术,从而保证数据分析及相关应用的稳定,实现高频出行下的运力均衡。供需预测就是其中的一个关键问题。
供需预测的目标是准确预测出给定地理区域在未来某个时间段的出行需求量及需求满足量。调研发现,同一地区不同时间段的订单密度是不一样的,例如大型居住区在早高峰时段的出行需求比较旺盛,而商务区则在晚高峰时段的出行需求比较旺盛。如果能预测到在未来的一段时间内某些地区的出行需求量比较大,就可以提前对营运车辆提供一些引导,指向性地提高部分地区的运力,从而提升乘客的整体出行体验。
定义及评估标准
-
问题定义
乘客打开滴滴出行app,输入出发地和目的地并点击“呼叫”后就完成一次发单(request),有司机接单后就完成一次应答(answer)。 将一个城市划分为n个互不重叠的正方形区域 D=d1,d2,⋯,dnD=d1,d2,⋯,dn。
对于区域 didi 次发单。
对于区域 didi
给定每个区域在时间片 tjtj。
为了简化问题:可以把特定区域,特定时间段订单信息表中 driver_id
为 null
的数量作为 gapgap 的值。
评价指标
对 nn 作为最终的评价指标:
MAEMAE 越小越好。
选手提交结果
选手提交的数据格式为:区域ID,时间片,预测值。其示例如下:
其中每个字段的具体描述如下:
数据名称 | 数据类型 | 示例 |
---|
数据形式
训练集中给出M市2016年连续三周的数据信息,需预测M市第四周和第五周中某五天的某些时间段的供需。测试集中给出了每个需预测的时间片的前半小时的数据信息,具体需预测的时间片见说明文件(说明文件含在数据集下载包内)。 具体数据如下,其中订单信息表、天气信息表和POI信息表为数据库中直接的表信息,而区域定义表、拥堵信息表是由数据库中其他表衍生的信息。
数据集下载地址:http://cn-static.udacity.com/mlnd/public_data.tar.gz
订单信息表
字段 | 类型 | 含义 | 示例 |
---|
订单信息表主要覆盖了一张订单的基本信息,包括这张订单的乘客,以及接单的司机(driverid =NULL表示driverid为空,即这个订单没有司机应答),及出发地,目的地,价格和时间。
区域定义表
字段 | 类型 | 含义 | 示例 |
---|
区域定义表主要表示比赛评测区域的信息,选手需选择区域定义表中的区域来做预测,并在最终提交的结果中需将区域哈希值映射为其相应的ID。
POI信息表
字段 | 类型 | 含义 | 示例 |
---|
POI信息表主要表征区域的地域属性,由其中所含的不同类别设施的数量表示,如2#1:22表示在此区域中含有类别为2#1的设施22个,2#1表示一级类别为2,二级类别为1,例如休闲娱乐#剧院,购物#家电数码,运动健身#其他等等。不同类别及其数量以\t分割。
拥堵信息表
字段 | 类型 | 含义 | 示例 |
---|
拥堵信息表主要表示区域中道路的总体拥堵情况,其中主要包括不同时间段不同区域的不同拥堵情况的路段数,其中的拥堵级别是越大越拥堵。
天气信息表
字段 | 类型 | 含义 | 示例 |
---|
天气信息表主要表示整个城市的每天间隔5分钟段的天气情况。其中的weather字段表示天气的实时描述信息,而温度以摄氏温度表示,PM2.5为实时空气污染指数。
FAQ
-
Q: 最终上传结果有固定格式吗?
A: 请按区域ID,时间片,预测值的格式上传您的结果。预测值为浮点数,保留至小数点后15位有效数字。
Q: 最终上传数据有时间顺序要求吗?
A: 时间顺序不影响最终成绩。
Q: 在order info 中重复出现的数据应如何处理?
A: 数据重复是因为同一个用户可能在一个10分钟片同一个地区发单被多次应答,但是这样的情况并不多,影响并不大。为了简化问题,重复的订单不需要去重,直接计入到缺口的计算中。
Q:为什么在POI信息表中有的类别没有用#区分?
A:不是所有设施级关系都是a#b:xx的格式,有的设施只有一级,而有的设施甚至有三级,#号只是表示分割层级的关系,如果是设施只有一级则为a:xx,而如果是2级则是a#b:xx,如果是3级则是a#b#c:xx,依次类推。
Q: 关于POI数据的分类一共分多少1级类目,多少2级类目,且是否有类目示意的对照表?
A: 这个问题的答案都在数据中,参赛者可以自行统计。类目对应信息其实不是很重要,重要的是分析其和目标的关联程度。
Q: 在同一个时间片,某个乘客产生了一个null订单,接着产生了一个有效订单,这个null订单是否计入gap中?
A: 这样的null订单会计入gap中,但是这样的情况不多,不会影响到总体预测任务。
Q: 在order_data表里面有一些区域的哈希值在map映射表中找不到匹配,这种情况该怎么处理?
A: 只需要按照映射表来获得需要预测的区域,无需关注其他区域。
Q: 在traffic_data里同一个地区的道路拥挤程度分为四级,但在不同时间片同一地区四个分级下路段的数量的总和不同,这是为什么?
A: traffic_data中总和不同的原因是,有些路段的拥堵情况采集时丢失了。
Q: 数据库中存在单一乘客ID在部分时间内发单数量巨大的极端例子,这是数据问题吗?
A: 这是因为之前通过其他方式叫车的部分用户没有登录,所以都是统一的ID,并不是数据问题。
高额补贴告一段落后,美团打车与滴滴出行的对比如何?
美团进军网约车市场已经一年有余。在去年2月份,美团开始在南京试点上线网约车服务,并于年底发布开城计划,在包括北京、上海、成都、杭州、温州、福州和厦门在内的7个城市启动“美团打车用户报名”活动。目前美团打车已经在南京和上海获得《网约车经营许可证》,其网约车业务也主要围绕这两座城市开展。和滴滴出行相比,美团打车在应用端(包括乘客端和司机端)上到底有着怎样的表现?极光大数据的统计结果可以为我们提供一些参考。
乘客端应用对比
全国范围:美团打车渗透率0.22%,滴滴出行渗透率14.47%
极光大数据的统计结果显示,截至6月30日,滴滴出行应用端在全国网民中的渗透率为14.47%,而美团打车则为0.22%。从曲线走势可以看出,美团打车在3月中下旬采取的高补贴政策对渗透率确实起到了短期的促进作用。但随着补贴额度缩减,美团打车应用端的渗透率走势已逐渐趋于平稳。
在DAU(日活跃用户数)指标上,滴滴出行在春节期间呈现节令性振荡,与春节前夕相比下滑超16%;节后滴滴出行的DAU数据逐步回升,在1,500万上下波动。在高额补贴政策的激励下,美团打车客户端的DAU数据在3月份显现出增长趋势;但随着补贴逐渐淡出,美团打车客户端的DAU数据也开始回落。在6月30日当天,滴滴出行的DAU数据达到1,468.2万;而美团打车为16.05万,和峰值相比下降超41%。
应用安装留存率数据显示,滴滴出行的7天安装留存率达到72.6%,而美团打车为30.2%。与此同时,滴滴出行的30天用户安装留存率达到65.8%,美团打车仅为25.3%。随着新用户的获取成本越来越高昂,如何通过运营手段留住用户将会成为美团打车后续必须考虑的问题。
极光大数据的统计结果显示,在全国范围内,美团打车应用端用户有78.6%同时装有滴滴出行应用端,而在设备上安装有美团打车应用端的滴滴出行用户占比仅为1.8%。结合两款应用的全国渗透率数据可以看出,滴滴出行在用户基数上的对比优势突出,美团打车对滴滴出行用户的渗透并不显著。
上海地区:美团打车渗透率6.51%,滴滴出行39.7%
从渗透率的曲线走势可以看出,美团打车应用端的渗透率在3月份出现明显增长后趋势有所放缓,滴滴出行在6月份出现明显增长。根据极光大数据的统计结果,截至今年6月底,美团打车应用端在上海移动网民中的渗透率为6.51%,滴滴出行达到39.7%。
美团打车3月份进入上海市场后,在当地实施高额补贴策略,其DAU的攀升趋势也随之显现,最高触及10.54万。随着补贴额度下降,美团打车应用端在当地的DAU开始下滑,后期数据趋于平稳。而滴滴在上海地区的DAU数据除春节期间出现节令性下滑以外,其它时期均较为稳定。截至6月30日,美团打车应用端在上海地区的DAU数值为7.05万,而滴滴出行为63.09万。
在上海地区的用户重合度方面,滴滴出行的对比优势依然显著。在上海地区的美团打车应用端用户中,同时安装有滴滴出行应用端的比例达到69.5%,但重合用户在滴滴出行应用端中的占比仅为16.7%。
南京地区:美团打车渗透率4.48%,滴滴出行渗透率27.13%
南京是美团打车业务的首个试点城市。在上半年,美团打车与滴滴出行在南京地区的渗透率均显现出上升趋势。根据极光大数据的统计结果,截至6月份,美团打车应用端在南京移动网民中的渗透率为4.48%,而滴滴出行应用端达到27.13%。
在南京地区,美团打车的DAU走势同样表现出冲高回落后趋于稳定的走势。滴滴出行在南京地区的DAU走势在经历过春节期间的回撤后快速反弹,后期数据与春节后相比有小幅增长。截至今年6月30日,美团打车在当地的DAU数值为1.98万,而滴滴出行则为35.4万。
尽管南京是美团打车业务运营时间最长的城市,但其应用端对于滴滴出行用户的渗透依然不显著。用户重合度结果显示,南京地区的美团打车应用端用户当中有78.6%同时安装有滴滴出行应用端,而美团打车应用端在后者用户群体中的渗透率则为8.9%。
司机端应用对比
全国地区:美团打车司机渗透率0.25%,滴滴车主2.53%
司机端应用的表现也可以透露出网约车平台的一些运营情况。根据极光大数据的统计结果,截至今年6月份,美团打车司机端在全国移动网民中的渗透率为0.25%,而滴滴车主则达到2.53%。
从DAU曲线走势可以看出,美团打车司机应用端的DAU走势与补贴的相关性非常明显。随着补贴额度降低,美团打车司机端的DAU也逐步回落,而滴滴车主端的DAU波动更多表现在春节期间的季节性下滑上。截止6月30日,美团打车司机端的DAU数值为13.5万,与峰值相比下降超50%。在同一时期,滴滴车主的DAU数据为480.87万,和5月份的峰值相比也有所下滑。
作为服务的需求方和提供方,乘客和司机可以说是网约车平台的最为关键的两个支点。对于平台而言,留住司机和留住乘客一样重要。根据极光大数据的统计结果,美团打车司机的7天安装留存率为54.5%,滴滴车主为76.6%。在同一观察周期,美团打车司机端的30天安装留存比例为33.7%,而滴滴车主达到68.4%。
在美团打车司机端用户中,有72.7%同时装有滴滴车主应用端。而在滴滴车主用户中,美团打车司机端的渗透率不足10%。
上海地区:美团打车司机端渗透率1.85%,滴滴车主3.01%
在上海地区,美团打车司机端的渗透率在4月份达到峰值后开始回落,而滴滴车主则呈现出平稳上升的趋势。截至今年6月份,美团打车司机端在上海地区的渗透率为1.85%,滴滴车主为3.01%。
在上海地区的DAU指标上,美团打车司机端的峰值出现在高额补贴期间。随着补贴额度下降,美团打车司机端在当地的DAU数值也开始缓慢回落。而滴滴车主的DAU数据经历过春节期间的季节性下滑后,呈现出震荡上升的趋势,后期数据趋于稳定。截至6月30日当天,美团打车司机端在上海地区的DAU数值为1.85万,而滴滴车主则达到14.2万。
根据极光大数据的统计结果,在上海地区的美团打车司机端用户中有57.4%同时安装有滴滴车主应用,滴滴车主应用端用户中有35.3%安装了美团打车司机端。
南京地区:美团打车司机端渗透率2.06%,滴滴车主4.49%
在南京地区,滴滴车主和美团打车司机在渗透率上均表现出上升趋势。极光大数据的统计结果显示,截至今年6月份,美团打车司机端在南京地区的渗透率为2.06%,滴滴车主为4.49%。从两款应用的数据表现看来,在南京地区的司机储备上,滴滴出行相较于美团打车要更为充裕。
在南京地区的DAU表现上,美团打车司机端已经趋于稳定。在春节期间,滴滴车主和美团打车司机的DAU数值均表现出季节性波动趋势,但滴滴车主的回撤幅度要更为显著。截至6月30日,美团打车司机端在南京地区的DAU数值为0.81万,滴滴车主达到7.94万。
用户重合度结果显示,在南京地区,76.1%的美团打车司机用户装有滴滴车主应用端,滴滴车主用户中34.9%的人群安装了美团打车司机端。
据招股书介绍,美团后续将会在包括上海、成都、厦门、温州、北京、南京、郑州、福州、杭州和潍坊在内的城市开展网络车服务,相比年初的开城计划增加了两个城市。但从全国和上海、南京地区的多维度对比结果看来,美团打车应用端与滴滴出行相比仍存在明显差距,网约车业务能否与美团点评的生活服务生态产生协同效应还有待进一步观察。
本站特约专栏文章,作者:极光大数据,本文链接:https://www.afenxi.com/57463.html 。内容观点不代表本站立场,如若转载请联系专栏作者。