数据科学开启“地下城”的智慧交通
随着我国经济的高速持续发展,中国城市轨道交通市场在未来很长一段时间内处于建设高峰。 据不完全数据统计显示,2017年,北京、广州、深圳、南京、苏州、青岛、杭州等30座城市轨道交通新增63条即将开工线路。
城市轨道交通需求不断增加,相应的地铁项目、城域铁路项目需求也随之暴增。由于轨道建设具有工期长、投资高、运营成本大等特点,因此有必要进行轨道客流预测,才能从定量的角度进行经济、环境和社会等各个角度的分析和评价,进而评价轨道建设项目的可行性和实施效益。对客流的动态变化进行实时跟踪和系统分析,掌握客流变化规律是轨道交通系统运输组织工作得以顺利进行的前提。
地铁这座“地下城”能使人、车、路、环境之间每时每刻互联互通, 在运营过程中产生了海量繁复的数据,比如个人行为、时序、地铁乘客稳定性、乘坐地铁的距离、站点信息、乘车费用等,这些地铁数据将成为我们预测轨道客流趋势的重要依据。
个性出行预测分析
下面我们以北京地铁为例来谈一谈典型的应用场景——个性出行预测分析。
北京地铁的复杂度和客流的复杂度在全国居首,千万人次的日客流量已成为常态。由于地铁系统的客流量数据规模较为庞大,如果基于传统的OD数据做整体宏观的分析,则可以建立较为简单的预测模型,但准确率较差;所以需要考虑是否能够通过现有的大数据分析技术来对个体出行记录进行预测分析,从而使客流量的预测过程更加高效,同时预测结果也更为准确。
我们将通过SaCa RealRec数据科学平台对样本数据进行分析、特征提取、用户建模,实现对个体卡用户进行实时进出站精准预测的功能,从而能够基于个体预测做某个站点的宏观客流预测。
如上图过程,我们选择决策树模型对卡用户进站站点进行预测,其主要流程如下:
原始数据特征抽取
基于SaCa RealRec数据科学平台提供的多维特征分析功能组件,可以方便的过滤原始数据中记录不足的用户,并将连续数值处理为离散特征,如“时间”特征的离散化。
构建多维特征向量
个体用户出行行为具有较强的个性化规律化特点,基于SaCa RealRec数据科学平台强大的分布式计算能力,可以为每一卡用户构建个性化的预测模型,最终实现大规模增强学习模型。
针对构建完成的机器学习模型, SaCa RealRec数据科学平台的评估系统对决策树预测错误的情况进行分析。根据评估结果的反馈,可以指导运营人员对决策树构建过程进行优化,通过设置树节点的可信度阈值来对决策树进行剪枝,经剪枝后SaCa RealRec数据科学平台能够实现用户进站预测97.9%的准确率,大大提高了用户出行行为的预测能力。
在以上应用场景中,依托SaCa RealRec数据科学平台对轨道交通用户出行多维度数据进行分析挖掘,提取出与用户进站的相关因素,并利用上述特征通过机器学习算法对用户出行数据建模,从而达到对用户进站站点进行实时监控预测。
在轨道交通地铁出行领域,还有许许多多的场景等待利用大数据技术去解决,比如帮助客户更加高效管理运维轨道交通运行规划,实现轨道交通的高效高吞吐量运行,增加公共交通的运载能力,为市民提供更加便捷满意的出行方案等。
充分利用大数据挖掘、数据可视化分析等技术更好地建设智慧型轨道交通,将促进城市智慧交通的快速发展,为缓解城市交通拥堵状况,改善交通环境创造无限可能。
关于SaCa RealRec
SaCa RealRec 数据科学平台聚焦大数据智能战略的高级分析与预测服务平台,基于大规模机器学习算法库等数据科学相关技术,提高企业构建智能应用的能力及效率,简化复杂机器学习算法的使用成本,从而帮助企业实现数据驱动的商业模式。更多数据科学平台内容了解