2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 ( Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。
2015中国大数据技术大会第三天的交通与旅游大数据分论坛中,来自北京市交通运行监测调度中心、神州专车、高德、 携程、途牛、途家的六位专家与教授分享了政府和企业利用大数据在交通与旅游方面的实践。本次论坛由CSDN副总编董世晓主持。
CSDN副总编 董世晓
北京市交通运行监测调度中心副主任张可:北京市综合交通运行数据体系建设与应用
北京市交通运行监测调度中心(TOCC) 建成于 2010年底,2011年5月机构设立,是北京市综合交通运输协调体系的重要组成部分。现已形成运行监测体系、协调调度体系、信息服务体系为一体的总体业务格局。
北京市交通运行监测调度中心副主任 张可
张可谈到北京市面向综合交通运行分析的监测数据体系。针对庞大的基础数据内容和数据量,重点围绕综合交通监测及运行分析需求,通过对数据层的归纳梳理,结合数据来源、数据接入方式统一设计数据存储结构。围绕城市路网区域和路段的运行特征,构建了交通指数、运行速度、拥堵持续时间等7个指标项;根据AFC和运营数据,构建轨道交通动态客流指标、轨道交通客运量指标、轨道列车运行指标;通过出租车GPS数据和计价器数据,构建出租车运力指标、运营特性指标、运营安全与规范指标;通过对交叉领域关联性较强数据项之间的深入挖掘,提出了反映城市综合交通运行特点的相关指标,如轨道交通客运量占比、公交运送速度比、城际客运量及占比等综合指标定制化多粒度复合特征提取。
该中心同时建立了集综合交通动态运行监测分析、视频资源管理应用、公众信息统一发布于一体的省级综合交通运行监测业务平台。其中视频资源管理应用平台包括数字化的视频资源管理平台、基于GIS的视频应用平台、基于图像智能提取技术的视频智能分析平台。统一的公众信息发布平台通过信息获取、信息编辑、信息审核、信息发布、信息归档、发布渠道对接、统计分析实现进真正一体化的、多方式的综合出行服务。在整合既有交通行业在线服务的基础上,集成公交、公共自行车、轨道交通、省际客运、航班、铁路、停车等多种方式。
演讲结尾,张可表示未来北京市交通运行监测调度中心将开放共享数据资源与仿真工具环境,为交通数据专业机构和人员提供从综合交通数据查看、导出、分析、仿真和可视化展示的一体化支撑。
神州专车首席架构师李思:神州专车时空大数据处理实践
神州专车首席架构师李思带来的分享“神州专车时空大数据处理实践 ”。神州专车是一个成立于今年年初的互联网出行企业,目标是提供高端的出行体验。神州专车中:安全是基础,管理和技术双管齐下,以严格的制度对司机进行管理和通过车联网监控减少不良驾驶行为,确保行车安全;效率是关键,通过改进技术提高司机效率、订单满足率、车辆利用率;增长是目标,对用户行为的量化分析,实现精确营销。
神州专车首席架构师 李思
整体架构中,通过车联网/OBD收集数据并进行实时处理;同时离线分析机器学习形成预测模型对服务前端进行调度、定价;司机/乘客前端请求返回到调度、财务等子系统内,再次进行数据分析。后面有一套商业智能处理分析系统,以MySQL方式数据聚集在数据库中,最后生成业务报表。同时在前端收集了很多用户的访问日志,形成一个用户事件流,方便对用户行为进行分析。通过驾驶行为分析与报警以确保用户乘车安全;对司机油耗、有效里程分析等方式提高效率。空间上进行网格化划分,网格内部按时间对供给和需求预测,提高调度效率;用户数据分析平台通过用户历史订单、访问日志、优惠券的领取和使用情况、社交网络的分享记录等数据分析实现用户画像和精准营销。具体的构建方法为:
- 将用户操作以及由其引发的系统状态变化都定义为事件;
- 把多个异构数据源中的事件按用户聚集;
- 把同一用户的事件按时间发生的时间排序,成为用户事件流;
- 按业务需求定义一批基于用户事件流的基本函数(API);
- 使用Hive或者MapReduce进行数据分析。
演讲最后,李思分享了神州专车在大数据处理方面的心得。对于初创型企业,会存在有租用机房资源偏紧、大规模营销活动容易造成系统过载等问题。这时企业可与第三方企业和高校有紧密合作,同时可将非核心部件(降低系统部件之间的耦合度)、大规模营销活动、第三方合作、短时的计算密集型任务在云上部署(Iaas),达到安全性提高、可靠性提高、灵活性提高、成本可控的效果。
高德交通大数据资深专家方兴:大数据如何指导旅游出行
高德交通大数据资深专家方兴演讲主题是“大数据如何指导旅游出行”。高德所生产的、所消费的全部都是数据。通过这些数据我们能够更好的理解出行、地理信息以及相关的服务,为日后的商业提供更好的支持。
现场,方兴展示数据分析得出的国内交通状况。高德地图通过实时数据处理,实现实时路况与事件、实时交通与导航。高德是数据公司,所有的工作都是围绕着数据完成的,最底层的也是传统的信息系统最核心的部分就是地理信息。其技术架构也是业务架构包括:前台应用在线服务,包括导航、定位、搜索、导航、实时交通等等。每一个服务单独拿出来都是一套非常庞大的系统。最前端主要是分成几大块,第一大块就是高德地图应用APP。第二块是开放平台,为第三方的合作伙伴提供开放的数据接口,提供导航服务、公交服务、定位。第三块就是最近着重做的车联网,车载设备,未来的汽车里面内置。第四块中国苹果地图的所有数据都是由高德提供的;Hbase、阿里RDS、缓存等技术实现在线数据存储;核心数据统一存储方面,利用阿里ODPS(由5000个节点构成的集群)支持SQL/MR/Spark/Storm多种方式,平台的数据每天都会会合到ODPS上,然后可以进行分钟级的数据报表、数据生成、数据发布。整个地图引擎、导航引擎、实时交通引擎都是通过这种方式来工作;同样利用TT生产服务器实时日志采集。
高德交通大数据资深专家 方兴
基于这些数据,高德做了很多数据挖掘方面的工作:一是通过结合轨迹热力图与现有路网,发布新路与过期路信息;二是通过分析通车流量变化和用户上报事件,对封路和交通事件实时监测;三是对历史车速的分析,构建道路速度模型,用来做路况预测。这些方式方法进行关联以后,可信度或者质量、准确度就会有很大的上升。有了这些方法,用户在做路线规划或者确定旅行时间就会更加精准。
高德地图通过数据挖掘可以面向交通,面向用户的出行提供更好的服务,未来的愿景就是实现智能交通。
携程基础大数据高级数据分析经理于磊:携程基础大数据架构实践
携程基础大数据高级数据分析经理于磊分享的是“携程基础大数据架构实践”。在OTA行业对于电商公司,可能它的大数据应用相对来说还是比较简单的。比如携程网站,它有15、16个业务线,但是如果打开京东或者天猫一号店,会发现它的类目项有4000多个。
OTA公司数据具有业务线差异大、复杂度高等特点,其大数据落地场景往往是分析报表、AB test平台、用户中心、个性化推荐栏位、精准化运营等方面。目前携程中有着20个BU以及相应的数据团队,但同样面临着数据来源多、标准不一、ETL流程管理困难、全司级跨BU数据使用困难等问题。
携程基础大数据高级数据分析经理 于磊
目前携程大数据架构中,大数据架构共分为精准化应用层、通用化配置层、算法引擎层、日志层、数据源层五层。其中数据源层用于规范埋点注册、生成,以及进行环境实时校验(事前)、ETL数据校验(事中)、离线校验告警(事后);日志层中利用Trace MQ (Kafka等)进行离线 & 实时数据接入,并开放了MQ、API Service、Hive 表对外接口;算法引擎层中,通过离线用户画像、相似相关商品、规则挖掘、主题挖掘(HBase、Redis)方式和实时:用户意图(HBase、Redis)分析,以及Hive、ES等方式,实现范验证画像审核、ETL 中Schema识别、测试环境血缘审核;通用化配置层以选人魔方(广告、 SMS、APP推送、EDM)、个性化推荐平台、选品平台等通用化精准营销平台(开发中),实现数据出口;精准化应用层用于推荐栏位和个性化广告投放。
目前携程实现了数据支点的元数据管理、数据规范、统一维表、统一数据接口、标准化指标、安全管理数据治理流程。 元数据标准流程:目前携程做了一些自动化的流程方面的管理。在各个团队创建数据表时,统一采集数据的Schema,跟定期存储的数据进行比较;统一监控ETL之间、流程与流程、交付与交付之间的关系。当一个数据源或者流程的schema有可能影响到其他的ETL或者其他团队的工作,能被监控出来;通过血缘分析,通知下游。
在QA环节,于磊对与会嘉宾提出的埋点技术和用户推荐时考虑的维度进行了详细的解答。
途牛大数据总监孟敬慈:途牛旅游大数据应用实践
途牛大数据总监孟敬慈进行了题为“途牛旅游大数据应用实践”的演讲。他的演讲分为途牛业务模式、旅游行业特性 、数据解决方案三部分展开。目前途牛业务模式分为旅游电商、金融科技、影视传媒三块。目前作为重心来说最主要还是途牛旅游这一块。途牛最早是从跟团自助做起,跟携程的模式不一样,现在也有机票、酒店、门票、签证、wifi,但是传统上来说最主要是跟团和自助。
途牛大数据总监 孟敬慈
旅游行业具有非标准化、高/低频次、强时效性+高客单价特点。旅游是非标准性产品,由此可产生非标准化衍生需求:资源如何组合?途牛在这方面采用的是产品 到相似产品推广和资源到关联资源自动打包、交叉销售的方式。他谈到,途牛并非完全低频,至少在APP时代,应是处于高低频之间。途牛有一个目的地资源,基于LBS的推荐系统,可向用户推荐旅游周围的演出或者吃喝玩乐实现travel goes mobile。在供应商短已经做到较高频次,途牛供应商平台N-Booking现已有注册用户数几万、SKU通过NB录入占比85%以上、SKU数达几百万、订单NB确认率95%以上。
接下来, 孟敬慈谈到了供应商金控模式,采用旅游业平台+投资机构和旅游业供应商利用平台数据共同投资模式。旅游产品时效性等特性衍生出风险管理与价格管理需求,产生了对应的风险管理、价格管理的定量解决方案、新的产品与模式。他主要介绍了最优库存与定价策略和收益管理策略。售前:确定销售期之前需采购的初级库存最优量,作为与供应商谈判的目标,同时制定与最终获取库存量相应的价格策略;售中:销售期进入到一定阶段后,若销量显著高于售前预期,计算需要补进的次级库存最优量,以及相应定价策略,若销量显著低于预期,调整价格策略并进行相应措施。在收益管理中,将市场细分为商务旅客和休闲旅客,制定不同的定价策略,差异化推送产品,具体地实施方案为Demand Forecast和Inventory Allocation两种。演讲最后他总结到旅游产品与金融需要紧密结合,才能做到最好的收益管理。
途家BI总监秦涌:途家网数据分析的商业实践
途家BI总监秦涌分享的题目“途家网数据分析的商业实践”。他简单介绍到途家是全球公寓民宿预订平台,在国内覆盖265个城市,海外1038个城市。他本次分享的重点在于:数据的价值在于技术和商业的结合;数据在技术方面纵深发展,在商业实践方面百花齐放。秦涌本次演讲通过分享4个途家网在商业实践方面的案例,与大家探讨:“数据如何在商业层面达到和业务的互动”。
途家BI总监 秦涌
和传统的OTA相比,途家业务具有3+人以上的家庭出游的度假需求占比较多;30种产品类型可供选择:公寓、复式、别墅、游艇等;20%的用户决策周期(从开始浏览到购买)超过1天三个特征。因此需要解决度假需求往往没有明确的目的地或比较模糊,需要帮助用户解决“去哪里”的问题;产品类型多,需要帮助用户确定“住什么房子”:用户决策慢,需要帮用户加速决策,回答“这些房子怎么样”三个问题。
通过对“去哪儿”案例一中的数据分析,途家得出以下三个特点:
- 不管任何时候,同城预订订单占比很大;
- 大部分时候,周边游仅次于同城预订;
- 城市之间的往来度假是有规律的:进入冬天,东北和西南去三亚的人增幅最大。
因此,途家对应的开展了三个业务应用:
- 在途家PC首页根据用户所在地,做了目的地智能推荐;
- 智能推荐里面明确了本城市房屋推荐、城市周边推荐,其他城市推荐;
- 加强了线下门店的同城品牌推广。
案例二中,通过收集用户历史的数据发现规律。根据总结出来的规律,赋予每个房屋适合的出行目的,便于用户选择。案例三中,加强用户信息需要一些感性的评价:阅读评论,但有两个问题:评论文字多,且一般在靠后的流程(详情页)。通过文本挖掘,概括了每个房屋的印象,并提前到了列表页展示。
这些案例紧紧围绕途家业务,设计计算方法,输出分析结果、并落地驱动业务作出改善,秦涌给出3个启示:一是数据分析的出发点一定和具体业务相关,如测量业务与预测业务;
二是数据分析没有固定的方法,测量业务往往是在深度理解业务的基础上的简单运算,数学模型常使用在业务预测上;三是数据分析人员在业务单元的轮岗是提升数据分析结果的价值、加强数据和业务互动的有效办法。
更多精彩内容,请关注直播专题 2015中国大数据技术大会(BDTC) ,新浪微博 @CSDN云计算 ,订阅 CSDN大数据 微信号。
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。