【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。
2015中国大数据技术大会首日全体会议中, 中国联通集团公司信息化与电子商务事业部副总经理、总架构师范济安在《网络与通讯大数据在行业应用领域的探讨》主题演讲中介绍了中国联通网络和通讯数据在跨行业中的应用情况。在数据采集上,中国联通会在不同的数据源分专业、分地域进行采集,并汇总到一点后进行加工、整合、存储、服务,其大数据优势有四点,(1)领先的大数据平台;(2)数据资产与数据能力;(3)大数据运营案例经验;(4)大数据质量与安全管控体系。
中国联通集团公司信息化与电子商务事业部副总经理、总架构师 范济安
接下来,他以“沃指数”产品系列中的“旅游指数”、“户外媒体指数”、“投资指数 ”为案例,揭示了中国联通大数据在跨行业中的应用。该系列行业指数由政府或行业权威机构与中国联通联合发布,中国联通提供基础数据及加工处理能力。可以作为行业发展指导决策依据,也可以为公众提供生活服务选择指南。
最后他介绍了中国联通大数据发展面临的技术挑战,如开源版本的持续化问题;解决数据安全与数据开放的矛盾;如何利用机器学习开发出在海量数据中识别非传统经验模式的程序;大数据应用的多租户及大数据平台的多租户管理与运营。他还预测了未来网络与通讯数据的应用发展趋势,(1)对多维空间的深度开发与利用;(2)基于大数据互联的机器学习;(3)由可穿戴设备和物联网带来的终极互联和数据爆炸
以下为演讲实录
范济安:各位领导、各位嘉宾、各位专家、同仁大家上午好,非常荣幸受中国计算机学会(CCF)的邀请在这里给大家介绍中国联通作为一个运营商怎样利用自己的网络与通信数据在跨行业方面的应用。刚才听到潘柱廷介绍的CCF大数据白皮书,也希望对当中的一些趋势预测做一些来自企业的诠释。
中国联通大数据现状分析
刚才王坚博士谈到了从PC的互联网已发展到移动互联网,作为运营商来讲在PC互联网之前,还有一个固话通话语音的时代,从固话通话语音的时代到PC互联网再到移动互联网,这三大网络基础设施像高速公路一样,我们能够得到哪些数据,既然大家谈到通讯与网络的数据,在过往我们所能够获得的数据,要沉淀数据,要把沙子变成金子。过往我们主要采集的是通话记录。宽带有了,在PC互联网的时代,我们采集到流量的日志,移动互联网上主要采集的数据除去通话记录和流量日志之外,还有位置轨迹信息,另外还有一个主要的数据来源是来自我们的业务支撑系统当中典型的包括CRM、计费等系统,通过它能够获取客户、产品、缴费等信息,刚才趋势当中讲到2016年的趋势是数据分享,在概念、愿望、现实之间很大的差距,为什么这么讲,实际上数据分享别说在社会上,在一个大型企业当中,在座有企业代表的话,大家也可能知道即使在大型企业当中,也有很多的数据孤岛,怎么样把数据汇集在一起让它产生数据整合后的乘法效应,中国联通是做到了把不同的数据源,比如刚才谈到的三张网之一业务支撑系统,进行分专业、分地域的采集并把它集中到集团公司数据中心的大数据平台上,进行一点的汇总,并进行加工、整合、存储及服务。作为三家运营商之一,中国联通数据规模有多大,首先从用户说起,刚才王坚博士说要知道每个人的情况不是公安局是中国移动,中国联通目前固话的用户有近8000万,近三亿的移动用户,这是我们数据的基础,在这之上通过数据采集和沉淀,刚才讲到挖,另外一个是炼,我们通过这些数据,基于4G用户全样本的数据提炼覆盖了9大类近三千多用户的标签,这些标签用来描述用户的基本信息、产品订购产品、终端使用情况,上网的使用偏好、位置信息等,同时我们通过这些数据对用户的上网信息进行数据解析,可以轻松的识别近两亿的网址,6万个互联网产品,同时能够识别两千多种不同手机品牌、类型、3.7万的终端类型,我们处理量每天日处理量是2700亿上网记录。
我们数据处理架构实际上是三层的架构,基于底层的数据采集、存储、加工的平台,我们建立了一整套的数据分析与挖掘工具,有针对用户的分析,语音的分析,比如采集客户服务的呼叫中心的语音录音数据,通过语音数据分析要把语音转成文本,再把文件词摘取出来,空间的分析,这些典型的就包括用户的位置,行为轨迹、日志的分析、网络分析等等。在这个之上我们开发了一系列的数据产品,在这个产品之上做出应用,这个应用是开放给不同的业务部门,不同的合作伙伴。
中国联通大数据发展历程和未来的规划是这样的,首先中国联通是倡导以一体化运营为目标,也就是刚才我谈到的数据集中,从集团总部的数据中心及所具备的基础应用开始,以对内应用为抓手进行大数据的应用,一切以数据为依据来做出我们正确的决策。然后逐步的向省份公司、向外部合作伙伴进行开放,从实践摸索出了一套具有联通特色的数据安全管理办法及数据运营规则及体系,同时也探索了业务应用的创新机制,从实践上来看,我们是分了三步,第一阶段是2012年到2013年,那个时候成立了集团的数据中心,开始尝试采集底层的以前没有采集的数据,并且尝试着,尤其像一些大数据应用。第二是2014年到2015年,主要打造大数据平台能力,开始专注做内部应用,同时尝试对外合作,从目前到未来也非常符合刚才白皮书里谈到的几个大的预测方向,第一刚才谈到了从概念到价值的演变,我们实现业务支撑到业务运营的转变,或者通过大数据进行价值的变现。从集团的数据中心转变成运营中心,赋予它市场与销售的职责。同时要定义部署大数据业务运营的创新体系,响应国家号召,做到万众创业大众创新。
最后这个小结,总结一下中国联通在大数据方面所具备的优势,第一就是领先的大数据平台,打造了国内领先的PB级的处理能力,一体化运营的大数据平台。第二个优势是形成了通过数据采集与沉淀,形成了一定的数据资产与数据的能力。特别是将全国范围的数据统一进行加工,通过开发数据产品形成资产,构建了统一的数据服务能力。第三个优势我们总结为基于上述的数据资产及平台能力,实践了大数据、跨行业的应用(一会我会谈到几个案例),尤其对外合作的应用,因为在互联网+的时代不光光是在电信内部的事情,还要讲跨行业的合作。最后一点是建立了端到端到一体化管控体系,数据采集是一个方面,如果我们不能保证数据的质量,数据的安全,实际上也是不能真正的发挥数据的价值,中国联通通过原数据及生产管控体系,对数据的质量及安全全面管理,并且探索了与云计算的密切结合,能够向外部和内部的合作伙伴提供多租户的安全方式。
中国联通大数据的跨行业应用案例
总结了联通的大数据现状与未来的规划以后,我想通过几个行业的应用案例来诠释一下怎样在数据共享,跨行业的整合方面做出一些大数据的典型应用。我们这个产品系列取了一个名字,联通的名字都是以沃打头,现在打造的是沃指数的产品系列,这个产品的主要思想是什么?不是中国联通去发布什么行业指数,而是由行业内有权威性的合作伙伴,或者政府和联通一起去打造各个行业的指数,这里比如说旅游指数和国家旅游局合作开发的旅游指数,户外媒体指数,与媒体界,投资指数,信用指数,金融指数,APP指数,终端指数,交通指数,这是一系列产品的体系当中可以包括不同行业的大数据应用。
举几个简单的例子,比如什么叫做旅游指数,旅游指数是以中国联通刚才我介绍的全量的数据为基础,深度融合了来自旅游监管部门,尤其是国家旅游局,省旅游局的需求来打造出来的这样一个综合性的旅游指数,它包括景区的等级,景区的天气情况,是由季节,通往景区的堵塞情况,游客的饱度,网上的关注度,客源的来源以及游客的消费能力等等多方面打造的一款旅游指数,它的目的一方面可以为旅游监管部门提供指导性的意见,另外同时可以为旅游企业及游客提供方便,实际上就像今天咱们听天气预报,一说天气预报是多少度大家就有一个概念,旅游指数这个概念从0到100分来算,80分以上是非常适合旅游的概念,50分以下最好待在家里。
既然这里我们谈到怎样来应用通讯和网络数据,旅游指数的数据的构成是什么?一方面是来自用户的基础信息,比如性别、年龄、职业、在网时长、套餐类型代表他的基础信息,很重要是人口的分布于流动这方面的数据,尤其是位置信息,基站的变化等等,还有游客的使用行为信息,通过上网行为的分析,通话的行为分析,短信等等得出来的结论。这方面我想说的是,不光来自运营商自己的数据,通过和国家旅游局打造一款综合的旅游指数,我们同时实现了数据共享,所以我觉得数据共享刚才谈到了几种模式,这是本人的一些看法,可能在目前为止简简单单做数据交易和数据交换,可能还是会有一些困难或者思想上的障碍,但是如果数据拥有的双方会有一个共同的应用目的,这样会比较容易的突进双方的数据共享,在这里我们就和旅游局共享一些景区他所掌握的一些旅游方面的数据。这款旅游指数是10月份由国家旅游局在贵州省山地旅游大会上进行了发布,当地政府非常支持大数据的发展。
第二个例子是户外媒体指数,什么是户外媒体指数,大家知道现在在城市各地有很多的户外电子广告牌,到底有多少人被这些广告牌、广告内容所吸引,这些用户看到广告以后的行为到底是什么,有没有效益,这是户外媒体指数想要达到的目的,他也是以中国联通的位置数据为基础,深入洞察用户的行为特征,从消费能力、工作与居住地、兴趣爱好等的方面对户外的媒体受众进行画像,创新推出户外媒体综合评价产品。户外媒体指数有位置信息,精确知道通过手机号码分析出他的上网行为,是不是看到广告之后就回家或者在他的手机上对所看到的内容进行搜索,通话及网上消费等等,这些都可以通过数据来进行整合和分析。
今年11月份,这是一项户外媒体指数的开发,是南方报业集团联合中山大学及广东联通同时开发的这样一款产品,通过这个也说明中国联通在这些方面持开放与社会各界,与行业权威机构进行开放和数据合作的另外一个案例。
最后我想说一下行业指数是投资指数,投资指数是基于中国联通对于用户的画像及行为分析,尤其对移动APP关注度、活跃度来给一些投资咨询企业提供这方面的信息。投资指数可以做什么呢,投资指数可以辅助投资行业判断及预测企业的趋势,寻找优质的资目标,降低投资风险。他的构成我刚才讲了除去来自运营商本身的业务及网络侧的数据之外,会结合些外部的数据,比如说一些主流网站的流量监测,应用市场、科技媒体、搜索引擎、社交网络、招聘平台等等动态数据,合作领域一般在面向B轮之前的专业投资机构,我们在这个方面是和,尤其在投资领域和36客进行了合作,36客在今年7月份发布了一款36客指数的投资产品。通过这些行业的应用大家可以看到,中国联通利用自己的数据和平台能力,与行业产业链进行合作,做好数据的共享及应用。
中国联通大数据发展面临的技术挑战
在最后,在大数据采集、整合、应用方面,中国联通在大数据的发展遇到了哪些技术挑战,一个挑战是开源版本的持续性问题,为什么我会提到这个问题?目前中国联通的大数据平台使用到了十几种二十几种开源软件,并做了一些深度的个性化的开发与优化,这时候大家知道这些开源版本,这些改动怎么样能够反馈回开源社区,能够保证我的版本持续的和开源版本保持同步,这是目前我们遇到的一个问题。因为它被这些个性化的开发融入到开源版本的时候也要经过一定的审批流程和很长的周期,可能和我们生产需求有一定的脱节,这是我们遇到的,这方面怎么样保证系统的稳定性及开放性,这是我们遇到的第一类的挑战。
第二类的挑战也是十大趋势当中反复提到的,就是怎么样解决数据安全与数据开放的矛盾,尤其大家知道数据开放,数据不像其他的产品,一旦提供出去之后到目前为止没有任何的技术手段去控制数据的重复使用及复制。所以现在大家讲的数据共享与开放都是说我用数据进行交易、交换,我们在和我们合作伙伴探索当中也涉及到除去数据的交换,能不能有另外一种模式,比如说双方都把各自的数据保留在各自的数据系统当中,保留在各自的数据中心当中。但是我们交流的目的是了解对方的数据架构,数据内容,数据模型等等,一旦了解之后能不能以一些分布式的跨域的远程可以调用的计算模式来进行交换、合作,这是一方面我们探索,也是遇到的技术挑战。大家知道当初是分布式的计算在各个结点上,这些结点可不可以分布在不同的地域,不同的数据拥有者,在我了解统一的数据结构之后,是不是能够通过计算进行一些数据方面的共享与合作。
另外我们实践之一是在数据中心当中的开辟数据特区,或者利用云计算以多租户的形式提供完全封闭性的,给外部合作伙伴使用的数据特区,如果利用样本数据开发完的模型,计算完的结果要拿走的话,怎样能够以安全快捷在线时时的方式对内容的合规性进行检验,这也是我们在数据安全与开放方面遇到的另一个挑战。刚才也反复谈到了深度学习,我们遇到的另外一个挑战就是如何利用机器学习和深度学习开发出海量数据终识别出非传统经验模式,这个模式很重要,我应该承认目前为止我们所做的那些数据挖掘工作建模工作的话,90%以上还是基于我们的专业知识、行业知识、行业经验来进行数据挖掘,能不能通过一些纯算法的方式来探索出数据之间潜在的关联性,比如说在我的通话记录当中能够通过纯算法的模式做欺诈的检测,目前受害严重的垃圾短信、电话诈骗,识别一些国家安全需要的一些场景,在保险理赔上偏保率很高,通过算法来发现欺诈的可能性。谈到人脸识别,在旅游、公安方面,对人脸方面有很大的需求,医疗诊断、网络优化等等,所以我们第二类的挑战是想通过算法、深度学习、机器学习满足这些方面的需求。
最后一点就是大数据应用的多租户,刚才反复谈到的及大数据平台的多租户管理与运用,面向外部的合作不可避免的要开放我们的大数据平台,要为每一个合作伙伴建立他要需要的空间。
最后结束语我想说的是:移动通讯使电信通讯变得越来越个性化,相比PC的互联网时代及固话的通讯时代。大数据与行业应用的结合通过刚才我所解释的案例,同样会让互联网+时代的用户得到前所未有的个性化体验。第二,未来网络与通讯数据的发展趋势有三个方面,一个是对多纬空间的开发与利用,尤其位置和空间信息。第二个方面是基于大数据互联的机器学习,刚才已经反复谈到这一点。第三目前我们预测在手机时代的移动互联网的下一个发展方向是可穿戴设备,是物联网,这个时候带来的终极互联和数据爆炸是第三个发展趋势的分享。
数据跨地域跨行业的整合将会产生乘法效应,所以我们极力参与到数据共享的大潮流当中,中国联通是一家将全国数据集中采集、集中运营的电信运营商,同时致力于数据的对外开放与合作,为互联网+的创新时代贡献力量,谢谢大家。
更多精彩内容,请关注直播专题2015中国大数据技术大会(BDTC) ,新浪微博 @CSDN云计算 ,订阅 CSDN大数据 微信号。