12月11日下午,2015中国大数据技术大会(BDTC 2015)——华为大数据技术专场在北京顺利落幕。华为作为国内领先的大数据应用实战代表,在大数据行业落地方面已有了诸多实践案例,今年,华为派出了多位精英技术专家,就大数据技术创新与商业价值、推荐与预测技术应用实践、金融大数据、华为大数据平台商业实践等话题分享见解和案例。
华为张大震担任主持人
华为大数据云解决方案首席架构师 余虎
——《FusionInsight:业务驱动的开放大数据平台》
余虎带来主题为《FusionInsight:业务驱动的开放大数据平台》的演讲。他的演讲内容主要包括四个方面:(1)产业趋势与挑战;(2)业务驱动的大数据平台架构设计;(3)开放、可信、敏捷的大数据平台;(4)成功实践。
大数据已经成为“新常态”,从炒作阶段进入实质阶段,人们正在从“什么是大数据”转向“我怎么从大数据获取价值”,“我如何构建我的大数据战略”。大数据技术在企业级逐步得到实践,生态系统正在变得更加成熟。 现代企业需要从业务理解、数据科学、信息技术三个层面应对大数据面临的挑战。而 应对大数据挑战的关键在于:大数据分析应用、分析建模与算法、架构与平台技术。
而华为研发的FusionInsight是一款基于开源内核打造的统一大数据处理平台,提供混合负载处理能力,支持从批量、交互式查询、数据挖掘,到实时流计算和查询等各种大数据应用场景。其中创新的Carbon数据存储于分析技术,突破了大数据OLAP分析的性能瓶颈,性能提升5-30X。所有组件都通过FusionInsight Manager提供的插件框架按需安装。
在开源贡献方面,华为积极回馈社区,已进入全球第一阵容。在10月16日,华为最新对外开源了StreamCQL,一款建立在分布式流处理平台上的查询语言,架构支持构建在多种流处理引擎之上,目前主要适配Apache Storm,提供数据流的过滤、转换、拆分、合并等功能,以及基于窗口的统计、关联,用户采用类SQL方式开发业务,能够显著降低开发复杂度。
华为大数据建模研究主任工程师 汪芳山
——《增量/在线学习技术探讨及应用实践》
汪芳山主要分享了大规模机器学习在应用中的模型延迟与管理问题;增量/在线学习的出发点及目标;SAILS自适应大规模增量学习系统。
目前,大规模机器学习在应用中的模型延迟与管理挑战,主流模式是离线训练好模型,在线决策或者离线算法结果,在线使用结果。主要挑战在以下几个方面:
- 由于离线一般按天数或周期更长,模型与实际业务延迟大;
- 在大数据量情况下,每次新增数据如果全部合并到历史数据进行训练,资源消耗大,费时费力;
- 线上决策与训练隔离,无法利用用户反馈来及时调整模型;
- 模型的生命周期及有效性问题,如何能够自适应的判断模型的有效性;
因此,问题在于是否能够基于新数据,结合用户反馈,快速低成本的增量更新模型,适应业务变化需求。
对于SAILS自适应大规模增量学习系统,汪芳山总结到:对于非在线类应用,通过相对轻量级的Wrapper方法构建增量学习系统,在不降低效果的同时,能够极大幅度的降低计算量;对于在线类应用,优化后的算法和系统,在分布式情况下,有良好的收敛性,能够大幅度的提升效果,发挥大数据的价值。 此外,汪芳山还比较了Batch模式和Online模式在原理描述、主要适应场景和优缺点方面的差异性。
华为大数据系统架构师 李昆
——《基于Spark的实时分析创新:Carbon、Astro》
李昆的演讲包括几个方面:Spark介绍、华为大数据业务、基于Spark的创新:Carbon-高性能OLAP查询;Astro-实时数据分析。
Carbon: Hadoop Native的,针对OLAP分析优化的存储。它很好的解决了大数据OLAP分析痛点:(1)ORC/Parquet做OLAP分析存在短板;(2)无法很好对接BI工具。
作为一种新的文件格式和OLAP查询计算,Carbon主要特点在于:
- 根据数据模型提前组织好数据,用预处理时间换取查询时间:列存、分布式多维索引、倒排索引、智能预汇聚等
- 配合Spark SQL查询优化实现更多计算下压,秒级高性能ad-hoc查询,提升查询性能5~10倍
- 方便对接BI工具,SparkSQL根据SQL语句条件动态选择最优查询路径。
Astro:融入Spark生态的SQL on HBase 。
支持对HBase使用SQL进行查询和数据更新删除,与Spark生态无缝对接,支持查询结果用于DataFrame,ML,Graphx等库做深度分析。
华为个性化推荐首席架构师 张旭
——《推荐与预测技术应用实践》
张旭首先介绍了华为大数据产品平台总体架构:4+2。2表示数据治理和知识库,两个核心支撑几大应用:推荐,预测,营销以及商业智能。
张旭认为推荐平台是知识库是智慧中心的一部分。知识库包括用户画像、产品库、算法库、规则库等,都是在平台上可扩展的。推荐平台的核心是推荐引擎,由批处理和实时引擎沟通。
现场以用户分析方案举例。业务诉求是根据用户行为轨迹,识别用户家庭类型(家里是否有老人,是否有小孩等)进一步识别潜在用户群,提升渗透率。系统可以通过离线分析(视频大数据用户)+短信/外呼/线下营销(客户侧)的方式实现。
华为大数据架构师兼金融领域大数据首席技术顾问 盛允
——《华为大数据平台商业实践》
盛允着重讲解了华为大数据解决方案在运营商、公安、交通、教育、医疗、银行、保险、证券等领域的广泛应用。
移动互联网的全面兴起,金融和电信等传统行业转型需求尤为明显。利用大数据,可帮助这些传统行业快速完成业务转型,加快业务创新,并保证企业继续保持强劲的竞争力。
以银行为例,通过部署华为FusionInsight企业级大数据解决方案,历史数据管理、实时征信、实时事件营销、小微贷获客预测、理财产品精准推荐等创新金融业务陆续上线,在业务准确性、实时性,以及客户的满意度方面取得显著提升。
面向未来,华为仍将在大数据领域持续投入,并希望建立一个“万紫千红”的生态系统。华为致力于打造企业级大数据支撑平台,使其成为各行业创新的土壤,真正让数据“慧”说话,从而支撑各个行业的各种应用。
华为大数据分析技术专家 刘诗凯
——《自动化建模的应用》
刘诗凯的演讲包括:数据挖掘的回顾和展望、自动化建模的应用场景、自动化建模的实践。
其中自动化建模的实践,刘诗凯分别介绍了有监督和无监督的自动化建模:
有监督自动化建模:主要介绍了如何进行数据处理、特征工程、算法和参数选择,通过并行化数据处理优化执行速度,通过AUC选择数据处理方法;通过GBDT、深度学习等方式筛选、组合特征;通过GridSearch等方式进行算法参数搜索等。
无监督自动化建模:主要介绍了快速异常检测算法、可聚类自动分析及聚类参数搜索,特征的相似度度量等方法。
活动现场
互动问答
现场抽奖颁奖
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。