BDTC 2015——华为大数据技术专场在京顺利落幕

12月11日下午，2015中国大数据技术大会（BDTC 2015）——华为大数据技术专场在北京顺利落幕。华为作为国内领先的大数据应用实战代表，在大数据行业落地方面已有了诸多实践案例，今年，华为派出了多位精英技术专家，就大数据技术创新与商业价值、推荐与预测技术应用实践、金融大数据、华为大数据平台商业实践等话题分享见解和案例。

华为张大震担任主持人

华为大数据云解决方案首席架构师余虎

——《FusionInsight：业务驱动的开放大数据平台》

余虎带来主题为《FusionInsight：业务驱动的开放大数据平台》的演讲。他的演讲内容主要包括四个方面：（1）产业趋势与挑战；（2）业务驱动的大数据平台架构设计；（3）开放、可信、敏捷的大数据平台；（4）成功实践。

大数据已经成为“新常态”，从炒作阶段进入实质阶段，人们正在从“什么是大数据”转向“我怎么从大数据获取价值”，“我如何构建我的大数据战略”。大数据技术在企业级逐步得到实践，生态系统正在变得更加成熟。现代企业需要从业务理解、数据科学、信息技术三个层面应对大数据面临的挑战。而 应对大数据挑战的关键在于：大数据分析应用、分析建模与算法、架构与平台技术。

而华为研发的FusionInsight是一款基于开源内核打造的统一大数据处理平台，提供混合负载处理能力，支持从批量、交互式查询、数据挖掘，到实时流计算和查询等各种大数据应用场景。其中创新的Carbon数据存储于分析技术，突破了大数据OLAP分析的性能瓶颈，性能提升5-30X。所有组件都通过FusionInsight Manager提供的插件框架按需安装。

在开源贡献方面，华为积极回馈社区，已进入全球第一阵容。在10月16日，华为最新对外开源了StreamCQL，一款建立在分布式流处理平台上的查询语言，架构支持构建在多种流处理引擎之上，目前主要适配Apache Storm，提供数据流的过滤、转换、拆分、合并等功能，以及基于窗口的统计、关联，用户采用类SQL方式开发业务，能够显著降低开发复杂度。

华为大数据建模研究主任工程师汪芳山

——《增量/在线学习技术探讨及应用实践》

汪芳山主要分享了大规模机器学习在应用中的模型延迟与管理问题；增量/在线学习的出发点及目标；SAILS自适应大规模增量学习系统。

目前，大规模机器学习在应用中的模型延迟与管理挑战，主流模式是离线训练好模型，在线决策或者离线算法结果，在线使用结果。主要挑战在以下几个方面：

由于离线一般按天数或周期更长，模型与实际业务延迟大；
在大数据量情况下，每次新增数据如果全部合并到历史数据进行训练，资源消耗大，费时费力；
线上决策与训练隔离，无法利用用户反馈来及时调整模型；
模型的生命周期及有效性问题，如何能够自适应的判断模型的有效性；

因此，问题在于是否能够基于新数据，结合用户反馈，快速低成本的增量更新模型，适应业务变化需求。

对于SAILS自适应大规模增量学习系统，汪芳山总结到：对于非在线类应用，通过相对轻量级的Wrapper方法构建增量学习系统，在不降低效果的同时，能够极大幅度的降低计算量；对于在线类应用，优化后的算法和系统，在分布式情况下，有良好的收敛性，能够大幅度的提升效果，发挥大数据的价值。此外，汪芳山还比较了Batch模式和Online模式在原理描述、主要适应场景和优缺点方面的差异性。

华为大数据系统架构师李昆

——《基于Spark的实时分析创新：Carbon、Astro》

李昆的演讲包括几个方面：Spark介绍、华为大数据业务、基于Spark的创新：Carbon-高性能OLAP查询；Astro-实时数据分析。

Carbon: Hadoop Native的，针对OLAP分析优化的存储。它很好的解决了大数据OLAP分析痛点：（1）ORC/Parquet做OLAP分析存在短板；（2）无法很好对接BI工具。

作为一种新的文件格式和OLAP查询计算，Carbon主要特点在于：

根据数据模型提前组织好数据，用预处理时间换取查询时间：列存、分布式多维索引、倒排索引、智能预汇聚等
配合Spark SQL查询优化实现更多计算下压，秒级高性能ad-hoc查询，提升查询性能5~10倍
方便对接BI工具，SparkSQL根据SQL语句条件动态选择最优查询路径。

Astro：融入Spark生态的SQL on HBase 。

支持对HBase使用SQL进行查询和数据更新删除，与Spark生态无缝对接，支持查询结果用于DataFrame，ML，Graphx等库做深度分析。

华为个性化推荐首席架构师张旭

——《推荐与预测技术应用实践》

张旭首先介绍了华为大数据产品平台总体架构：4+2。2表示数据治理和知识库，两个核心支撑几大应用：推荐，预测，营销以及商业智能。

张旭认为推荐平台是知识库是智慧中心的一部分。知识库包括用户画像、产品库、算法库、规则库等，都是在平台上可扩展的。推荐平台的核心是推荐引擎，由批处理和实时引擎沟通。

现场以用户分析方案举例。业务诉求是根据用户行为轨迹，识别用户家庭类型（家里是否有老人，是否有小孩等）进一步识别潜在用户群，提升渗透率。系统可以通过离线分析（视频大数据用户）+短信/外呼/线下营销（客户侧）的方式实现。

华为大数据架构师兼金融领域大数据首席技术顾问盛允

——《华为大数据平台商业实践》

盛允着重讲解了华为大数据解决方案在运营商、公安、交通、教育、医疗、银行、保险、证券等领域的广泛应用。

移动互联网的全面兴起，金融和电信等传统行业转型需求尤为明显。利用大数据，可帮助这些传统行业快速完成业务转型，加快业务创新，并保证企业继续保持强劲的竞争力。

以银行为例，通过部署华为FusionInsight企业级大数据解决方案，历史数据管理、实时征信、实时事件营销、小微贷获客预测、理财产品精准推荐等创新金融业务陆续上线，在业务准确性、实时性，以及客户的满意度方面取得显著提升。

面向未来，华为仍将在大数据领域持续投入，并希望建立一个“万紫千红”的生态系统。华为致力于打造企业级大数据支撑平台，使其成为各行业创新的土壤，真正让数据“慧”说话，从而支撑各个行业的各种应用。

华为大数据分析技术专家刘诗凯

——《自动化建模的应用》

刘诗凯的演讲包括：数据挖掘的回顾和展望、自动化建模的应用场景、自动化建模的实践。

其中自动化建模的实践，刘诗凯分别介绍了有监督和无监督的自动化建模：

有监督自动化建模：主要介绍了如何进行数据处理、特征工程、算法和参数选择，通过并行化数据处理优化执行速度，通过AUC选择数据处理方法；通过GBDT、深度学习等方式筛选、组合特征；通过GridSearch等方式进行算法参数搜索等。

无监督自动化建模：主要介绍了快速异常检测算法、可聚类自动分析及聚类参数搜索，特征的相似度度量等方法。

活动现场

互动问答

现场抽奖颁奖

欢迎大家继续关注慧邮件邮件营销平台，也可以在我们的慧邮件官网了解更多邮件营销技巧，大数据知识，也可以通过电话：400-666-5494联系到我们，更多精彩知识、活动等着你。

首页>> 正文

热门资讯

BDTC 2015——华为大数据技术专场在京顺利落幕

相关阅读