为了更好帮助企业深入了解国内外最新大数据技术,掌握更多行业大数据实践经验,进一步推进大数据技术创新、行业应用和人才培养,2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)将在北京新云南皇冠假日酒店隆重举办。
2015中国大数据技术大会
BDTC 2015将为期三天,在大会主会之外,拟设立16个分论坛,包括数据库、深度学习、推荐系统、安全等6大技术论坛,金融、制造业、交通旅游、互联网、医疗健康、教育、网络通讯等7大应用论坛,以及政策法规和标准化、数据市场及交易、社会治理等3大热点议题论坛,将邀请近100位国外大数据技术领域顶尖专家与一线实践者,深入讨论Spark、Kudu、PosgreSQL-X2、YARN、HBase、机器学习/深度学习、推荐系统等热门技术及行业实践。
在 推荐系统 论坛,本次大会邀请到了 百度基础架构部高级架构师沈国龙 担任演讲嘉宾,进行题为“ BML百度大规模机器学习云平台实践 ”的主题演讲,分享百度机器学习平台BML的底层框架实现,包括框架演进、算法研究过程等,以及在不同的业务场景下是如何应用这些算法。
沈国龙在接受CSDN的会前采访中表示,大数据其实是一个综合学科,开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式,到微积分、统计、机器学习理论、算法知识、算法调优经验,更重要的是对行业的理解,才能让大数据成功的落地。
对于推荐系统,他认为,覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等,都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。
他还透露,深度学习、在线学习都是他的团队最近在研究的方向。前者比经典算法在特征组合和模型表征上有很大的优越性,更适用于数据维度越来越多的当下,后者主要是为了解决模型迭代速度,使最新的数据更快更好的反映到模型中。同时,他还关注在不同行业数据中,算法的组合应用如何取得最好的效果。
沈国龙
百度基础架构部高级架构师
沈国龙,百度基础架构部技术经理、高级架构师。有多年大数据、商业智能、机器学习的研发经验,在广告、推荐等业务领域有深厚的知识积累。先后负责百度大规模机器学习算法平台BML、分布式计算框架ELF、百度深度学习平台Paddle等的设计研发,在提升机器学习算法分布式计算规模和效率的同时,这个产品组合支持了百度所有重要部门的机器学习需求,先后成功上线上百个智能应用。作为技术负责人参与了百度广告系统大规模模型训练、广告触发、百度搜索结果排序、移动云渠道反作弊等战略级核心项目,取得了巨大的收益。同时担任百度开放云大数据解决方案架构师,为合作伙伴提供广告、推荐系统、自然语言处理等领域的专业技术支持。
以下为沈国龙采访实录:
CSDN:请介绍一下您的工作,以及大数据、推荐系统对公司业务的价值。
沈国龙: 我的工作有两个方向,一是大规模机器学习平台的建设和业务支持,包括框架、算法、平台的设计和开发,特定业务场景的模型训练和调优等;二是为百度开放云的用户提供大数据解决方案和相关产品。
百度拥有海量的用户和流量,任何产品都会面临到大数据的问题。如何使用好大数据,并构建出优秀的转化率模型、推荐系统等智能应用,是决定产品成败的关键。百度最重要的搜索和广告业务,都需要大数据的支撑,优化搜索结果和广告的排序,也属于广义上推荐系统的范畴。所以我们是非常重视相关的系统建设,也做了非常多的创新。
CSDN: 能否介绍您在项目实施中曾使用过哪些大数据技术?您对这些技术满意的地方和不满意的地方分别有什么?
沈国龙: 作为百度的基础架构部门,在优秀大数据的技术上都有投入,比如hadoop、spark、MPI,我们的规模都做到了世界领先。还有自研的一些大数据计算框架,比如处理流式数据的Dstream、TM,机器学习的计算框架ELF等等。这些产品和技术是我们处理大数据必备的。我对这些产品的性能和易用性都很满意,利用百度的这套系统,可以很容易的处理各种大数据问题,搭建服务。
CSDN: 能否分别从软件、硬件、开发者的角度谈谈,大数据在您的行业落地目前主要面临哪些挑战?
沈国龙: 大数据虽然听起来很美,但要落地有很多的问题。硬件成本高,是很多初创公司面临的首要难题。搭建一套从原始数据处理,到数据分析,再到模型训练、调研,最后到模型上线和迭代,需要大量的存储和计算资源,对于初创企业,自建IDC实施和运维,是非常昂贵的。软件层面的问题相反,是开源社区特别活跃,各种工具层出不穷,选择成了最大的难题,要付出很大的学习成本,并且要承担日后数据量更大之后系统全面推倒升级的风险。大家现在基本都会选择云作为解决方案,百度开放云也提供了整套的大数据产品组合。大数据其实是一个综合学科,开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式,到微积分、统计、机器学习理论、算法知识、算法调优经验,更重要的是对行业的理解,才能让大数据成功的落地。
CSDN: 评估一个推荐系统好坏的指标有哪些?技术人员容易犯哪些错误导致推荐系统实践的失败?
沈国龙: 指标有很多,比如覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等,都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。所以技术人员不能够认为推荐系统只需要一个auc不错的模型就够了,这是一个非常复杂的系统,要以最终的收入指标为准,做完备的AB测试才能够逐步把系统调节到最优的效果。
CSDN: 针对您所在的行业,哪些大数据技术、推荐算法是您目前主要观察和研究的,您为什么看好这些技术?
沈国龙: 深度学习、在线学习都是我们最近在研究的方向。深度学习作为机器学习现在最热门的方向,比经典算法在特征组合和模型表征上有很大的优越性,在数据维度越来越多的情况下,深度学习更能胜任。当然计算复杂度和模型调优的难度也随之上升。在线学习主要是为了解决模型迭代速度,使最新的数据更快更好的反映到模型中。同时我们也在关注在不同行业数据中,算法的组合应用如何取得最好的效果。
CSDN: 请谈谈您在这次大会上即将分享的话题。
沈国龙: 我会分享百度机器学习平台BML的底层框架实现,包括我们的计算框架演进的历史、最新的ELF有哪些特点、算法的研发过程等等。另外,重点讲我们在不同的业务场景下是如何应用这些算法,最终达成业务目标,算是一个案例讲解。相信能给大家带来一些启发。
CSDN: 哪些听众最应该了解这些话题?您所分享的主题可以帮助听众解决哪些问题?
沈国龙: 基础架构的架构师,算法开发人员,数据分析师,产品运营人员,都可以了解这些知识。这可以帮助听众对机器学习在企业内如何落地有一定认识,并且了解大数据现在的主流趋势,对未来的开发和决策都有帮助。
CSDN: 能否谈谈您对BDTC2015、其他的讲师分享的话题有什么期待?
沈国龙: 希望能够了解下如火如荼的大数据和人工智能创业公司,是如何解决技术和行业应用之间的gap的。
90+位讲师,16大分论坛,Databricks公司联合创始人、Apache Spark首席架构师辛湜,Hadoop、HBase和Thrift项目的PMC成员和Committer、Kudu的发明人Todd Lipcon等海外专家将亲临 2015中国大数据技术大会 。余票已然不多, 预购从速 。