【BDTC先睹为快】百度沈国龙：BML百度大规模机器学习云平台实践

为了更好帮助企业深入了解国内外最新大数据技术，掌握更多行业大数据实践经验，进一步推进大数据技术创新、行业应用和人才培养，2015年12月10-12日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办的 2015中国大数据技术大会 （Big Data Technology Conference 2015，BDTC 2015）将在北京新云南皇冠假日酒店隆重举办。

2015中国大数据技术大会

BDTC 2015将为期三天，在大会主会之外，拟设立16个分论坛，包括数据库、深度学习、推荐系统、安全等6大技术论坛，金融、制造业、交通旅游、互联网、医疗健康、教育、网络通讯等7大应用论坛，以及政策法规和标准化、数据市场及交易、社会治理等3大热点议题论坛，将邀请近100位国外大数据技术领域顶尖专家与一线实践者，深入讨论Spark、Kudu、PosgreSQL-X2、YARN、HBase、机器学习/深度学习、推荐系统等热门技术及行业实践。

在 推荐系统 论坛，本次大会邀请到了 百度基础架构部高级架构师沈国龙 担任演讲嘉宾，进行题为“ BML百度大规模机器学习云平台实践 ”的主题演讲，分享百度机器学习平台BML的底层框架实现，包括框架演进、算法研究过程等，以及在不同的业务场景下是如何应用这些算法。

沈国龙在接受CSDN的会前采访中表示，大数据其实是一个综合学科，开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式，到微积分、统计、机器学习理论、算法知识、算法调优经验，更重要的是对行业的理解，才能让大数据成功的落地。

对于推荐系统，他认为，覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等，都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。

他还透露，深度学习、在线学习都是他的团队最近在研究的方向。前者比经典算法在特征组合和模型表征上有很大的优越性，更适用于数据维度越来越多的当下，后者主要是为了解决模型迭代速度，使最新的数据更快更好的反映到模型中。同时，他还关注在不同行业数据中，算法的组合应用如何取得最好的效果。

沈国龙

百度基础架构部高级架构师

沈国龙，百度基础架构部技术经理、高级架构师。有多年大数据、商业智能、机器学习的研发经验，在广告、推荐等业务领域有深厚的知识积累。先后负责百度大规模机器学习算法平台BML、分布式计算框架ELF、百度深度学习平台Paddle等的设计研发，在提升机器学习算法分布式计算规模和效率的同时，这个产品组合支持了百度所有重要部门的机器学习需求，先后成功上线上百个智能应用。作为技术负责人参与了百度广告系统大规模模型训练、广告触发、百度搜索结果排序、移动云渠道反作弊等战略级核心项目，取得了巨大的收益。同时担任百度开放云大数据解决方案架构师，为合作伙伴提供广告、推荐系统、自然语言处理等领域的专业技术支持。

以下为沈国龙采访实录：

CSDN：请介绍一下您的工作，以及大数据、推荐系统对公司业务的价值。

沈国龙： 我的工作有两个方向，一是大规模机器学习平台的建设和业务支持，包括框架、算法、平台的设计和开发，特定业务场景的模型训练和调优等；二是为百度开放云的用户提供大数据解决方案和相关产品。

百度拥有海量的用户和流量，任何产品都会面临到大数据的问题。如何使用好大数据，并构建出优秀的转化率模型、推荐系统等智能应用，是决定产品成败的关键。百度最重要的搜索和广告业务，都需要大数据的支撑，优化搜索结果和广告的排序，也属于广义上推荐系统的范畴。所以我们是非常重视相关的系统建设，也做了非常多的创新。

CSDN： 能否介绍您在项目实施中曾使用过哪些大数据技术？您对这些技术满意的地方和不满意的地方分别有什么？

沈国龙： 作为百度的基础架构部门，在优秀大数据的技术上都有投入，比如hadoop、spark、MPI，我们的规模都做到了世界领先。还有自研的一些大数据计算框架，比如处理流式数据的Dstream、TM，机器学习的计算框架ELF等等。这些产品和技术是我们处理大数据必备的。我对这些产品的性能和易用性都很满意，利用百度的这套系统，可以很容易的处理各种大数据问题，搭建服务。

CSDN： 能否分别从软件、硬件、开发者的角度谈谈，大数据在您的行业落地目前主要面临哪些挑战？

沈国龙： 大数据虽然听起来很美，但要落地有很多的问题。硬件成本高，是很多初创公司面临的首要难题。搭建一套从原始数据处理，到数据分析，再到模型训练、调研，最后到模型上线和迭代，需要大量的存储和计算资源，对于初创企业，自建IDC实施和运维，是非常昂贵的。软件层面的问题相反，是开源社区特别活跃，各种工具层出不穷，选择成了最大的难题，要付出很大的学习成本，并且要承担日后数据量更大之后系统全面推倒升级的风险。大家现在基本都会选择云作为解决方案，百度开放云也提供了整套的大数据产品组合。大数据其实是一个综合学科，开发者需要具备多方面的知识储备才能胜任。从最基础的多线程、分布式，到微积分、统计、机器学习理论、算法知识、算法调优经验，更重要的是对行业的理解，才能让大数据成功的落地。

CSDN： 评估一个推荐系统好坏的指标有哪些？技术人员容易犯哪些错误导致推荐系统实践的失败？

沈国龙： 指标有很多，比如覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动等，都是考核一个推荐系统的指标。同时冷启动、模型迭代速度、AB test等也是系统成败的关键。所以技术人员不能够认为推荐系统只需要一个auc不错的模型就够了，这是一个非常复杂的系统，要以最终的收入指标为准，做完备的AB测试才能够逐步把系统调节到最优的效果。

CSDN： 针对您所在的行业，哪些大数据技术、推荐算法是您目前主要观察和研究的，您为什么看好这些技术？

沈国龙： 深度学习、在线学习都是我们最近在研究的方向。深度学习作为机器学习现在最热门的方向，比经典算法在特征组合和模型表征上有很大的优越性，在数据维度越来越多的情况下，深度学习更能胜任。当然计算复杂度和模型调优的难度也随之上升。在线学习主要是为了解决模型迭代速度，使最新的数据更快更好的反映到模型中。同时我们也在关注在不同行业数据中，算法的组合应用如何取得最好的效果。

CSDN： 请谈谈您在这次大会上即将分享的话题。

沈国龙： 我会分享百度机器学习平台BML的底层框架实现，包括我们的计算框架演进的历史、最新的ELF有哪些特点、算法的研发过程等等。另外，重点讲我们在不同的业务场景下是如何应用这些算法，最终达成业务目标，算是一个案例讲解。相信能给大家带来一些启发。

CSDN： 哪些听众最应该了解这些话题？您所分享的主题可以帮助听众解决哪些问题？

沈国龙： 基础架构的架构师，算法开发人员，数据分析师，产品运营人员，都可以了解这些知识。这可以帮助听众对机器学习在企业内如何落地有一定认识，并且了解大数据现在的主流趋势，对未来的开发和决策都有帮助。

CSDN： 能否谈谈您对BDTC2015、其他的讲师分享的话题有什么期待？

沈国龙： 希望能够了解下如火如荼的大数据和人工智能创业公司，是如何解决技术和行业应用之间的gap的。

90+位讲师，16大分论坛，Databricks公司联合创始人、Apache Spark首席架构师辛湜，Hadoop、HBase和Thrift项目的PMC成员和Committer、Kudu的发明人Todd Lipcon等海外专家将亲临 2015中国大数据技术大会。余票已然不多，预购从速。

首页>> 正文

热门资讯

【BDTC先睹为快】百度沈国龙：BML百度大规模机器学习云平台实践

以下为沈国龙采访实录：

相关阅读