首页>> 正文

Apache Beam成为Apache顶级项目

来源:商群邮件营销时间:2017-01-12 12:24:33点击:2026

Apache软件基金会在2017年01月10正式宣布Apache Beam从孵化项目毕业,成为Apache的顶级项目

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后,Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式,为无限,乱序,web-scale的数据集处理提供简单灵活,功能丰富以及表达能力十分强大的SDK。

Beam仅仅是一个SDK,是一个应用顶层的API,那么它下层支持的数据处理框架(官方叫做Apache Beam Pipeline Runners)主要包括Apache Apex,Apache Flink, 以及它自己的Google Cloud Dataflow。

Apache Beam 的两大特点

1、将数据的批处理(batch)和流处理(stream)编程范式进行了统一;

2、能够在任何的执行引擎上运行。

它不仅为模型设计、更为执行一系列数据导向的工作流提供了统一的模型。这些工作流包括数据处理、吸收和整合。

为什么会诞生Apache Beam

大数据处理领域的一大问题是:开发者经常要用到很多不同的技术、框架、API、开发语言和 SDK。根据任务场景的不一样,开发者很可能会用 MapReduce 进行批处理,用 Apache Spark SQL 进行交互请求,用 Apache Flink 实时流处理。 新的分布式处理框架可能带来的更高的性能,更强大的功能,更低的延迟等,但用户切换到新的分布式处理框架的代价也非常大:需要学习一个新的数据处理框架,并重写所有的业务逻辑。

解决这个问题的思路包括两个部分,首先,需要一个编程范式,能够统一,规范分布式数据处理的需求,例如,统一批处理和流处理的需求。其次,生成的分布式数据处理任务应该能够在各个分布式执行引擎上执行,用户可以自由切换分布式数据处理任务的执行引擎与执行环境。Apache Beam正是为了解决以上问题而提出的。

因为笔者并没有实际使用 Apache Beam的经验,所以深入的知识请参见 Apache Beam的官方文档。

猜你喜欢

欢迎关注本公众号: iteblog_hadoop :

1、回复  掌握spark 获取  《Mastering Apache Spark》 电子书

2、回复  高性能spark 获取  《High Performance Spark》 电子书

3、回复  大数据分析 获取  《Big Data Analytics》 电子书

4、回复  spark2电子书 获取  《Apache Spark 2 for Beginners》 电子书

5、回复  spark2_data 获取   《Spark for Data Science》 电子书

6、回复  架构师大会ppt 获取  《2016年中国架构师[大数据场]》 PPT

7、回复  intro_flink 获取  《Introduction to Apache Flink》  电子书

8、回复  spark_summit_ppt 获取  《Spark Summit 2016 Europe全部PPT》

9、回复  flink未来 获取  《The Future of Apache Flink》

10、更多大数据文章欢迎访问 https://www.iteblog.com 及本公众号( iteblog_hadoop )

欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。

相关阅读

  • *真实姓名:
  • *手机号码:
  • 公司名称:
  • 咨询内容:

CopyRight © 2009 - 2020 All Right Reserved 备案号:闽ICP备15004550号-275

厦门书生企友通科技有限公司 QYT.com 版权所有