首页>> 正文

大数据周报第8期:Apache Beam将统一大数据平台的开发

来源:商群邮件营销时间:2016-05-10 15:30:49点击:1271

开源新闻:

  1. 《 AirFlow加入Apache孵化器 》

    AirFlow加入Apache孵化器工程。AirFlow是一个工作流和调度系统,用来管理数据管道。由AirBnb开发并在内部使用,于去年九月份开源。

  2. 《 Apache Apex成为Apache顶级项目 》

    Apache Apex是基于Hadoop的流处理和批处理引擎,目前成为Apache顶级项目。

  3. 《 Apache Beam将统一大数据平台的开发 》

    Apache Beam将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark和Flink等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行。

  4. 《 开源项目:Spark分布式训练深度神经网络 》

    用Spark分布式训练深度神经网络,可直接在已有Spark集群上安装,简单易学习。

实践:

  1. 《 基于Storm和Morphlines一体化实现实时清洗 》
    使用Storm做实时数据清洗(ETL),从数据Arriving 到数据 Serving一体化(Topology)解决。数据格式转换可以借助kitesdk morphlines来配置完成。
  2. 《 Netflix的数据管道演化系列 》(1)、《 Netflix的数据管道演化系列 》(2)
    Netflix的数据管道演化,从Chukwa管道到Kafka管道。并详细介绍Kafka管道架构技术,包括Kafka数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka容灾和Kafka监控等。
  3. 《 Qsquery支持Syslog和Amazon Kinesis 》
    Qsquery是Facebook开源的一款支持SQL查询系统的各项指标,可以用于OSX和Linux操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb工程师开发插件支持Syslog收集,并把查询结果发送到Amazon Kinesis Streams & Kinesis Firehose。

感谢杜小芳对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们。

欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。

  • *真实姓名:
  • *手机号码:
  • 公司名称:
  • 咨询内容:

CopyRight © 2009 - 2020 All Right Reserved 备案号:闽ICP备15004550号-275

厦门书生企友通科技有限公司 QYT.com 版权所有