开源新闻:
-
《 AirFlow加入Apache孵化器 》
AirFlow加入Apache孵化器工程。AirFlow是一个工作流和调度系统,用来管理数据管道。由AirBnb开发并在内部使用,于去年九月份开源。
-
《 Apache Apex成为Apache顶级项目 》
Apache Apex是基于Hadoop的流处理和批处理引擎,目前成为Apache顶级项目。
-
《 Apache Beam将统一大数据平台的开发 》
Apache Beam将统一大数据平台的开发。一直以来,大数据开发涉及到各种框架,比如,Hadoop、Storm、Spark和Flink等,基于这些框架的开发要求的技术栈都各不同,这对开发者来说开发成本比较高,在Beam的统一下可以实现写一个程序既能在Hadoop中运行又可在Spark中运行。
-
《 开源项目:Spark分布式训练深度神经网络 》
用Spark分布式训练深度神经网络,可直接在已有Spark集群上安装,简单易学习。
实践:
- 《 基于Storm和Morphlines一体化实现实时清洗 》
使用Storm做实时数据清洗(ETL),从数据Arriving 到数据 Serving一体化(Topology)解决。数据格式转换可以借助kitesdk morphlines来配置完成。 - 《 Netflix的数据管道演化系列 》(1)、《 Netflix的数据管道演化系列 》(2)
Netflix的数据管道演化,从Chukwa管道到Kafka管道。并详细介绍Kafka管道架构技术,包括Kafka数据管道的设计原则、云服务中运行的挑战、发布策略、Kafka容灾和Kafka监控等。 - 《 Qsquery支持Syslog和Amazon Kinesis 》
Qsquery是Facebook开源的一款支持SQL查询系统的各项指标,可以用于OSX和Linux操作系统,它使得底层操作系统分析和监控性能更加直观。Airbnb工程师开发插件支持Syslog收集,并把查询结果发送到Amazon Kinesis Streams & Kinesis Firehose。
感谢杜小芳对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们。
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。