Nutch始于2002年一个试图解决大数据搜索的开源项目,经过十几年的发展与变革,已经形成围绕Hadoop产生的大数据生态圈,至今这个生态圈还在继续蓬勃发展,那么大数据能给DCIM带来了什么?或者说随着多年来,存储模式的不断演变,随着进入大数据变革时代,DCIM能够做些什么?DCIM大数据架构又发生了哪些演化?
DCIM现状
DCIM全称Data Center Infrastructure Management,即数据中心基础设施管理。DCIM是近几年逐步发展起来的热门课题,通过将传统机房监控和IT资产管理结合起来,采用一体化平台,实现数据中心资产资源统一管理。
目前进入的企业主要来源两大类:一类是专业厂商转型,包括:楼宇自控、安防、IT运维以及动力环境等专业厂商;另一类则是由传统的中小型机房监控厂商,通过扩大现有产品涵盖范围进入这个新兴领域。无论是上述哪种类型厂商推出的产品,都是经过有由小变大、由简单变复杂的演化过程,这其中经历过简单监控——流程化管理——多维度分析等主要过程,目前正在往大数据化、智能化分析方向发展。
单数据库模式
早期的机房监控一般规模都不大,传感器采集数量有限,所有数据都存储到一个数据库中,上世纪90年代中后期,这种基于C/S架构的单数库存储模式逐步成为主流。如图1.
图1 单数库模式
网络存储模式
进入2000年后,随着Web技术流行起来,逐步取代C/S成为主流架构。但是由于机房监控软件属于行业应用系统,对实时数据刷新有一定要求,因此大部分厂商在提供Web页面基础上,也提供了桌面客户端或者基于Java Applet技术的富客户端。Web用于呈现综合信息,而桌面客户端则倾向于呈现实时性要求较高的交互页面,图2描述了这种早期网络存储模式。
图2 早期网络存储模式
这种存储模式以数据库(Database)为中心,应用服务器(App Server)和桌面应用程序(Desktop App)直接连接数据库;而Web服务器(Web Server)和富客户端程序(Rich Internet App)则脱离数据库,直接连接应用服务器。
这种模式架构投入运行一段时间后,用户逐渐不再仅满足于获取告警和实时数据,一些高级用户希望能够将收集的所有历史数据,通过报表方式统计呈现出来,帮助他们进一步诊断故障原因或做一些科学分析。
① 垂直切分
考虑到历史库数据量会比较大,开发人员将原先的单一数据库进行垂直切分,分离出配置库、历史库和交换库,部署到不同的机器上以减轻数据库系统压力,如图3.各个库承担的角色如下:
(1)配置库(Config Database)用于存储系统运行环境和实体关联信息;
(2)历史库(History Database)用于存储实时数据和历史数据;
(3)交换库(Swap Database)又被称为临时库,用于存储复杂计算中间值或用于第三方对接系统数据交换。
图3 垂直切分后的网络存储模式
② 水平切分
当系统运行很长一段时间后(通常在两三年或者更长),运维人员发现历史库承载压力比较大,经常出现一些问题,比如:
(1)整个系统响应速度变慢了,用户操作体验变差;
(2)查询跨度较大的报表时,响应时间明显变长甚至出现超时故障。
为了解决这些问题,开发人员开始数据库进行水平切分,比如先对历史数据进行分类,然后为每一种类型实现按月、按年分表。
大数据混合存储模式
近两三年,随着大数据中心建设在全国各地范围内开始兴起,中小型机房监控系统逐步过渡到DCIM管理平台,不同于原有的监控系统,数据中心对新的平台要求更为严格,主要原因包括:
(1)高安全性。管理平台需要7*24小时不间断实时监控,不仅仅要在出现故障时能够立即做出响应,同时还要根据历史积累数据,在出现故障之前做出预警。
(2)规模较大。数据中心的机柜可能会达到几百、上千台,占地面积从一个独立的机房到整栋楼,这个是传统的中小型机房所不能比拟的。
(3)业务计算复杂。传统机房以实时监控为主,而DCIM平台主要目的就是帮助运维管理人员实现科学化、智能化管理。因此,增加了一些复杂的功能,比如:流程管理、告警预测以及大数据决策等,这些新兴业务会导致程序计算工作量成几何级基数增加。
综上所述,从机房监控走向DCIM管理平台后,以数据库为中心的存储模式已经很难适应平台化管理要求,因此引入新一代存储模式势在必行。
从2012年8月开始,Apache Hadoop YARN(Yet Another Resource Negotiator)成为Apache Hadoop的一项子工程,YARN提供了一种通用的资源管理和分布式应用框架。在这个框架上,用户可以根据自己需求,实现定制化的数据处理应用,包括Hadoop自身的 MapReduce,也包括Spark、Storm等新一代处理应用。Hadoop YARN架构已经成为当前主流,在这里我们以Hadoop技术为平台,介绍这种大数据混合存储模式架构,如图4.
如图 4 大数据混合存储模式
下面我将重点自下而上介绍这种混合存储模式架构:
(1)最底层由传统从关系型数据库(RDMS,Relational Database Management System)和Hadoop集群组成,关系型数据库继续用来储存配置信息,而历史数据则迁移到分布式文件存储系统(HDFS,Hadoop Distributed File System)上,由于HDFS提供的交互比较原始,上层数据交互方式可以选择Hive数据仓储(Data Warehouse)、Hbase数据库(Database)或者Spark RDD(resilientdistributed dataset)等高级接口。同时由于历史数据存储在Hadoop集群上,这些数据处理工作交由Hadoop应用(如分布式计算——Map/Reduce、并行计算——Spark或者实时计算——Storm)承担完成,原先的交换库(Swap Database)将从新式架构中移除。
(2)中间层采用了计算节点(Compute Node)集群方式,我们也可借助第三方开源工具(如ZooKeeper)实现这个过程。集群上运行的程序既包括传统应用服务器(App Server)和Web 服务器(Web Server),也包括与Hadoop应用协作的分析服务器(Analysis Sever)。
(3)顶层主要用来呈现,从承载方式看:主要包括Web浏览器、移动设备以及桌面应用等;从展示内容看,既包括传统的报表表格也包括组态和3D等新式交互体验。
ZNV中兴力维如何发力"数据中心"
在过去的两三年里,ZNV中兴力维专注于动环监控管理和视频监控产品的研发,这是两个相互独立的产业。随着数据时代的到来,企业的数据机房、电信运营商和互联网公司的大型数据中心(IDC),无时无刻不在存储和管理着大量的数据资源,而IDC需要配备大量动力环境设备和视频监控系统来确保IDC的正常运行。因 此,ZNV中兴力维提出在公司原有产品动环监控(PE)、视频监控(VS)基础上加入IT系统管理(ITSM)和基础设施资源管理(FRP),开发出一套数据中心基础设施综合管理系统(DCIM)。这套系统可以通过千万个感知设备采集到海量数据,并运用数据技术(DT)和机器深度学习,实现对动力和环境设 备的监控管理,以及对IDC资产、容量、安全、效率、质量、人员、故障、运维等进行跟踪管理和模型分析,从而为IDC提供一个高度自动化的、高效高质的、节能减排的,7*24小时无间断的运维管理。这也是中国制造2025和工业4.0的主要宗旨。
在IDC领域,ZNV中兴力维推出新一代"IDC智慧数据中心综合管理解决方案(维统管)",采用创新的"211"(两端一线一平台)架构设计,实现大数据的采集、整合、传输,通过PC浏览器、移动终端APP、微信等多种方式对平台进行访问及数据交互,支持二次开发,在供电保障、智能安防、智能楼宇、容 量管理、资产管理等方面为客户提供整体解决方案。目前ZNV中兴力维已成为IDC基础设施的主要建设者之一。
未来,ZNV中兴力维的目标是PEIM,即动环及物联网综合管理系统,在现有的DCIM上增加数据技术(DT)和物联网(IoT)。在赋予所有感知设备一个 独一无二的IP地址后,PEIM可以对所有设施进行大量的有标记的数据采集,数据在经过清洗整理后,被传送到ZNV中兴力维的"深度认知(Deep Recongnition)"机器深度学习引擎进行学习和认知,帮助客户提供更高品质的服务。
欢迎大家继续关注慧邮件邮件营销平台,也可以在我们的慧邮件官网了解更多邮件营销技巧,大数据知识,也可以通过电话:400-666-5494联系到我们,更多精彩知识、活动等着你。