数据中心日常维护工作的那些事儿

2016-07-27 07:11:48
[ BPO网导读 ] 数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人 值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完 全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。

数据中心要保持稳定的运行,需要大量的专业技术人员。一般承担重要业务的数据中心都是有人24小时值守,无人 值守的数据中心一般只能承担不重要业务,完全无人管理维护的数据中心几乎没有。所以数据中心日常维护工作烦琐,但又很重要。随着人们的工作生活对数据的完 全依赖,承载数据计算、运行的数据中心正发挥着越来越重要的作用,这更突显出维护工作的重要。
当一个数据中心建成投产后,维护工作就开始了,一直到数据中心的生命周期结束。一般我们可以将数据中心的维护工作分为四大类:一是日常检查类; 二是应用变更、部署类;三是软、硬件升级类;四是突发故障处理类,下面就来详细说一说这些维护工作,让大家对维护工作有个了解。
日常检查
“千里之堤,溃于蚁穴”。任何的故障在出现之前都可能会有所表现,小的隐患不消除,可能导致重大的故障出现,所以数据中心日常的例行检查工作枯 燥,但也很重要,可以及时发现一些运行中的隐患。根据数据中心承载业务重要性的不同,要对数据中心里的所有运行的设备进行例行检查。一些数据中心设备厂商 提供了检查软件,比如网管软件,安全防护软件等。可以利用这些软件对数据中心网络进行检查,看日志是否有异常告警,网络是否出现过短时中断,端口是否出现 UP/DOWN等。通过网络探测软件看网络质量如何。检查服务器应用服务是否正常,CPU内存等利用率是否正常。对应用业务进行检查,比如如果有搜索业 务,就可以通过服务器进行单词搜索,看搜索的结果和延迟是否在正常的范围之内。这些检查每日都要重复检查,一旦有异常及时处理与消除,必要时将重要业务切 换到备用环境中,然后排除后再切回。
对数据中心的机房环境也要进行检查,环境的温度、湿度、灰尘是否合乎要求。空调、供电系统进行运行良好,设备运行是否过热,地板、天窗、消防、 监控都是检查的部分。不合理的地方要及时进行整改,而不应该偷懒。经常到一些数据中心,就会发现值班维护人员很多都抱着电脑在浏览网页,打游戏。对于日常 检查应付一下,甚至根本不去检查,只要没有出现故障,就打游戏消耗时间,这样数据中心出现故障是迟早的事。一旦出现故障就毛手毛脚,甚至哪个业务走的哪个 设备,哪个端口哪个网线都不清楚,本来一个小故障可能因为不熟悉导致大故障,因此日常检查绝不能应付,虽然需要不断重复,但却很重要,在持续的检查过程 中,将会对数据中心的理解越来越深,这样每次检查都会有新的发现,在检查中进行学习。


BPO网版权及免责声明

1、凡本网注明:“BPO网”或者“原创”的所有作品,版权均属于BPO网所有,其他媒体、网站或个人转载使用时必须注明:“文章来源:BPO网”。违反上述声明者,本网将追究其法律责任。

2、凡本网注明“来源:XXX(非BPO网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其产生的任何结果负责。

BPO公众号 BPO公众号
返回顶部