故障监视
被考次数: 4次
被考频率: 中频率
答错率:    28%
知识难度:
考试要求: 了解     
知识路径:  > 信息系统开发和运行管理知识  > 系统运行管理知识  > 系统故障管理(处理步骤、监视、恢复过程、预防措施)  > 故障及问题管理  > 故障管理流程


本知识点历年真题试卷分布
>> 试题列表    
 

 
       故障管理流程的第一项基础活动是故障监视,大多数故障都是从故障监视活动中发现的。
       监视的考虑因素
       不同的系统故障有不同的特征,对系统和整个组织或者企业的业务影响程度可能不同,处理解决的难易度也不同。在进行故障监视时要充分考虑故障的影响度、紧迫性,对影响较大的故障类别进行重点监视,采用更先进的自动化监视管理工具,启动更多的系统监视功能,或者投入更多的人力和物力。这样,在相关部门(服务台、系统本身、用户或者其他IT部门)发现故障时,才能尽快根据影响度设置故障处理优先级,尽快进入管理流程。
       故障接触人员
       故障接触人员在故障监视的过程中有着重要的影响和作用。为了在监视过程中尽快发现和应对故障,同时防止非规范操作扩大故障对系统和业务的影响,需要对故障的接触人员进行严格管理,故障监视应该针对不同的故障接触人员指定监视职责,制定相关操作手册,而故障接触人员应该严格按照规定执行操作和报告。同时,故障接触人员本身及其活动也应当作为监视的项目。故障接触人员如下。
       (1)故障现场接触人员,在故障发生的现场的接触人员包括系统运行值班人员、系统用户,还可能包括服务台。
       (2)初级支持人员,为故障提供一线的初级支持的有服务台和初级支持小组。
       (3)高级支持人员,故障处理专家小组或者提供系统服务的厂商技术专家。
       故障原因分类
       美国权威市场调查机构Gartner Group曾对造成非计划宕机的故障原因进行分析,并发表了专门报告,主要可以分成以下三大类。
       .技术因素,包括硬件、操作软件系统、环境因素以及灾难性事故。
       .应用性故障,包括性能问题、应用缺陷(bug)及系统应用变更。
       .操作故障,人为地未进行必要的操作或进行了错误操作。
       为了便于实际操作中的监视设置,我们将导致IT系统服务中断的因素由三类扩展成了7类。
       .按计划的硬件、操作系统的维护操作时引起的故障,如增加硬盘和进行操作系统补丁等。
       .应用性故障,包括应用软件的性能问题、应用缺陷(bug)及系统应用变更等。
       .人为操作故障,包括人员的误操作和不按规定的非标准操作引起的故障。
       .系统软件故障,包括操作系统死机、数据库的各类故障等。
       .硬件故障,如硬盘或网卡损坏等。
       .相关设备故障,比如停电时UPS失效导致服务中断。
       .自然灾害,如火灾,地震和洪水,等等。
       从这7个分类我们可以看出,导致系统服务中断的原因中,软件和人为操作因素占了很大的比例,硬件和设备因素只占很小的比例。
       监视项目及监视方法
       从以上对故障的原因归类来看,人员、规范操作的执行、硬件和软件是故障监视的重点所在。另外,自然灾害因素由于难以预计和控制,需要进行相关风险分析,可采取容灾防范措施来应对。
       (1)对系统硬件及设备的监视包括各主机服务器及其主要部件、专门的存储设备、网络交换机、路由器,等等。对硬件设备监控方法主要是采用通用或者专用的管理监控工具,它们通常具有自动监测、跟踪和报警的功能。
       (2)对软件的监视主要针对其应用性能、软件bug和变更需求。对软件的性能监控也可以采一些管理监控工具,但由于应用系统主要面向用户,应用系统的缺陷通常由专门的测试工程师负责监视,或者在使用的过程中由用户方发现并提出。变更需求也是在用户使用和监视二合一的过程中发现的。
       (3)需要监视的人员包括系统操作员、系统开发工程师、用户、来访者,甚至包括系统所在机房的清洁工和运输公司的职工,等等。要对他们与系统的接触过程中的行为进行跟踪和记录,防止或者及早发现非标准的操作带来的系统故障或者服务故障。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有