|
知识路径: > 信息系统运维的组织与管理 > 信息系统运维的组织 > 系统运行的故障管理 > 系统运行的故障管理 >
|
相关知识点:16个
|
|
|
|
|
当信息系统运行发生故障或异常情况时,运行管理人员必须对故障或异常进行相关的信息搜集与记录。因为对系统故障进行统计分析,必须依赖大量可靠的故障资料。故障记录的主要内容包括:故障时间、故障现象、故障部位、故障原因、故障性质、记录人、故障处理人、处理过程、处理结果、待解决问题、结算费用等。
|
|
|
(1)故障时间信息。收集故障停机开始时间,故障处理开始时间,故障处理完成时间。停机开始时间到故障处理开始时间属于等待时间。从故障处理开始到故障处理完成,这段时间长短反映了故障特点和故障维护人员的业务能力与技术水平,它既是研究系统可维修性的有用数据,也是对维护人员考核的依据。
|
|
|
(2)故障现象信息。故障现象是判断故障原因的主要依据。信息系统在运行过程中,一旦出现异常现象应该立即停止相关操作,要仔细观察,记录故障现象,为故障分析打下基础。
|
|
|
(3)故障部位信息。故障部位的记录也是一项重要的内容。确切掌握系统的故障部位,不仅为分析和处理故障提供依据,而且可以直接了解系统各部分的可靠性,为改善系统,提高系统可靠性提供依据。造成系统故障的原因很多,也可能比较复杂,有些故障是单一因素造成,而大多情况下却是多种因素综合影响的结果。因而只有从故障现象入手,研究故障机理,确定故障部位,才能找出真正的原因并加以解决。
|
|
|
(4)故障性质信息。由故障原因可归纳为几类故障:一种是硬件故障,即由于设备本身设计,制造质量或磨损,老化等原因导致的故障;一种是软件故障,即由于程序参数配置错误等软件因素导致的故障;一种是网络故障,即由于各种原因而导致的无法连接到网络或网络通信非正常中断;一种是人为故障,即由于人员素质或误操作等原因导致的故障;一种是自然灾害,即由于自然环境或不可抗力导致的灾难,如火灾、水灾、地震等。将故障性质的记录进行分类,分清故障责任,划归有关部门,使之制定行之有效的措施,防止类似故障的发生。
|
|
|
(5)故障处理信息。有些硬件故障可以通过调整,换件,维修等彻底排除,但有些时候因为硬件设计缺陷,设备老化,磨损加剧所形成的精度降低,重复性故障,多发性故障则很难排除,所以需要安排计划检修或设备改造、更新,以彻底消灭故障。大部分的软件故障可以通过重新调整参数,安装补丁程序,升级软件版本,甚至重装系统软件等方式排除。通过加强操作人员的技术技能培训,提高人员业务素质来避免人员因素造成的故障。对于自然灾害,一般通过建立系统整体的容灾容错方案予以预防和应急处理。对故障处理信息的收集,可以为今后处理新故障提供方法和依据,大大提高对故障处理的工作效率。
|
|
|
尽管在一些大型信息系统中,一般都有故障自动记录与报警功能的设计,但是,这些信息通常仅仅是对故障现象的简单记载,往往不够精确或者不够完整。因此,必须安排专门的人员对故障信息进行搜集、整理与详细记录。
|
|
|
|
故障分析是指对故障记录资料进行统计分析,从中发现某些规律,获得有价值的信息,用以指导对系统的合理使用和维护保养,并从故障的原因入手,采取积极措施,尽可能从根本上把握故障机理,最大限度地减少故障,降低故障损失。
|
|
|
故障的数理统计分析是一项专业技术性较强的工作,既要求有一定的专业理论知识,又要有丰富的实际工作经验。故障统计的目的,在于发现各种设备故障的分布,找出多发故障设备,掌握各类设备的多发故障点。
|
|
|
|
(1)根据故障的表征,分清故障的类型和性质,找出故障的根源。
|
|
|
|
故障的统计分析作为故障管理的重要一环,是制定故障对策的依据。可对故障记录文档中的各个记录项可以逐月分别进行统计。
|
|
|
|
当信息运行过程中发生故障以后,应该按规定程序报告相关的主管部门,以便派人及时进行故障排除处理。对于硬件故障应该及时报告故障信息给设备制造厂商。对于软件故障,如果是软件本身的问题,应该及时报告故障信息给软件开发部门或软件厂商。对于网络故障,如果是租用的商业网络通信线路,应该及时报告故障信息给相应的网络服务商,以协助解决或获取技术支持。
|
|
|