|
|
|
问题管理包括诊断事故根本原因和确定问题解决方案所需要的活动,通过相应控制过程,确保解决方案的实施。问题管理还将维护有关问题、应急方案和解决方案的信息,以减少事故的数量和降低影响。问题管理流程的目标是通过消除引起事故的深层次根源以预防问题和事故的再次发生,并将未能解决的事故影响降到最低。
|
|
|
|
问题管理的流程包括问题检测和记录、问题分类和优先级处理、问题调查和诊断、创建已知错误记录、解决问题、关闭问题、重大问题评估等。问题管理基本流程模型如下图所示。
|
|
|
|
|
|
|
|
(1)问题检测和记录。问题检测的方法包括:服务台和事故管理等提交的事故需要进一步查明潜在原因;技术支持小组在日常维护工作中发现有尚未对业务产生影响的潜在问题存在;自动化的事件/告警检测工具检测出IT基础设施或应用存在问题;供应商或承包商通告其产品或服务存在的问题;主动问题管理通过趋势分析提交潜在的问题。问题记录包含问题描述、问题状态、问题类型、服务信息和设备信息等。
|
|
|
|
(2)问题分类和优先级处理。问题的分类原则与事故管理中事故的分类相同。问题优先级处理与事故管理中事故的优先级处理方法相同。
|
|
|
|
(3)问题调查和诊断。问题调查的技术包括借助于配置管理数据库定义问题的影响级别并调查故障点;问题匹配技术和故障重现技术。问题分析和诊断的常用方法包括时序分析法、KT决策法、头脑风暴法、石川图法、帕累托分析法等。
|
|
|
|
(4)创建已知错误记录。针对调查和诊断的结果及解决方案创建已知错误记录,并将其存放在已知错误库中,以方便下次发生同样问题时能够快速匹配出已知错误。
|
|
|
|
(5)解决问题。根据制定出的解决方案,问题管理者组织问题处理人员实施方案。如果解决方案需要对基础设施进行变更,则必须首先提交变更请求,启动变更管理流程。
|
|
|
|
(6)关闭问题。当变更完成并且解决方案成功实施使得问题解决之后,可正式关闭问题记录,更新已知错误库,将问题状态置成“已解决”。
|
|
|
|
(7)重大问题评估。重大问题解决之后应当召开重大问题评估会议,需探讨的问题包括工作中的经验和教训、改进方案、预防措施、第三方责任等。
|
|
|