|
知识路径: > 银行信息系统运维 > 某银行信息系统实例 > 统一事件平台 >
|
相关知识点:39个
|
|
|
|
事件汇总平台提供了清晰的、集中的事件管理,运维管理平台的核心功能之一。它将IT系统中各种设备或管理系统产生的事件作为原始事件,按照预定义的事件规则,经过过滤、分类、分级、转换等处理环节,形成有效的预警或故障告警信息,按预定的方式通知管理人员或自动响应,对生成的告警提供升级、自动或手工消除等管理手段,支持用户自定义故障类型升级策略。监控系统能够将告警传递到告警视图、拓扑图、业务影响度视图中。
|
|
|
通过事件汇总平台,实现运维事件的集中管理。建立统一的事件汇总服务,将应用系统、数据库中间件、主机存储系统、网络安全系统和机房环境的运维事件信息,通过标准通信接口(API、JMS、SOAP、Syslog、邮件)进行事件汇集。
|
|
|
系统可针对重复事件进行实时压缩,结合系统定义的规则(时间窗口、频率、次序等)进行符合关联分析,能够根据资源影响关系和监控要素关联性减少误报、漏报、多报的情况,通过实现尽可能少的事件关联规则,处理事件类的故障相关性分析。
|
|
|
事件汇总平台具有极强的针对事件的处理能力,提供了多种开箱即用的事件处理规则,当一个事件到达时,它会经历以下几个环节。
|
|
|
事件接收:按照数据汇聚接口设计,接入Syslog、SNMPTrap、标准定义的Web Service接口的原始事件。
|
|
|
事件标准化:对事件的内容进行标准化翻译,采用基于规则的标准化识别,根据原始事件内容的不同,转换成标准的事件分类和格式,一个事件包含多个字段,事件的字段定义可根据实际需求调整,使事件描述的更丰富。
|
|
|
事件过滤:对于部分无须关注的事件,通过事件分类、级别、描述等信息进行匹配和抛弃,避免影响后续事件的分析。
|
|
|
事件压缩:对于标准化后的事件,设置事件的压缩规则,可以将事件的各类字段信息综合,形成重复事件的压缩标识,事件平台自动对重复事件进行压缩,只形成一条告警,并标识告警对应的第一次发生时间、最后一次发生时间、压缩事件的梳理。
|
|
|
告警消除:设置告警消除规则,如果接收到消除事件,便可将原有告警进行自动消除,例如:端口Up事件自动归并消除端口Down告警。
|
|
|
告警升级:支持告警的时间窗规则,对于未处理完成关闭的告警,如果发现告警长时间未处理完成或消除,系统按规则自动升级告警级别,并进一步通知用户。
|
|
|
告警丰富:支持告警的丰富规则,通过告警的相关信息来匹配配置库里的配置项,从而形成告警资源定位,并支持将定位资源的信息作为补充信息赋予告警,实现告警丰富和关联业务信息,如告警设备所在的物理位置、责任人、所属部门等。
|
|
|
告警根源分析:根据告警源(发出告警事件的配置项)之间的依赖关系,结合配置管理库和告警信息库,分析出告警的根源事件,快速定位告警源头,排除故障。
|
|
|
告警联动通知:处理后的告警支持多种策略,可以按照告警类别、告警对象,告警属性、告警时间等信息,定义告警的动作,告警的动作主要包含通知和处理两种情况;告警通知可以按照规则预警相关责任人,从而进一步催办人工处理;告警处理可以按照规则触发自动派单等接口、脚本或程序,作为辅助人工处理的一种自动化手段。
|
|
|
系统具有从监控工具或第三方系统获取各类事件信息进行统一处理功能。以事件为驱动,实现对各类告警的接收、识别、标准化、过滤、压缩、告警等功能,并与流程平台衔接进行工单派发。
|
|
|
具有图形化规则处理界面,通过该界面,管理人员能够自定义事件处理规则;当规则发生变化时,相应的告警类型树节点出现变化标识。
|
|
|
能够装载MIB信息,实现对SNMPTrap的事件预定义,提供Trap事件定义向导;具有告警分析规则,能够实现资源定位和告警丰富;具有多条分析规则的建立,告警分析规则的排序、告警条件判断等设置。
|
|
|
具有告警升级功能,能够升级到指定级别,或者按照递增指定等级升级到相应告警等级。
|
|
|
具有未知告警列表,对接入的未识别的事件可生成未识别事件列表,方便用户选择相应的未知Trap进行接入解析;未识别事件列表只维护最近发生的指定个数未知事件,减少系统负担。
|
|
|
按照告警类型ID或告警类型名称快速检索告警类型及其规则。
|
|
|
|
事件进入事件汇总平台的第一步,便是事件统一格式化,将从各接口接收到的各种格式的事件格式化为标准格式的事件,以便进行后续统一处理。
|
|
|
|
原始的告警日志事件,例如SNMPTrap、Syslog等。
|
|
|
智能阈值事件,基于运行基线设置阈值,每个监控元可以根据不同时间段设置不同的阈值,当超出阈值后产生的事件。
|
|
|
事件统一格式化采用基于规则的标准化识别方法,根据原始事件内容的不同,通过转换规则转化为统一格式,格式化规则配置如下图所示。
|
|
|
|
|
实现对网络设备的Syslog,服务器Syslog等日志进行收集和分析,通过采集、过滤、展现、报表分析等功能模块将日志分析的一整套流程串联在一起,从海量的日志信息数据中提取有价值的信息。并对日志内容进行分析,一旦出现关键字,则产生故障事件并告警。
|
|
|
具有日志过滤、日志压缩、日志屏蔽、日志映射、日志事件规则等策略的定义。
|
|
|
|
事件标准化之后会根据过滤规则设定进行过滤汇聚,将部分无须关注的事件过滤掉,避免过多无关事件的干扰,延误重要事件的处理。
|
|
|
事件的过滤基于过滤规则进行,可根据事件的各种信息进行过滤,规则配置如下图所示。
|
|
|
|
|
|
根据设置的压缩规则,可以将事件的各类字段信息综合,形成重复事件的压缩标识,事件平台自动对重复事件进行压缩,只形成一条告警,并标识告警对应的第一次发生时间、最后一次发生时间、压缩事件的梳理。
|
|
|
|
|
|
能够定制压缩策略,对某段时间内同一报警进行压缩。压缩方式可以按照计时或计次进行累计。
|
|
|
例如:在personapp1服务器CPU使用率高连续报警5次,在综合事件展现平台上不会显示5条personapplcpu报警而是只显示一条,但在累计次数或时间字段显示为5次。
|
|
|
|
平台能根据设定的告警消除规则判断告警事件是否为消除事件,如果为消除事件则自动消除相应的告警,进行联动通知处理,结束告警的处理。
|
|
|
|
|
|
|
|
|
告警丰富主要指将告警源或其他外部信息丰富告警信息的过程,告警丰富包括告警源定位和告警属性丰富两个步骤,支持丰富规则,通过告警的相关信息来匹配配置库里的配置项,从而形成告警资源定位,并支持将定位资源的信息作为补充信息赋予告警,实现告警丰富和关联业务信息,如告警设备所在的物理位置、责任人、所属部门等,如上图所示。告警信息如下图所示。
|
|
|
|
|
|
同时在告警台上通过右键菜单,可以单击打开业务影响分析视图,系统可自动或者手动定义CMDB中业务之间的逻辑、物理关系,进行可视化拓扑建模,实现IT事件出现时,能够迅速评估监控要素影响那些业务,以及影响规模,直接查看该告警对其他配置项产生的影响。如下图所示。
|
|
|
|
|
|
告警影响分析完成后,根据处理结果和预先配置的策略,平台可以进行告警联动通知处理,包括颜色、声音、邮件、短信等。
|
|
|
|
|
告警动作策略包括触发动作的条件和执行的动作,触发条件包括告警类型、告警发生时间和告警业务属性判断条件等;告警的动作主要包含通知和处理两种情况,默认提供发送短信、发送邮件、播放声音和创建工单几种动作,平台以插件的方式构建,支持快速扩展动作方式。如上图所示。
|
|
|
|
|
系统提供对告警动作的扩展定义和定制,以实现对事件管理功能的自动化,自动进行派单和联动,提高监控管理系统的运行效率,如上图和下图所示。
|
|
|
|
|
|
集中告警台是统一事件处理子系统的前端交互界面,为用户提供了简洁、集中的告警驱动处理机制,通过告警台可以让管理人员对整个IT基础架构的实时事件信息收集,对各类事件信息进行过滤、相关性分析与处理,实时呈现出完整的事件信息,并将这些信息分发给负责服务水平监视的操作管理员。有效地提高事件管理的效率,减少事件的定位及解决时间,保证提供高质量的服务。
|
|
|
|
|
集中告警台主要包括:告警导航、告警查看、告警处理、规则定义等几方面功能。同时可根据用户的实际需求定制事件的显示格式。整体界面如上图所示。集中告警页如下图所示。
|
|
|
|
|