|
|
|
例行操作运维是指设施运维人员通过预定的(如巡检、监控、备份、应急测试、设备保养等)例行服务,以及时获取运维对象状态,发现并处理潜在的故障隐患,保证信息系统设施的稳定运行。例行操作运维过程中需要关注的要素及内容如下表所示。
|
|
|
|
|
|
|
|
例行操作运维过程将形成无形和有形两种形式的成果,如下表所示。
|
|
|
|
|
|
|
|
例行操作作业包括设施监控、预防性检查和常规操作三种类型。
|
|
|
|
|
|
设施监控是指通过各类工具和技术,对设备的运行状态进行记录和分析,从而及时发现故障,以便于进行故障的诊断与恢复。设施监控的内容主要包括设备状态、运行状况和变化情况等。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
(1)网络拓扑监控:在网络运维工作中,如果对网络的监控只是单点地针对设备进行观察及排错,或者仅有静态的逻辑拓扑图,均不利于运维人员对网络进行整体有效的认识或监控。网络运维需要能够反映网络中所有设备的工作状态、线路流量状态并能进行智能告警通知的拓扑图,我们称之为物理拓扑图。通过物理拓扑图能真实地反映网络设备的物理运行状态,运维人员可以及时地了解网络中的故障点和压力点,并对网络中的所有设备进行快速浏览及配置,提高工作效率。
|
|
|
|
(2)网络设备监控:监控网络整体运行状态、网络设备IOS版本、网络设备各硬件资源开销状况、网络设备CPU利用率、内存利用率、电源系统和通风系统运行状况、控制面板工作状况及数据面工作状态。
|
|
|
|
(3)网络链路监控:对物理链路连接状态进行监视和管理,监控端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端链路变化。通过运维平台可以对指定链路设定告警阈值,如链路带宽占用率阈值、链路速率阈值等。在链路连接发生故障或达到告警阈值时,链路以颜色的改变提醒运维人员,并产生相关告警。
|
|
|
|
|
|
|
|
(4)网络设备端口监控:监控网络设置端口、ICMP连通性及SNMP监测等,其中以端口监测最为关键,主要监测端口的数据流量,包括入速率、出速率、入丢帧速、出丢帧速、单播入帧速、单播出帧速、非单播入帧速、非单播出帧速、入错误帧速、出错误帧速等,如上图和下图所示,通过监测及时发现异常的网络流量。
|
|
|
|
|
|
|
|
通过网络端口丢包率监测能够监测端口通信链路的稳定性、抖动率,及时发现系统隐患,保证业务正常。
|
|
|
|
|
|
硬件设施监控的重点是服务器及存储设备的运行状态、性能、资源使用分配情况,以便了解其是否满足运行要求。
|
|
|
|
监控的类型主要分为状态监控、性能监控和可用性监控。
|
|
|
|
(1)状态监控:主要监控和管理服务器状态,如风扇转速、湿度、电压、CMOS电池容量及电源与硬盘状态等。
|
|
|
|
(2)性能监控:主要监控服务器CPU负载、内存和磁盘使用量、并发会话数等性能指标和运行状态参数等。
|
|
|
|
(3)可用性监控:如对于Windows操作系统,可通过对WMI的支持监控Windows服务器的事件日志、MS Exchange Server、SQL Server、LDAP、IIS等服务的可用性。
|
|
|
|
|
|
|
|
|
|
|
|
基础软件监控的重点是对基础软件的运行状态、运行性能、资源使用分情况进行监控,以便了解其是否满足运行要求,监控内容如下表所示。监控应当采用合适的装备与手段,分配专门人员定期或全时段进行手动或者自动监控,可以通过一些数据(如服务器的响应速度)来提前预知服务异常。
|
|
|
|
|
|
|
|
对于数据库监控、中间件监控和应用服务监控而言,具体的监控内容应包括下列几项。
|
|
|
|
(1)数据库监控:数据库监控主要监控包括数据库系统的性能、事务、连接等方面的数据,如数据库工作状态、数据库表空间的利用情况、数据文件和数据设备的读/写命中率、数据碎片的情况、数据库的进程状态、数据库内存利用状态等,如下表所示。
|
|
|
|
|
|
|
|
(2)中间件监控:中间件监控主要应监控中间件的各项运行状态参数,包括配置管理、连接池、线程队列、负载监测、通道情况监测等,具体如下表所示。
|
|
|
|
|
|
|
续表
|
|
|
|
(3)应用服务监控:应用服务监控通过对信息系统基础应用平台(如IIS、Apache等)的基础信息、连接测试、基本负载等重要信息的监测,有效、实时地分析HTTP/HTTPS、DNS、FTP、DHCP、LDAP等常见通用服务的运行状态和参数,深入分析服务响应速度变化的技术原因和规律,从根本上解决服务响应性能的问题。
|
|
|
|
|
|
|
|
|
|
|
|
预防性检查是在信息系统设施监控的基础上,为保证信息系统设施的持续正常运行,运维部门根据设备的监控记录、运行条件和运行状况进行检查及趋势分析,以便及时发现问题并消除和改进。主要包括性能检查和脆弱性检查两个方面。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
常规操作运维是对信息系统设施进行的日常维护、例行操作,主要包括定期保养、配置备份等,以保证设备的稳定运行。
|
|
|
|
|
|
|
|
(1)基础类操作:根据有关规定,执行基础环境的日常运行、维护和保养。
|
|
|
|
(2)测试类操作:根据有关规定,对基础环境各系统功能、性能进行测试。
|
|
|
|
(3)数据类操作:按事先规定的程序,对基础环境运行日志、记录等数据进行操作。基础环境常规操作的主要内容如下表所示。
|
|
|
|
|
|
|
续表
|
|
|
|
|
|
网络设施的常规操作主要包括网络设备操作系统软件备份及存档;网络设备软件配置备份及存档;监控系统日志备份及存档;监控系统日志数据分析与报告生成:网络配置变更文件的审核;网络配置变更的操作;网络配置变更的记录。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|