免费智能真题库 > 历年试卷 > 信息系统运行管理员 > 2019年下半年 信息系统运行管理员 上午试卷 综合知识
  第23题      
  知识点:   典型信息系统设施运维典型专用工具   监控   运维
  章/节:   现象系统设施运维系统与专用工具       

 
(23)属于运维监控工具,可以提高信息系统设施运维的工作效率。
 
 
  A.  PUPPET
 
  B.  COBBLER
 
  C.  ZABBIX
 
  D.  SPLUNK
 
 
 

 
  第23题    2018年下半年  
   62%
开源工具Nagios属于常用的运维(23)工具。
  第23题    2020年下半年  
   55%
Splunk常与Nagios配合使用,定位问题。该软件属于(23)。
 
   知识点讲解    
   · 典型信息系统设施运维典型专用工具    · 监控    · 运维
 
       典型信息系统设施运维典型专用工具
        信息系统设施运维的专用工具主要包括在准备阶段的运维部署工具、过程中的运维配置工具和运维监控工具,优化改善过程中的日志分析工具及其他辅助专用工具等,具体如下表所示。
        
        典型运维专用工具
               典型例行操作运维配置工具
               当系统环境稳定运行后,可采用运维配置工具辅助管理网络、服务器、应用程序、后台程序及各种服务,帮助运维人员更加方便地完成升级软件包、管理配置文件、系统服务、计划执行任务、添加新的配置、修复错误等重复工作。另一方面,随着IT产业向云计算迈进,配置管理工具除了在提高效率方面发挥作用外,也会成为一种更有效的使用云计算的方式。
               当前主流的运维自动化配置管理工具大部分为开源软件,主要包括Puppet、Func、Chef、Cfengine及Capistrano等,其中以Puppet、Func和Chef最为常用,如下表所示。
               
               主要运维配置工具Puppet、Func和Chef
               典型例行操作运维监控工具
               信息系统设施运维通常采取基于反应的问题解决方案,但往往效率低下,而设施运维监控工具能够通过对各种设施的监测及数据的采集,及时对影响设施运行性能的事件(包括故障)发送告警,以便采取相应的处理措施,保证设施的正常安全运行。一个相对完善的运维监控工具应能够记录基础设施中运行的所有服务器和机器,能够在小问题变大之前发出警告;能从一个中心地点运行,而减少必须到每台物理设施才能解决问题的需求;能提供有关全系统状态、未解决问题等直观视图。
               但是,没有任何的监控工具可以监视运维所需的一切内容,因此首先需要根据需求制定明确的监控策略。
                      设施运维监控基本策略
                      为更好、更有效地保障系统上线后的稳定运行,对于信息系统设施中的硬件资源、性能、带宽、端口、进程、服务等都必须有一个可靠和可持续的监测策略和机制,需要明确定义监控的对象、方式,设定告警的优先级、标准等,具体策略包括以下内容。
                      (1)监控对象:在一个规模较大的网络中,监控的对象可能包括服务器、防火墙、交换机、路由器等设备及运行在各对象上的服务,不需要将所有的对象都放到监控系统中,监控策略的设计首先应明确监控对象。
                      (2)故障告警方式:对监控系统而言,一定要有合适的故障告警机制。目前常用的告警机制包括邮件、短信、MSN、Web页面显示等几种手段,这几种手段中,短信告警最佳。
                      (3)告警时效和间隔的选择:由于网络通信等不可控因素,可能存在故障误报的情况,不应将告警发送设置成一次探测不成功就发送。此外,故障告警开始发送以后,在收到确认排除前会持续发送,因此需要合理设置告警发送的间隔。
                      告警时效和间隔的策略参考建议:探测4次失败开始告警,告警间隔10分钟,总共发送8次,然后停止发送,假如第3次没有人去处理,监控工具电话通知,没有回应则取消该对象的监控,并记录该次事件。
                      (4)监控平台地点的选择:对于一个规模较大的网络,为解决南北互连问题一般会采取在多个地点建立数据中心的方法,这时需要对不同地理位置的服务器进行监控,也会遇到访问慢的问题。解决这个问题有几种方式:①选择一个到各个位置访问都顺畅的数据机房;②采取分布式监控平台,各处自己收集监控信息,然后到一处汇总;③各数据中心单独建立监控平台。
                      (5)定义告警优先级策略:对于监控到的事件,通常将访问网页出错、连接不到Socket等故障设置为优先告警。此外,对返回的延时、内容的信息,如访问网页的时间、访问网页取到的内容及其他数据指标等,可自定义告警条件,如对Ping监控的返回延时一般是10~30ms,当延时大于100ms时,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否有流量过大或者服务器CPU太高等问题;当监控到磁盘空间超过一个阈值时,可能会引起数据库损坏,服务响应变慢等问题,需要告警进行检查和处理。
                      (6)定义告警信息内容标准:当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。预先定义告警内容及标准能使收到的告警内容具有规范性及可读性。这一点对于用短信接收告警内容特别有意义,短信内容最多是70个字符,要用70个字符完全明确故障内容比较困难,更需要预先定义内容规范。例如,“视频直播服务器10.0.211.65在2012-10-1813:00电信线路监控到第1次失败”,清晰明了地告知故障信息。
                      (7)通过邮件接收汇总报表:设计固定周期收到网站服务器监控的汇总报表邮件,运维人员只需花很少的时间就能大致了解网站和服务器状态。
                      (8)定义故障告警主次:对于监控同一台服务器的服务,需要定义一个主要监控对象,当主要监控对象出现故障时,只发送主要监控对象的告警,其他次要的监控对象暂停监控和告警。例如,用Ping来做主要监控对象,如果Ping不通出现Timeout,表示服务器已经宕机或者断网,这时只发送服务器Ping告警并持续监控Ping,因为再继续监控和告警其他服务已经没有必要。这样既能大大减少告警消息数量,又可以让监控更加合理、更加有效率。
                      (9)规范本地部署的监控脚本,并归纳总结:对在本地部署的监控脚本要进行统一规范的部署并记录到知识管理系统中以便沉淀及优化。
                      (10)实现对常见性故障业务自我修复功能:实现对常见性故障业务自我修复功能脚本进行统一部署,并对修复后的故障进行检查,一般告警检查频次不多于3次。
                      (11)对监控的业务系统进行分级:如设置类似“一级系统7×24小时告警,二级系统7×12小时告警,三级系统5×8小时告警”这样的业务系统分级标准。
                      常用运维监控工具
                      当前主流的运维监控工具主要包括Nagios、Zabbix、Cacti、Gandia、Hyperic等,其中以Nagios、Zabbix和Cacti最为常用,如下表所示。
                      
                      主要运维监控工具Nagios、Zabbix和Cacti
               典型优化运维工具——日志分析
               日志在信息系统中是一个非常广泛的概念,任何程序都有可能输出日志,如操作系统内核、各种应用服务器等。日志分析工具是运维人员在响应支持运维中进行问题定位的有效辅助工具,也可以作为优化改善中预防性改进的有效辅助,越来越为运维人员所重视。
               当前主流的运维日志分析工具包括Splunk、Loggly、Airbrake、Graylog等,其中以Splunk和Loggly最为常用,如下表所示。
               
               主要运维日志分析工具Splunk和Loggly
               其他运维工具
               除了以上列举的运维专用工具之外,其他设施运维专用工外还包括信息资源管理工具(如glpi)、交互式拓扑绘制工具(如Network Notepad)、性能测试工具(如存储子系统读/写性能测试工具Iometer、网络性能测试工具Netperf)等。
               (1)信息资源管理工具glpi。它是Linux环境下的资源管理器工具,通过glpi可以建立设施资产清单(计算机、软件、打印机等)数据库,其功能可以简化管理员的日常工作,如带有邮件提醒功能的工作跟踪系统等。
               (2)交互式拓扑绘制工具Network Notepad。可以通过第三方工具自动发现网络拓扑,例如,使用CDP工具可以支持自动发现网络中所有思科的设备。在使用Network Notepad绘制网络拓扑图之前,应同时安装它的一些图形库,这些图形库中包含许多基本的网络设备图形,直接以拖曳的方式进行绘制即可。
               (4)存储子系统读/写性能测试工具Iometer。Iometer是Windows系统下对存储子系统的读/写性能进行测试的软件,可以显示磁盘系统的最大I/O能力、磁盘系统的最大吞吐量、CPU使用率、错误信息等。用户可以通过设置不同的测试参数,如存取类型(如sequential、random)、读/写块大小(如64KB、256KB)、队列深度等,来模拟实际应用的读/写环境进行测试。
               (5)网络性能测试工具Netperf。Netperf可以测试服务器网络性能,主要针对基于TCP或UDP的传输。Netperf根据应用的不同,可以进行不同模式的网络性能测试,即批量数据传输(bulkdata transfer)模式和请求/应答(request/response)模式。Netperf测试结果所反映的是一个系统能够以多快的速度向另外一个系统发送数据,以及另外一个系统能够以多快的速度接收数据。
               Netperf工具以Client/Server方式工作。Server端是Netserver,用来侦听来自Client端的连接,Client端是Netperf,用来向Server端发起网络测试。在Client与Server之间,首先建立一个控制连接,传递有关测试配置的信息,以及测试的结果;在控制连接建立并传递了测试配置信息以后,Client与Server之间会再建立一个测试连接,用于来回传递特殊的流量模式,以测试网络的性能。
               (6)端口扫描器Unicornscan。通过尝试连接用户系统分布式TCP/IP堆栈获得信息和关联关系的端口扫描器,该工具试图为研究人员提供一种可以刺激TCP/IP设备和网络并度量反馈的超级接口,主要功能包括带有所有TCP变种标记的异步无状态TCP扫描、异步无状态TCP标志捕获,通过分析反馈信息获取主动/被动远程操作系统、应用程序、组件信息等。
 
       监控
        主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行及潜在问题的及时发现与干预。
        (1)服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端Web Server,就可以有很多种类型的监控,包括应用端口状态监控,便于及时发现服务器或应用本身是否崩溃、通过ICMP包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,这些只是一部分,还有多种监控方式,依应用特点而定。还有一些问题需解决,如集群过大,如何高性能地进行监控也是一个现实问题。
        (2)集群状态类的监控或统计,为合理管理调优集群提供数据参考,包括服务瓶颈、性能问题、异常流量、攻击等问题。
 
       运维
        运维是运行维护的简称,是一种IT服务形态。在《信息技术服务分类与代码》(GB/T 29264-2012)中,对运行维护服务(operation maintenance service)给出的定义是“采用信息技术手段及方法,依据需方提出的服务级别要求,对其信息系统的基础环境、硬件、软件及安全等提供的各种技术支持和管理服务”。
        运维是信息系统全生命周期中的重要阶段,也是内容最多、最繁杂的部分,是对信息系统提供维护和技术支持以及其他相关的支持和服务。运维服务的主要对象包括基础设施、硬件平台、基础软件、应用软件以及依赖于IT基础设施的数据中心、业务应用等信息系统,其范围可以是单个IT基础设施的运维,也可以是整体IT基础设施和业务应用的总体运维。运维服务交付内容主要包括咨询评估、例行操作、响应支持和优化改善。
        在《信息技术服务分类与代码》(GB/T 29264-2012)中,将运行维护服务分成基础环境运维、硬件运维服务、软件运维服务、安全运维服务、运维管理服务和其他运行维护服务六类,每类运维服务及其说明见下表。
        
        运维服务分类与代码
        
        任何组织和个人提供运维服务需要依据需方提出的服务级别要求,并确保提供的运行维护服务符合与需方约定的质量要求。因此,具备相应运维服务能力是服务组织提供服务的必要条件,比如规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决事故和问题经验、提供知识的积累和共享手段、实现完善的IT运维管理、提高组织经营水平和服务水平等等。在《信息技术服务运行维护第1部分:通用要求》(GB/T 28827.1-2012)中给出了供方运维服务的能力模型,该模型定义了运行维护服务能力的四个关键要素:人员、资源、技术和过程,每个要素通过关键指标反映应具备的条件和能力。模型也给出了供方为持续提升运维能力的管理方法。
   题号导航      2019年下半年 信息系统运行管理员 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第23题    在手机中做本题