首页 > 知识点讲解
       应急处理流程
知识路径: > 大型网站运维 > 政府门户网站运维案例分析 > 
被考次数:2次     被考频率:低频率     总体答错率:82%     知识难度系数:     
相关知识点:24个      
        首先进行事件定级。信息安全突发事件级别分为四级:一般(Ⅳ级)、较大(Ⅲ级)、重大(Ⅱ级)和特别重大(Ⅰ级)。
        一般(Ⅳ级):指能够导致较小影响或破坏的信息安全事件。
        较大(Ⅲ级):指能够导致较严重影响或破坏的信息安全事件。
        重大(Ⅱ级):指能够导致严重影响或破坏的信息安全事件。
        特别重大(Ⅰ级):指能够导致特别严重影响或破坏的信息安全事件。
        对于处理故障时间,遇到信息安全突发事件按以下四个级别执行。
        一般(Ⅳ级),处理故障时间不能超过4个小时。
        较大(Ⅲ级),处理故障时间不能超过8个小时。
        重大(Ⅱ级),处理故障时间不能超过12个小时。
        特别重大(Ⅰ级),处理故障时间不应超过24小时。
        故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。
        “Ⅳ/一般”级别的信息安全事件由部门通过预警信息沟通,自行处置。
        当项目实施小组成员得到“三级/较大”“二级/重大”“一级/特别重大”级别的信息安全事件的报告时,应报请网站处领导,启动应急预案并进入相应的应急响应工作程序。
        在“三级/较大”“二级/重大”“一级/特别重大”安全事件发生或可能发生的情况下,按照以下流程进行处理。
        (1)项目实施小组向网站处领导通报信息安全事件情况,得到指令后立即启动相应的应急处理程序。
        (2)项目实施小组及时向网站处领导报告信息安全事件的发展情况,网站处领导应将情况及时上报中心主任。
               组织机构与职责
               (1)应急处理领导小组。职责:组织编制应急处理方案、领导指挥应急处理过程,向上级部门汇报处置情况。
               (2)值班巡检小组。职责:根据日常巡检制度对系统进行巡检和监控,发现问题及时根据预案启动应急流程。
               (3)应急处理小组。职责:执行应急处理措施,向应急领导小组汇报处理过程和结果,并填写应急处理记录。
               (4)系统运维小组。职责:在非应急状态下负责系统的功能更新、安全加固,并根据环境配置变化及时更新应急处置手册并进行培训。
               当接到报警电话,项目实施小组系统工程师迅速做出判断并验证故障现象。例如:发现XXX网站页面和各司局站点页面无法浏览;被黑客攻击等故障现象,经验证之后立刻给网站管理处打电话报告情况,判断为黑客攻击情况得到领导指示,可用VPN关闭XXX8.11和XXX8.12,并第一时间赶到现场。
               详细应急处置流程如下。
               (1)接到报警。
               当收到发送的服务器报警短信息后,第一时间联系应急处理领导小组,请示相应处理意见。如有网络可以进行相关页面查看,查看是否出现相关问题。
               得到相关指示要求处理时,最快时间到达现场进行相关业务排查。
               (2)业务排查。
               ①查看服务器是否正常连通,检查相关服务器ping服务(如:ping XXX8.22)。
               ②如果正常能够ping通,检查访问服务器的进程是不是正常(如:ps - ef|grep tomcat)。
               ③查看服务器的相关进程是不是正常启动。
               查看网站情况是否正常
               内网浏览器访问XXX8.47和XXX8.49是不是正常,如果正常说明属于网络的问题,如果不正常说明是服务器的问题。
               XXX.47和XXX.49查看iguard服务进程,查看命令为:
               
               如果有相应进程说明igrad同步端正常。
               查看一下CPU及其负载情况。查看命令为:top是不是负载过高引起系统运转缓慢。
               查看一下硬盘占用空间是不是已经满了。查看命令为:df-h查看空间是不是已经写满。
               查看内存情况是不是有剩余,查看命令为:free。
               查看igurad日志是不是正常。查看命令为:
               
               查看有无异常情况出现。
               如果Apache服务有问题,可以进行重新启动,命令如下。
               
               如果iguard进程出现问题,可以联系相关iguard厂商协助解决。
               查看发布平台。
               内网浏览器访问XXX8.153/wcm是不是正常,如果正常说明XXX服务正常,如果不能访问需要查看相应服务器服务是否正常。
               登录XXX.153查看tomcat进程是否正常ps-ef|grep Tomcat。查看iguard发布端是否正常ps-ef|grep iGurad。
               如tomcat进程不正常可以执行下面的代码。
               
               如依然不正常可以联系工程师协助解决。如igurad不正常可以联系iguard工程师协助解决。如遇到重大情况无法及时解决,将发布系统维护中index.htm页面暂时替换首页进行发布。等待问题解决后,按领导指示进行相应替换为正常页面。
               查看iguard日志文件。
               
               查看相应的日志文件alert-201209XX。log进行分析。
               查看wcm日志文件
               
               查看相应tail -f catalina.out或者more catalina.out文件日志。
               查看CPU及其负载状况,执行命令为:top查看是否运转正常。
               查看磁盘运转是否正常,执行命令为:df-k。
               查看监听情况,执行命令为:
               
               查看22端口和80端口是否正常。
               查看发布平台数据库
               查看Oracle进程,执行命令为:
               
               查看是否运行正常。
               
               查看监听是否正常运转。
               查看监听端口,执行命令为:
               
               查看是否为1521端口开放。
               查看相应日志文件
               
               数据备份
               将数据库文件和网页文件备份到相应数据库。
               发生安全事件时,应急处置工作人员30分钟内到达现场(判断为黑客攻击情况,并得到领导指示,可用vpn关闭XXX8.11和XXX8.12),一般情况下一小时内解决故障,恢复运行;对于有些特别重大而涉及面广的安全事件,也要在4小时内解决,不能解决的要及时上报中心领导,并说明原因和处理办法,需要请求中心支援的及时向中心领导报告。
               常见故障诊断及处理
               (1)服务器物理设备故障。
               故障现象。服务器无法正常连接,且设备面板指示灯有异常提示(细节参考服务器随机文档)。
               检查及处理方式。观察服务器指示灯信号,并根据设备随机手册查找故障说明。
               处理方式——检查设备的网线、电源线、光纤线缆是否松脱。如外接设备无松脱现象,应尽快联系设备售后服务机构现场处理,不得随意拆卸设备部件自行维修。
               (2)网络设备/链路故障
               注:此类故障发生概率一般较小,且通常会被总部先监控到。但当发生网站无法访问的故障时,维护人员应先排除是否由此类故障的可能性之后,再进行下一步排查工作。
               故障现象。互联网访问链路中断,网站服务器无法被外部访问到。故障现象是内网访问网站正常,但不能通过互联网访问网站。
               检查及处理方式。检查服务器自身服务是否正常运行在服务器控制台桌面(注意:指通过服务器设备直连的显示器、键盘、鼠标等设备访问服务器)。
               打开IE或其他Web浏览器,访问XXX88.10,如能正常显示首页,则表示服务器自身服务运行正常,可能是网络故障引起。
               在监控终端中,使用如下命令。
               
               如果返回超时,则表明网络故障可能发生在机房,请联系运行处协助处理。
               如果返回正常,则表明网络故障可能发生在上一环节,可能是前端的负载均衡设备工作异常或网络链路中断,请同时联系运行处处理。
               (3)网站未能正常运行。
               故障分析。当前网络环境正常,但无法通过内、外网访问网站首页。客户端浏览器显示网站无法访问之类的错误提示。
               导致该故障的可能原因有:服务未启动或启动了错误的Apache版本。系统自带软件防火墙或安全策略干扰。
               检查及处理方式。检查服务器自身服务是否正常运行。
               分别登录到两台Web服务器(XXX.47/XXX.49)的远程SSH终端或服务器控制台终端,并切换到root账户,输入如下命令:
               
               如果返回结果表明无httpd进程运行,需要重启Apache服务,操作命令为:
               
               如经过以上方式的排查,仍未能解决问题,则可能是Apache配置错误导致网站服务工作不正常,可通过error_log文件进行详细检查。
               (4)网站响应缓慢。
               故障分析。网站能访问,但响应极其缓慢,打开网页时间远超正常范围。
               导致该故障的可能原因有:服务器磁盘设备故障导致I/O性能低下;服务器网卡故障;网络设备或线路繁忙;服务器忙于处理大规模的并发请求(很可能是DDoS攻击);IHS自身不稳定导致资源耗尽而不能正常工作。
               检查及处理方式。检查机房网管监控中是否有网络流量异常现象。检查服务器硬盘指示灯是否有故障提示。检查当前的CPU和内容占用情况,观察httpd进程是否占用资源过多,操作命令:
               
               检查服务器当前tcp连接情况,观察对80端口的访问请求是否过多(正常情况一般在1000以下)。
               
               断开网线后,在服务器控制台桌面访问XXX88.10,如果访问速度正常,则表明服务器软、硬件工作正常。
               (5)网站页面更新不及时。
               故障分析。网站能访问,但网站中页面与后台发布信息不一致。
               导致该故障的可能原因有:WCM发布引擎未能正常生成HTML静态页面;文件未能正常同步到Web服务器中;未能正常监控到WCM发布目录中文件变化情况。
               检查及处理方式。直接访问WCM服务器XXX88.10,检查页面是否更新正常。如果WCM服务器中网页也未能正常更新,可重新在WCM中发布页面,或重新启动WCM服务器。如果WCM服务器中网页更新正常,则登录到XXX.153服务器SSH终端,检查文件iguard服务是否工作正常:
               
               如该服务未能正常启动,可通过如下命令启动:
               
               如果监控服务已经在运行,则检查Web服务器端iguard服务是否工作正常。
               通过SSH终端登录到XXX.47/XXX.49中,检查iguard服务是否工作正常。
               
               如以上方式均检查无问题,可在iguard服务器端,运行同步命令强制同步,并观察是否有错误信息输出。同时检查Web iguard服务器端中是否有错误提示。
               (6)搜索引擎工作不正常。
               故障分析。网站能访问,但网站搜索引擎页面出现错误信息且无法正常返回查询结果。
               导致该故障的可能原因有:搜索引擎中未正常配置搜索相关路径反向代理;搜索引擎服务运行故障。
               检查及处理方式。检查IHS配置文件是否加入对XXX8.21服务器的反向代理。
               
               如未能加入,则加入相关配置后重新运行。
               
               如已经正确配置,则检查文本搜索引擎是否工作正常,并重启相关服务。
               (7)WCM集群版中用户文件不一致
               故障分析。用户上传的文件无法正常访问。
               导致该故障的可能原因有:WCM集群中的应用通过NFS方式共享文件,如果某一节点中未能正常装载(mount)上/opt/XXXWCMV65/WCMData目录,则可能造成用户无法访问上传的文件。
               检查及处理方式。分别登录到XXX.20和XXX.42服务器中,检查相关目录是否绑定到NAS存储中。
               如发现未能正常绑定,则重新运行mount命令。mount-tnfsXXX.20:/opt/XXXWCMV65/WCMData//opt/XXXWCMV65/WCMData/。
               (8)WCM集群中应用工作不正常。
               故障分析。网站能访问,但登录“工作平台”出现系统异常页面。
               导致该故障的可能原因有:WCM集群中的应用工作不正常。
               检查及处理方式。登录XXX8.20或XXX8.42集群服务器执行命令ps-ef|grep Tomcat查看Tomcat服务。重新启动Tomcat服务。
               
               (9)应急预案演练。
               为提高突发事件应急响应水平,应急领导小组应定期组织一次预案演练;检验应急预案各环节之间的通信、协调、指挥等是否符合快速、高效的要求。通过演练,进一步明确应急响应各岗位责任,对预案中存在的问题和不足及时补充和完善。
               模拟紧急事件发生。
               模拟可能的软、硬件故障等;
               由监控人员通知应急小组负责人;
               小组负责人安排启动应急措施、通知各相关单位人员。
               故障排查。
               应急小组各角色根据模拟事件说明自己的工作,操作步骤,汇报对象;
               应急小组负责人判断故障处理情况;
               完成应急处理。
               恢复环境。
               应急小组各角色说明自己的工作,操作步骤;
               应急小组负责人宣布应急工作完成,安排值守人员,解散应急小组;
               负责人向领导小组汇报。
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。


工作时间:9:00-20:00

客服

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

商务合作

点击这里给我发消息

客服邮箱service@rkpass.cn


京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2023 All Rights Reserved 软考在线版权所有