组织机构与职责
考试要求: 了解     
知识路径:  > 大型网站运维  > 政府门户网站运维案例分析  > 应急处理流程


 
       (1)应急处理领导小组。职责:组织编制应急处理方案、领导指挥应急处理过程,向上级部门汇报处置情况。
       (2)值班巡检小组。职责:根据日常巡检制度对系统进行巡检和监控,发现问题及时根据预案启动应急流程。
       (3)应急处理小组。职责:执行应急处理措施,向应急领导小组汇报处理过程和结果,并填写应急处理记录。
       (4)系统运维小组。职责:在非应急状态下负责系统的功能更新、安全加固,并根据环境配置变化及时更新应急处置手册并进行培训。
       当接到报警电话,项目实施小组系统工程师迅速做出判断并验证故障现象。例如:发现XXX网站页面和各司局站点页面无法浏览;被黑客攻击等故障现象,经验证之后立刻给网站管理处打电话报告情况,判断为黑客攻击情况得到领导指示,可用VPN关闭XXX8.11和XXX8.12,并第一时间赶到现场。
       详细应急处置流程如下。
       (1)接到报警。
       当收到发送的服务器报警短信息后,第一时间联系应急处理领导小组,请示相应处理意见。如有网络可以进行相关页面查看,查看是否出现相关问题。
       得到相关指示要求处理时,最快时间到达现场进行相关业务排查。
       (2)业务排查。
       ①查看服务器是否正常连通,检查相关服务器ping服务(如:ping XXX8.22)。
       ②如果正常能够ping通,检查访问服务器的进程是不是正常(如:ps - ef|grep tomcat)。
       ③查看服务器的相关进程是不是正常启动。
       查看网站情况是否正常
       内网浏览器访问XXX8.47和XXX8.49是不是正常,如果正常说明属于网络的问题,如果不正常说明是服务器的问题。
       XXX.47和XXX.49查看iguard服务进程,查看命令为:
       
       如果有相应进程说明igrad同步端正常。
       查看一下CPU及其负载情况。查看命令为:top是不是负载过高引起系统运转缓慢。
       查看一下硬盘占用空间是不是已经满了。查看命令为:df-h查看空间是不是已经写满。
       查看内存情况是不是有剩余,查看命令为:free。
       查看igurad日志是不是正常。查看命令为:
       
       查看有无异常情况出现。
       如果Apache服务有问题,可以进行重新启动,命令如下。
       
       如果iguard进程出现问题,可以联系相关iguard厂商协助解决。
       查看发布平台。
       内网浏览器访问XXX8.153/wcm是不是正常,如果正常说明XXX服务正常,如果不能访问需要查看相应服务器服务是否正常。
       登录XXX.153查看tomcat进程是否正常ps-ef|grep Tomcat。查看iguard发布端是否正常ps-ef|grep iGurad。
       如tomcat进程不正常可以执行下面的代码。
       
       如依然不正常可以联系工程师协助解决。如igurad不正常可以联系iguard工程师协助解决。如遇到重大情况无法及时解决,将发布系统维护中index.htm页面暂时替换首页进行发布。等待问题解决后,按领导指示进行相应替换为正常页面。
       查看iguard日志文件。
       
       查看相应的日志文件alert-201209XX。log进行分析。
       查看wcm日志文件
       
       查看相应tail -f catalina.out或者more catalina.out文件日志。
       查看CPU及其负载状况,执行命令为:top查看是否运转正常。
       查看磁盘运转是否正常,执行命令为:df-k。
       查看监听情况,执行命令为:
       
       查看22端口和80端口是否正常。
       查看发布平台数据库
       查看Oracle进程,执行命令为:
       
       查看是否运行正常。
       
       查看监听是否正常运转。
       查看监听端口,执行命令为:
       
       查看是否为1521端口开放。
       查看相应日志文件
       
       数据备份
       将数据库文件和网页文件备份到相应数据库。
       发生安全事件时,应急处置工作人员30分钟内到达现场(判断为黑客攻击情况,并得到领导指示,可用vpn关闭XXX8.11和XXX8.12),一般情况下一小时内解决故障,恢复运行;对于有些特别重大而涉及面广的安全事件,也要在4小时内解决,不能解决的要及时上报中心领导,并说明原因和处理办法,需要请求中心支援的及时向中心领导报告。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有