免费智能真题库 > 历年试卷 > 信息系统管理工程师 > 2019年上半年 信息系统管理工程师 下午试卷 案例
  第5题      
  知识点:   系统运行   系统转换   工作流   监控   来源   数据采集   数据库   有效性   运行监控

 
【说明】
系统转换包括前期调研、数据整理、数据转换、系统转换、运行监控五个阶段。系统转换的整个工作流程如图5-1所示:

系统转换的主要任务包括:数据资源整合、新旧系统转换、新系统运行过程监控。说明如下:
1. 数据资源整合是整个系统转换的关键,包括:整理数据与数据转换两个步骤。其中,数据整理是将原系统中的数据整理为系统转换程序能够识别的数据;数据转换就是将整理完成的数据按照一定的转换规则转换成新系统要求的数据格式。
整理数据分为两个步骤:第一,将不同类型来源数据采集备份到统一的数据库中;第二,将原始数据进行整理,按照要求进入不同的中间数据库,为数据转换提供中间数据。
2. 新旧系统转换就是在数据正确的基础上,制定一个切实可行的计划,保证业务办理顺利、平稳过渡到新系统中进行。
3. 新系统运行监控就是在新系统正常运转后,还需要监控整个新系统运行有效性和正确性,以便及时对数据转换过程中出现的问题进行纠正。
请结合IT系统转换的相关知识对系统转换工作流程进行分析并回答下列问题。
 
问题:5.1   (1)请简要说明撰写原系统调研报告目的。
(2)原系统调研报告主要应包括哪些内容。
 
问题:5.2   (1)简要说明什么是数据迁移?
(2)系统转换的方法有哪几种?
 
问题:5.3   通常情况下,新旧系统转换应该包括哪些内容。
 
 
 

   知识点讲解    
   · 系统运行    · 系统转换    · 工作流    · 监控    · 来源    · 数据采集    · 数据库    · 有效性    · 运行监控
 
       系统运行
               系统管理分类
               IT系统管理工作主要是优化IT部门的各类管理流程,并保证能够按照一定的服务级别,为业务部门(客户)高质量、低成本地提供IT服务。IT系统管理工作可以按照以下两个标准予以分类。
                      按系统类型分类
                      (1)信息系统,企业的信息处理基础平台,直接面向业务部门(客户),包括办公自动化系统、企业资源计划(ERP)、客户关系管理(CRM)、供应链管理(SCM)、数据仓库系统(Date Warehousing)、知识管理平台(KM)等。
                      (2)网络系统,作为企业的基础架构,是其他方面的核心支撑平台。包括企业内部网(Intranet)、IP地址管理、广域网(ISDN、虚拟专用网)、远程拨号系统等。
                      (3)运作系统,作为企业IT运行管理的各类系统,是IT部门的核心管理平台。包括备份/恢复系统、入侵检测、性能监控、安全管理、服务级别管理、帮助服务台、作业调度等。
                      (4)设施及设备,设施及设备管理是为了保证计算机处于适合其连续工作的环境中,并把灾难(人为或自然的)的影响降到最低限度。包括专门用来放置计算机设备的设施或房间。
                      对IT资产(计算机设备、通信设备、个人计算机和局域网设备)的恰当的环境保护;有效的环境控制机制:火灾探测和灭火系统、湿度控制系统、双层地板,隐藏的线路铺设、安全设置水管位置,使其远离敏感设备、以及不间断电源和后备电力供应等。
                      按流程类型分类
                      (1)侧重于IT部门的管理,从而保证能够高质量地为业务部门(客户)提供IT服务。这一部分主要是对公司整个IT活动的管理,包括IT财务管理、服务级别管理、IT资源管理、能力管理、系统安全管理、新系统转换、系统评价等职能。
                      (2)侧重于业务部门的IT支持及日常作业,从而保证业务部门(客户)IT服务的可用性和持续性。这一部分主要是业务部门IT支持服务,包括IT日常作业管理、帮助服务台管理、故障管理及用户支持、性能及可用性保障等。
                      (3)侧重于IT基础设施建设,主要是建设企业的局域网、广域网、Web架构、Internet连接等。
               系统管理规范化
               系统管理的规范化涉及到人员职责、操作流程等方面标准的制定,并进行有效的标准化。企业IT部门除了IT部门组织结构及职责之外,还应该详细制定各类运作管理规章制度,主要包括:日常作业调度手册、系统备份及恢复手册、性能监控及优化手册、输出管理手册、帮助服务台运作手册、常见故障处理方法、终端用户计算机使用制度等与用户息息相关的IT支持作业方面的规范制度。此外,还包括服务级别管理手册、安全管理制度、IT财务管理制度、IT服务计费及成本核算、IT资源及配置管理、新系统转换流程、IT能力规划管理等由IT部门执行的以提供高质量IT服务为目的的管理流程。
               系统运作报告
               系统运行过程中的关键操作、非正常操作、故障、性能监控、安全审计等信息,应该实时或随后形成系统运作报告,并进行分析以改进系统管理水平。
               是否有流程保证对所有不属于标准操作的操作性问题给予记录(在问题管理系统内)、分析和及时处理?
                      系统日常操作日志
                      系统日志应该记录足以形成数据的信息,为关键性的运作提供审核追踪记录,并且保存合理的时间段。利用日志工具定期对日志进行检查,以便监控例外情况并发现非正常的操作、未经授权的活动、作业完成情况、存储状况、CPU、内存利用水平等。
                      性能/能力规划报告
                      企业需要了解其IT能力能否满足其业务需要,因此它需要了解系统性能、能力和成本的历史数据,定期形成月度、年度性能报告,并进行趋势分析和资源限制评估,在此基础之上增加或调整其IT能力。
                      性能监控工具应该主动地监控、测量和报告系统的性能,包括平均响应时间、每日交易数、平均无故障时间、CPU、存储器等的使用状况、网络性能等,从而可以有预见性地响应变化的业务需求。
                      故障管理报告
                      企业应定期产生有关问题的统计数据,这些统计数据包括:事故出现次数、受影响的客户数、解决事故所需时间和成本、业务损失成本等,可以供管理层对反复发生的问题进行根本原因的分析,并寻找改进的机会。
                      另外,对于每次故障处理应该进行数据记录、归类,作为基础,它应包括以下内容。
                      .目录,确定与故障相关联的领域,比如硬件、软件等。
                      .影响度,故障对业务流程的影响程度。
                      .紧迫性,故障需要得到解决的紧急程度。
                      .优先级,综合考虑影响度、紧迫性、风险和可用资源后得出的解决故障的先后顺序。
                      .解决方法,故障解决的流程、处理方法。
                      这样有利于使用知识管理系统来协助解决问题。
                      安全审计日志
                      为了能够实时监测、记录和分析网络上和用户系统中发生的各类与安全有关的事件(如网络入侵、内部资料窃取、泄密行为等),并阻断严重的违规行为,就需要安全审计跟踪机制来实现在跟踪中记录有关安全的信息。审计是记录用户使用计算机网络系统进行所有活动的过程,它是提高安全性的重要工具。
                      审计记录应包括以下信息:事件发生的时间和地点;引发事件的用户;事件的类型;事件成功与否。常见的审计记录可能包括:活动的用户账号和访问特权;用户的活动情况,包括可疑的行为;未授权和未成功的访问企图;敏感命令的运行等。
                      系统运作报告使对IT的整个运行状况的评价得以实现,IT报告应具备涵盖所有IT领域的关键业绩指标,例如风险及问题、财务状况、系统利用率、系统性能、系统故障时间、服务级别执行情况、安全审计等,这也为IT运作绩效的改进提供了基础。
 
       系统转换
        新的计算机系统在投入使用、替换原有的手工系统或旧的计算机系统之前,必需经过一定的转换程序。在系统转换之际,应制定一个详细的系统转换计划,并采取有效的控制手段,做好各项转换的准备工作(例如旧系统的结算汇总、人员的重新配置、新系统需要的初始数据的安全导入等)。
               系统转换计划
               系统转换的组织是一个较复杂的过程,必须根据详细的系统转换计划进行,根据事先确定的转换范围以及在设计阶段设计的转换步骤进行综合考虑,并根据以往的测试情况和测试数据精确地估计转换中的每一个步骤所需要的时间,然后根据依赖关系设定每一个步骤的先后次序、并行关系,最终确定转换的每一个步骤的内容、起止时间和责任人。并要求将转换方案细化到单个任务的命令清单和验证清单。此外,新旧系统的转换应尽量在最短的时间内完成,因而,系统转换方案要被制定得非常细致,每一个任务都明确了移植工作的内容、开始和完成的时间、每一个网点、每一个任务都要上报指挥中心。
               系统转换计划和进度安排是一个动态的和持续的过程,应当在实际的操作过程中不断地进行修改和完善。
               系统转换计划可以包括以下几个方面。
                      确定转换项目
                      要转换的项目可以是软件、数据库、文件、网络、服务器、磁盘设备,等等。这几种项目的转换方法是不同的。在系统转换之前,要确定转换项目,并充分了解转换该项目的基本经验和注意事项。
                      此外,还要做好转换准备,做好系统数据转换前的工作,并建立相关系统运行、内部支持和业务权限划分等系统管理制度,将培训贯彻到相关用户。
                      起草作业运行规则
                      作业运行规则根据单位的业务要求和系统的功能与特性来制定。可以先根据业务人员和技术人员的讨论结果起草一个临时规则,在以后的实践过程中可以随时对其进行修改。
                      系统转换时,可以先以原系统的作业为正式作业,新系统处理做为校对;然后以新系统处理为正式作业,原系统作业做为校对。
                      确定转换方法
                      系统转换的方法有4种:直接转换、试点后直接转换、逐步转换、并行转换。
                      (1)直接转换。在确定新系统运行准确无误后,用新系统直接替换旧系统,终止旧系统运行,中间没有过渡阶段。这种方式最简单最节省人员和设备费用,但风险大,很有可能出现想不到的问题。因此,这种方式不能用于重要的系统。
                      (2)试点后直接转换。某些系统有一些相同部分,例如系统中包括多个销售点、多个仓库等。转换时先选择一个销售点或仓库作为试点,试点成功后,其他部分可同时进行直接转换。这种方式风险较小,试点的部分可用来示范和培训其他部分的工作人员。
                      (3)逐步转换。它的特点是分期分批地进行转换。既避免了直接转换的风险性,又避免了平行转换时费用大的问题。此方式的最大问题表现在接口的增加上。由于系统的各部分之间往往相互联系,当旧系统的某些部分转换给新系统去执行时,其余部分仍由旧系统来完成,于是在已转换部分和未转换部分就出现了如何衔接的问题。所以,需要很好地处理新、旧系统之间的接口。在系统转换过程中,要根据出现的问题进行修改、调试,因此它也是新系统不断完善的过程。
                      (4)并行转换。这种方式安排了一段新、旧系统并行运行的时期。并行运行时间视业务内容及系统运行状况而定,一般来说,少则一两个月,多则半年。直到新系统正常运行有保证时,才可停止旧系统运行。其优点是可以进行两系统的对比,发现和改正新系统的问题,风险小、安全、可靠;缺点是耗费人力和设备。
                      许多新系统的实施不只是简单的功能转换,还是一个全新设计,新旧交易难以一一对比,新旧凭证差异较大。而且整个系统转换的范围可能是硬件、网络、系统软件、数据库、应用系统的复杂组合,实现新旧系统并行有一定困难。
                      并行转换的转换风险较小,但投入较大,而且新旧并行的条件较苛刻,要求做到主机的新旧并行;主机系统的新旧并行;网络的新旧并行;终端设备的新旧并行;主机应用系统的新旧并行;终端应用系统的新旧并行;对外接口的新旧并行;操作管理办法的新旧并行。
                      确定转换工具和转换过程
                      转换工具可以使系统转换的工作更有效率、更快地完成,在系统转换之前应当确定转换所用的工具。这种工具包括:基本软件、通用软件、专用软件以及其他软件,这几个种类的工具可以同时使用。
                      系统转换过程是系统转换计划中比较重要的部分,描述了执行系统转换所用的软件过程、设置运行环境的过程、检查执行结果的过程。在制定系统转换计划的时候,要准确地制定好系统的转换过程,在此基础上制定更详细、可不断修改的工作执行计划。
                      转换工作执行计划
                      转换工作执行计划是执行系统转换工作的一个具体的行动方面的计划,规定了在一定长度的时间内需要完成的一项一项的工作。转换过程中每一步骤要有检查核对手段,确认这一步正确后才能进行下一步。为了验证整个转换成功与否,转换后需进行内部试运行。同时也要做好新系统的初始化工作。需要注意的是,转换时点的选择与实际操作很重要,是关系转换成败的重要内容。
                      由于系统转换成功与否是非常重要的,所以在制定转换工作计划时,对转换的风险和困难要有充分的思想准备,仔细分析转换中的每一步骤中可能的风险点,制定相应的防范措施,设置恢复点,制定出现问题后的应对措施,并在整个转换时间上考虑一定的缓冲时间。技术应急方案和配套制度要在转换之前准备好,以备不时之需。应急方案中必须有恢复到初始点的能力,保证万一转换失败能恢复到启点以保证次日的正常使用。应急方案还包括投入使用后新系统中的应急措施。
                      转换期间的配套制度是另外一个成功关键点。为保证系统的顺利实施,在系统转换前,针对软件特点,对参与系统转换流程的人员、应用开发经理、项目经理、将服务导入业务领域的运作层用户,以及需要新服务满足业务需要的业务用户进行培训(包括事前的业务和管理培训、系统新功能培训、业务操作差异讲解)。同时要考虑系统整合与其他并购过渡方案的关系,包括时间上的关系、做法上的步骤等。
                      风险管理计划
                      为了确保系统转换的万无一失,不仅要在前期做很多次的模拟测试,对于最后的转换过程,也需要制定周密的风险管理计划,一般至少要包括以下这些方面。
                      (1)系统环境转换。保证原来所有到旧系统的访问,都能被转换到新系统上,这不仅包括应用系统的前端,还包括各类周边的相关应用系统,必须要同时指向新的应用系统。如果这方面出现问题,则只好退回到原有系统上。通常这方面的问题在多次的测试过程中能够得到有效解决,但在向生产系统正式转换时,还是不可掉以轻心。
                      (2)数据迁移。原有的旧系统从启用到被新系统取代,在其使用期间往往积累了大量珍贵的历史数据,其中许多历史数据都是新系统顺利启用所必需的。另外,这些历史数据也是进行决策分析的重要依据。数据迁移,就是将这些历史数据进行清洗、转换,并装载到新系统中的过程。在银行、电信、税务、工商、保险以及销售等领域发生系统转换时,一般都需要进行数据迁移。数据迁移的质量不仅仅是新系统成功上线的重要前提,同时也是新系统今后稳定运行的有力保障。如果数据迁移失败,新系统将不能被正常启用;如果数据迁移的质量较差,没能屏蔽全部的垃圾数据,对新系统将会造成很大的隐患,新系统一旦访问这些垃圾数据,可能会由这些垃圾数据产生新的错误数据,严重时还会导致系统异常。相反,成功的数据迁移可以有效地保障新系统的顺利运行,能够继承珍贵的历史数据。
                      将业务数据从旧系统迁移到新的系统中,不仅要保证在数据转换过程中保持数据逻辑的一致性(如果新、旧系统的数据逻辑不同),而且在实际转换过程中,还要保证新旧系统之间数据的同步,保证在转换之前新旧系统的数据是一致的,在转换之后,新产生的业务数据都能反映到新的系统中,不会有任何遗漏。为了准备在出现意外时能够将新的业务数据传回到旧系统中,需要充分做好数据备份,做好数据从新系统向旧系统转换的准备,而且也要充分考虑到数据同步的问题。其实将新系统转换回旧系统,其面临的风险和需要解决的问题,基本上是相同的。在新旧系统之间的数据转换工作,可以在前期的测试中完成,但新旧系统之间的数据同步,只有在实际转换时才能完成,所以一般都会受到项目管理者的高度重视,成为大家关注的焦点。
                      (3)业务操作的转换。由于新旧系统在业务操作方面可能会存在较大的变化,无论对业务人员做多少前期的培训,也难以完全改变旧的操作习惯,所以在转换到新的系统之后,还可能出现人为的业务操作方面的问题,导致业务处理方面出现差错。所以在系统转换后的相当时期内,仍然需要对业务处理进行跟踪检查,及时发现由于业务操作可能导致的问题。
                      (4)防范意外风险。在风险管理中,除了计划内考虑到的可能的风险,还可能出现许多意料不到的风险,所以在风险管理计划中,不仅要有对已经识别的风险的应对措施,还要有防范其他意外的应对措施,这主要就是一种管理上的措施,一旦出现事先没有考虑到的情况,仍要能够有条不紊地应对,各种资源保持就位,随时注意发现异常情况,对于出现的问题及时报告,明确对各类问题做出判断和决策的责任归属。也就是说,要具备一套能够应对各种风险的报告、决策机制。
                      系统转换人员计划
                      转换工作涉及的人员有:转换负责人、系统运行管理负责人、从事转换工作的人员、开发负责人、从事开发的人员、网络工程师和数据库工程师。
                      系统转换之前,要确保系统转换工作得到高级领导层的充分支持,并具有专职的、称职的、经授权的、有经验的负责人和精干的、有经验的工作人员,以及企业代表及技术代表的配备(若新系统是从其他公司购买的产品)。工作人员所应具备的素质有:实用经验;行业经验;分析技能;具体的技术专长;领导才能及经验。系统转换不仅是机器的转换、程序的转换,更难的是人工的转换,所以要提前做好人员的培训工作。
                      新旧系统的转换是一项严密的系统工程,组织、协调工作相当重要。首先,带领好这个团队所需要具备的条件有:正式的任务和职责;培训及知识共享举措;任务目标、计划、进度、问题及风险的传达;对人员配备水平、变化、缺少量及工作量的监控。然后要通过建立强有力的组织体系来保证各级组织严格按照预定程序或指令执行,遇到问题时能及时、准确地报告。组织体系中的指挥中心非常重要,整个上线工作如同是一次全方位的协同作战,需要一个由各方面人员组成的指挥中心来统一指挥、统一协调。
               系统转换的执行
               用新系统替换旧系统,从实施工作量到复杂程度都要大于单纯上一个新系统,因为要在面临如何解决好在不停止正常运作的情况下,或者是使业务的暂停时间最短的情况下,顺利实现系统转换。还面临着如何使业务人员在最短的时间内,放弃多年来在旧系统应用中已经形成的观念、业务流程和操作方法,熟练使用新的系统等问题。
               为了顺利地执行系统转换,需要以下的要素。
               .一套包括转换结束后的审查阶段在内的转换管理方法。
               .一个包括任务、资源及时间安排等方面在内的系统转换计划。
               .由负责质量监督或内部审计的人员完成的实施后审查。
               .使用模板并进行调查,以收集转换结束后的资料,并征求转换工作参与者的反馈。
               .在阶段和/或转换工作完成后,召开项目结束后的审查会议。
               .召开汇报会以交流实施后审查的成果,确保将改进措施编入现有方针、规程及未来的项目。
               系统转换的执行要由转换负责人、系统运行管理负责人、从事转换工作的人员、开发负责人、从事开发的人员、网络工程师和数据库工程师等共同合作完成。由于在制定系统转换计划的时候,就已经确定了转换项目、作业运行的规则、转换方法、转换过程、转换工具、转换工作执行计划、系统转换人员计划,所以在实际的系统转换实施的时候,就只需要按照先前设计的系统转换计划来进行工作。在进行系统转换的同时还要建立系统使用说明文档。系统使用说明文档应当使用简明、通用的语言说明系统各部分应如何工作、维护和恢复,主要使用说明文档有:用户操作手册(用户使用说明书)、计算机操作规程、程序说明书。
               系统转换评估
               系统转换完成后,要对转换后系统的性能进行评估,我们所关心的系统的性能主要是在CPU、主存、I/O设备、线路(速度、线数、流率)、工作负载、进度与运行时间区域等方面。
               新系统实际地运转起来,从而可以对新系统的各方面性能进行监测,得到实际的数据。分析这些数据,得到对系统的各方面指标评价的结论。最后可以确定是否达到了系统转换的要求,鉴别出有可能进一步改进的领域以及项目的优点和缺点,以便进行改进。
 
       工作流
               工作流的定义
               工作流(Workflow)是针对业务流程中具有固定程序的常规活动而提出的一个概念,通过将业务流程分解定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的目的,工作流技术为企业更好地实现经营目标提供了先进的手段。工作流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递文档、信息或者任务。
               一个工作流包括一组活动及它们的相互顺序关系,还包括过程及活动的启动和终止条件,以及对每个活动的描述。
               工作流管理系统
               工作流管理系统指运行在一个或多个工作流引擎上用于定义、实现和管理工作流运行的一套软件系统,它与工作流执行者(人、应用)交互,推进工作流实例的执行,并监控工作流的运行状态。
               工作流管理系统将业务流程中工作如何组织协调在一起的规则抽象出来,从而分离了具体工作的逻辑和流程组织的逻辑。我们在工作流管理系统的协助下:开发人员遵从一定的编程接口及约定,就可以开发出更具灵活性的事务处理系统;最终用户无需重新开发事务处理系统,就可以自己更改工作流程,以适应业务变化的需要。
               工作流管理系统可以描述不同覆盖范围和不同时间跨度的经营过程,根据经营过程以及组成活动的复杂程度,工作流管理系统可以采取多种实施方式,在不同实施方式中,所应用的信息技术、通信技术和支撑系统结构会有很大的差别,工作流管理系统的实际运行环境也可以在一个工作组内部,也可以在全企业所有业务部门。
               工作流管理系统在实际系统中的应用一般分为三个阶段:即模型建立阶段、模型实例化阶段和模型执行阶段。在模型建立阶段,通过利用工作流建模工具,完成企业经营过程模型的建立,将企业的实际经营过程转化为计算机可处理的工作流模型。模型实例化阶段完成为每个过程设定运行所需的参数,并分配每个活动执行所需要的资源,模型执行阶段完成经营过程的执行,在这一过程中,重要的任务是完成人机交互和应用的执行。
               工作流的功能
               工作流最大的优点是实现了应用逻辑与过程逻辑的分离,因此可以在不修改具体功能的实现情况下,通过修改过程模型来改变系统功能,完成对生产经营部分过程或全部过程的集成管理,有效地把人、信息和应用工具合理地组织在一起,发挥系统的最大效能。工作流技术可以支持企业实现对经营管理和生产组织的过程控制以及决策支持,实现现代企业对“在适当的时间把适当的信息传给适当的人”的要求。
               对于引入工作流的组织,能够在软件开发和业务两个层次受益。
               .方便开发,工作流管理系统能够简化企业级软件开发甚至维护。
               .降低开发风险——通过使用状态和动作这样的术语,业务分析师和开发人员使用同一种语言交谈。这样开发人员就不必将用户需求转化成软件设计了。
               .实现统一集中——业务流程经常变化,使用工作流系统的最大好处是:业务流程的实现代码,不再散落在各种各样的系统中。
               .加快应用开发——软件不用再关注流程的参与者,开发起来更快,代码更容易维护。
               .业务流程管理(BPM)——提高效率,在自动化过程中会去除一些不必要的过程。
               .提高对迭代开发的支持。
               如果软件中业务流程部分不容易更改,组织就需要花很大的精力在开发前的业务流程分析中,希望一次成功。但可悲的是,在任何软件项目开发中,这都很少能实现。工作流系统使得新业务流程很容易部署,业务流程相关的软件可以一种迭代的方式开发,因此使用工作流系统使开发更有效、风险更低。
 
       监控
        主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行及潜在问题的及时发现与干预。
        (1)服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端Web Server,就可以有很多种类型的监控,包括应用端口状态监控,便于及时发现服务器或应用本身是否崩溃、通过ICMP包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,这些只是一部分,还有多种监控方式,依应用特点而定。还有一些问题需解决,如集群过大,如何高性能地进行监控也是一个现实问题。
        (2)集群状态类的监控或统计,为合理管理调优集群提供数据参考,包括服务瓶颈、性能问题、异常流量、攻击等问题。
 
       来源
        (1)由信息技术支持工程师提供。召集有经验的信息技术支持工程师,要求他们提供知识库的内容,知识库的建立并不是某个人智慧的积累,毕竟一个人的知识和经验有限,我们需要在企业中营造这样一种乐意共享自身知识的氛围,能够提供有效知识条目的工程师能够获得奖励。发布一系列奖惩和鼓励措施。
        (2)从过往的事件和问题的处理日志中提炼。事件与问题的处理过程需要详细记录,能为下一次处理相同事件提供指导和参考。知识库内容可以从这些处理日志中提炼后获得,事件处理步骤的详细记录对于知识库内容的建立有着重要的帮助。
 
       数据采集
        数据采集阶段的主要任务就是获取各个不同数据源的各类数据,按照统一的标准进行数据的转换、清洗等工作,以形成后续数据处理的符合标准要求的数据集。
        原始数据往往形式多样,包括:结构化数据,例如业务系统中的交易明细、操作日志等;非结构化数据,例如企业中的各种文档数据,视频、音频等数据;半结构化数据,例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。
        当前的大数据处理中,数据的种类一般包括:
        .传感数据:传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展,传感数据越来越丰富,人们也逐渐发现了其数据价值。
        .业务数据:企业业务系统在执行日常业务活动时产生的大量数据,包括设备工况、操作记录、交易流水,以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好,在推荐或预测系统中有很大的利用价值。
        .人工输入数据:用户通过软件人机交互等主动输入的数据,典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入,手机APP应用的不断发展,这种用户产生的数据也越来越多,越来越丰富。
        .科学数据:通过科学研究和科学实验不断搜集和汇聚的数据,一般是以电子记录或文本的形式存在。
        从大数据的来源进行划分,其种类包括:
        .企业数据:企业自建的各种业务系统,如ERP、在线交易系统、招聘系统等,也会产生各种数据集。
        .政府数据:政府信息化已发展多年,构建了很多业务数据。近年来政府也在不断地建设大数据中心,发布各种数据,包括人社、医疗、税务、工商、财务等。
        .互联网数据:互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据,包括门户网站、社交信息、电商网站等等。
        其中,企业数据一般属于内部数据,而政府数据、互联网数据往往属于外部数据。
        从上面大数据的分类可以看出,数据来源渠道众多,差异非常大。因此,数据采集的主要任务就是进行数据的汇聚,为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术,针对外部数据,尤其是互联网数据的爬虫技术。
        数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
        ETL(Extract Transform Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
        基本的ETL体系结构示意图如下图所示。
        
        ETL体系结构示意图
        ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中,围绕上述三个核心环节进行了功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持和统计信息等,尽量降低ETL阶段的工作强度,减少工作量。
        数据转换和加工是三个环节的重点,因为抽取的数据中往往存在各种问题,例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等,并以工作流的形式进行各种方式的组合,以满足数据转换的需求。有的ETL工具也提供脚本支持,满足用户定制化的数据转换需求。
        常用的ETL工具有三种:DataStage、Informatica PowerCenter和Kettle。
        .DataStage:IBM公司的DataStage是一种数据集成软件平台,专门针对多种数据源的ETL过程进行了简化和自动化,同时提供图形框架,用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。
        .Informatica PowerCenter:Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源,包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。
        .Kettle:Kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,数据抽取高效稳定。管理来自不同数据库的数据,提供图形化的操作界面,提供工作流支持。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle包括4个产品:Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程(Transformation)。Pan批量运行由Spoon设计的ETL转换(例如使用一个时间调度器),是一个后台执行的程序,没有图形界面。Chef创建任务(Job),任务通过允许每个转换、任务、脚本等等,更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务(例如使用一个时间调度器)。
        由于很多大数据应用都需要来自互联网的外部数据,因此,爬虫技术也称为数据采集阶段的一个主要基础性的技术。
        网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。
        
        爬虫框架示意图
        爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
        网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、深层网络(Deep Web)爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标,其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。
        通用网络爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
        聚焦网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。
        深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:基于领域知识的表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单;基于网页结构分析的表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。常见的爬虫工具有如下三种:
        .Nutch:一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持,可以进行分布式抓取、存储和索引。Nutch采用插件结构设计,高度模块化,容易扩展。
        .Scrapy:是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫、Web2.0爬虫等。
        .Larbin:Larbin是一种开源的网络爬虫/网络蜘蛛,用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
        当数据采集到以后,需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍,此处不再详述。
 
       数据库
        数据库(DataBase,DB)是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。
        系统使用的所有数据存储在一个或几个数据库中。
 
       有效性
        有效性是指软件产品在指定的使用环境下,使用户获得满足准确度和完整性要求的规定目标的能力。
 
       运行监控
        运行监控指数据维护人员进行周期性、预定义的维护活动,及时获取数据资源状态,包括实时监控、预防性检查和常规作业。
        (1)实时监控:利用系统提供的工具化管理模块,如数据库日志管理或第三方提供的各类监测管理工具,对数据资源的存储与传输状态和相关设备进行记录和监控。主要监控内容包括数据的完整性;数据变化的速率;数据存储状态;数据对象应用频度;数据引用的合法性;数据备份的有效性;数据产生、存储、备份、分发、应用过程;数据安全事件等。
        (2)预防性检查:为保证信息系统的稳定运行,维护管理人员根据监控记录、运行条件和运行状况进行预先检查及趋势分析,及时发现其脆弱性,以便消除和改进。数据的预防性检查包括数据完整性的检查、数据冗余的检查及数据脆弱性的检查。
   题号导航      2019年上半年 信息系统管理工程师 下午试卷 案例   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
 
第5题    在手机中做本题