免费智能真题库 > 历年试卷 > 系统分析师 > 2014年上半年 系统分析师 下午试卷 案例
  第2题      
  知识点:   B/S结构   电子商务   B/S架构   ERP系统   J2EE   结论   数据采集   项目论证   信息化   业务处理

 
(共25分)
电子商务公司为了扩大业务规模,提高企业的信息化程度与工作效率,决定由公司的IT部门开发一套ERP系统。在系统建设之初,该公司召开了项目论证会,对于项目的可行性进行了分析。
在论证会上,公司主管领导王总首先介绍了公司目前的运营情况,分析了竞争对手的优势和劣势,认为该项目的成功实施将大大提高公司的竞争力,因此对该项目大力支持,并要求项目必须按期、高质量地完成。公司的中高层管理人员一致认为现有业务大量依靠人工记录,效率低下,急切希望能够依靠该系统的部署提高工作效率,也表示将大力支持项目的开发工作。
公司IT部门的负责人李总对项目开发中的技术问题进行了分析,他认为IT部门多年来一直从事J2EE平台上的应用开发,开发经验丰富。由于近两年来基于B/S结构的Web应用逐渐流行,加之该项目是公司的内部项目,系统功能清楚明确,因此建议可以首先基于B/S架构,采用Web技术进行项目开发,让员工边学边练,即使项目进展不顺利,也可以迅速切换到J2EE平台之上。李总还透露,IT部门最近通过内部关系得到了某竞争对手公司的部分核心业务组件,只要稍加修改就可以立即加入到新系统中,这样就会大大加快项目的进度。
公司业务部门的代表小张表示,ERP系统上线后需要大量的数据采集工作,现有业务人员没有足够的IT技能,短期内难以保证数据录入质量。另外,新系统可能会导致一些现有业务流程的改变,业务人员一开始将难以适应新的业务处理方式,可能会抵制使用该系统。
最后,公司销售部门和财务部门的代表在会上对ERP系统的建设成本和收益进行了详细的分析和比较,给出了相应的结论
 
问题:2.1   在信息系统建设项目中,通常从经济可行性、技术可行性、法律可行性和用户使用可行性四个方面来进行可行性分析。请用300字以内的文字简要说明项目可行性分析这四个方面各自的主要内容。
 
问题:2.2   请根据题干描述的项目开发总体思路,用600字以内的文字对技术可行性、法律可行性和用户使用可行性进行初步分析,并给出分析结论。
 
问题:2.3   假设本项目有甲、乙、丙三个解决方案,投资总额均为1000万元,建设期均为2年,运营期均为4年,运营期各年末净现金流入量总和为2000万,年利率为10%,三种方案的现金流量表如表2-1所示。

请根据表2-1中的数据,计算甲、乙、丙三种方案的净现值,给出具体计算过程,并说明那种方案最优。
 
 
 

   知识点讲解    
   · B/S结构    · 电子商务    · B/S架构    · ERP系统    · J2EE    · 结论    · 数据采集    · 项目论证    · 信息化    · 业务处理
 
       B/S结构
        在三层C/S结构中,表示层负责处理用户的输入和向客户的输出(出于效率的考虑,它可能在向上传输用户的输入前进行合法性验证)。功能层负责建立数据库的连接,根据用户的请求生成访问数据库的SQL语句,并把结果返回给客户端。数据层负责实际的数据库存储和检索,响应功能层的数据处理请求,并将结果返回给功能层。
        浏览器/服务器(Browser/Server, B/S)风格就是上述三层应用结构的一种实现方式,其具体结构为:浏览器/Web服务器/数据库服务器。B/S结构主要是利用不断成熟的WWW浏览器技术,结合浏览器的多种脚本语言,用通用浏览器就实现了原来需要复杂的专用软件才能实现的强大功能,并节约了开发成本。从某种程度上来说,B/S结构是一种全新的软件体系结构。
        在B/S结构中,除了数据库服务器外,应用程序以网页形式存放于Web服务器上,用户运行某个应用程序时只需在客户端上的浏览器中键入相应的网址,调用Web服务器上的应用程序并对数据库进行操作完成相应的数据处理工作,最后将结果通过浏览器显示给用户。可以说,在B/S模式的计算机应用系统中,应用(程序)在一定程度上具有集中特征。
        基于B/S结构的软件,系统安装、修改和维护全在服务器端解决。用户在使用系统时,仅仅需要一个浏览器就可运行全部的模块,真正达到了“零客户端”的功能,很容易在运行时自动升级。B/S结构还提供了异种机、异种网、异种应用服务的联机、联网、统一服务的最现实的开放性基础。
        与C/S结构相比,B/S结构也有许多不足之处,例如:
        (1)B/S结构缺乏对动态页面的支持能力,没有集成有效的数据库处理功能。
        (2)B/S结构的系统扩展能力差,安全性难以控制。
        (3)采用B/S结构的应用系统,在数据查询等响应速度上,要远远地低于C/S结构。
        (4)B/S结构的数据提交一般以页面为单位,数据的动态交互性不强,不利于OLTP应用。
 
       电子商务
        电子商务是指买卖双方利用现代开放的Internet网络,按照一定的标准所进行的各类商业活动,主要包括网上购物、企业之间的网上交易和在线电子支付等新型的商业运营模式。狭义的电子商务是指利用Web提供的通信手段在网上买卖产品或提供服务;广义的电子商务除了以上内容外,还包括企业内部的商务活动,如生产、管理、财务等,以及企业间的商务活动,即把买家、卖家、厂家和合作伙伴通过Internet、Intranet和Extranet连接起来所开展的业务。
        电子商务分三个方面,即电子商情广告、电子选购和交易,电子交易凭证的交换、电子支付与结算,以及网上售后服务等。参与电子商务的实体有四类:顾客(个人消费者或集团购买)、商户(包括销售商、制造商和储运商)、银行(包括发卡行和收单行)及认证中心。电子商务主要有三种模式:
        (1)B2B(Business To Business,企业对企业)是指企业与企业之间通过互联网进行产品、服务及信息的交换。B2B电子商务模式包括两种基本模式,一种是企业之间直接进行的电子商务(如制造商的在线采购和在线供货等),另一种是通过第三方电子商务网站平台进行的商务活动。
        (2)B2C(Business To Customer,企业对个人)是商家对消费者,也就是通常说的商业零售,即直接面向消费者销售产品和服务。最具有代表性的B2C电子商务模式就是网上零售网站。B2C电子商务的模式并不是唯一的,专门依靠网站开展网上零售只是B2C电子商务的一种形式,企业网站也可以开设面向消费者的在线直接销售,这也是B2C电子商务的表现形式。
        (3)C2C(Customer To Customer,个人对个人)是消费者对消费者的交易,简单地说就是消费者本身提供服务或产品给消费者,最常见的形态就是个人工作者提供服务给消费者,如保险从业人员、促销人员的在线服务及销售网点或商品竞标网站。此类网站非企业对消费者,而是由提供服务的消费者与需求服务的消费者私下达成交易的方式。C2C商务平台就是通过为买卖双方提供一个在线交易平台,使卖方可以主动提供商品上网拍卖,而买方可以自行选择商品进行竞价。
 
       B/S架构
        在三层C/S架构中,表示层负责处理用户的输入和向客户的输出(出于效率的考虑,它可能在向上传输用户的输入前进行合法性验证)。功能层负责建立数据库的连接,根据用户的请求生成访问数据库的SQL语句,并把结果返回给客户端。数据层负责实际的数据库存储和检索,响应功能层的数据处理请求,并将结果返回给功能层。
        浏览器/服务器(Browser/Server,B/S)风格就是上述三层应用结构的一种实现方式,其具体结构为:浏览器/Web服务器/数据库服务器。B/S架构主要是利用不断成熟的WWW浏览器技术,结合浏览器的多种脚本语言,用通用浏览器就实现了原来需要复杂的专用软件才能实现的强大功能,并节约了开发成本。从某种程度上来说,B/S结构是一种全新的软件架构。
        在B/S架构中,除了数据库服务器外,应用程序以网页形式存放于Web服务器上,用户运行某个应用程序时只须在客户端上的浏览器中输入相应的网址,调用Web服务器上的应用程序并对数据库进行操作完成相应的数据处理工作,最后将结果通过浏览器显示给用户。可以说,在B/S模式的计算机应用系统中,应用(程序)在一定程度上具有集中特征。
        基于B/S架构的软件,系统安装、修改和维护全在服务器端解决。用户在使用系统时,仅仅需要一个浏览器就可运行全部的模块,真正达到了“零客户端”的功能,很容易在运行时自动升级。B/S架构还提供了异种机、异种网、异种应用服务的联机、联网、统一服务的最现实的开放性基础。
        与C/S架构相比,B/S架构也有许多不足之处,例如:
        (1)B/S架构缺乏对动态页面的支持能力,没有集成有效的数据库处理功能。
        (2)B/S架构的系统扩展能力差,安全性难以控制。
        (3)采用B/S架构的应用系统,在数据查询等响应速度上,要远远地低于C/S架构。
        (4)B/S架构的数据提交一般以页面为单位,数据的动态交互性不强,不利于OLTP应用。
 
       ERP系统
               ERP的定义
               ERP(Enterprise Resource Planning,企业资源计划系统)的概念,是美国Gartner Group公司于1990年提出的,描述下一代制造商业系统和制造资源计划(MRPII)软件。除了MRP Ⅱ已有的生产资源计划,制造、财务、销售、采购等标准功能外,还包括质量管理,实验室管理,业务流程管理,产品数据管理,存货、分销与运输管理,人力资源管理和定期报告系统等功能。
               Gartner Group提出ERP具备的功能标准应包括四个方面。
               (1)超越MRP Ⅱ范围的集成功能。包括质量管理;试验室管理;流程作业管理;配方管理;产品数据管理;维护管理;管制报告和仓库管理。
               (2)支持混合方式的制造环境。包括既可支持离散又可支持流程的制造环境;按照面向对象的业务模型组合业务过程的能力和国际范围内的应用。
               (3)支持能动的监控能力,提高业务绩效。包括在整个企业内采用控制和工程方法;模拟功能;决策支持和用于生产及分析的图形能力。
               (4)支持开放的客户机/服务器计算环境。包括客户机/服务器体系结构;图形用户界面(GUI);计算机辅助设计工程(CASE),面向对象技术;使用SQL对关系数据库查询;内部集成的工程系统、商业系统、数据采集和外部集成(EDI)。
               ERP把客户需求和企业内部的制造活动以及供应商的制造资源整合在一起,形成企业一个完整的供应链,其核心管理思想主要体现在以下3个方面。
               (1)体现对整个供应链资源进行管理的思想。
               (2)体现精益生产、敏捷制造和同步工程的思想。
               (3)体现事先计划与事前控制的思想。
               ERP是对MRP Ⅱ的超越,从本质上看,ERP仍然是以MRP Ⅱ为核心,但在功能和技术上却超越了传统的MRP Ⅱ,它是以顾客驱动的、基于时间的、面向整个供应链管理的企业资源计划。ERP采用的基础技术将同时给用户软件和硬件两方面的独立性从而更加容易升级。ERP的关键在于所有用户能够裁剪其应用,因而具有天然的易用性。
               ERP是一个对企业资源进行有效共享与利用的系统。ERP通过信息系统对信息进行充分整理、有效传递,使企业的资源在购、存、产、销、人、财、物等各个方面能够得到合理地配置与利用,从而实现企业经营效率的提高。从本质上讲,ERP是一套信息系统,是一种工具。ERP在系统设计中可集成某些管理思想与内容,可帮助企业提升管理水平。
               但是,ERP本身不是管理,它不可以取代管理。ERP本身不能解决企业的管理问题。企业的管理问题只能由管理者自己去解决。ERP可以是管理者解决企业管理问题的一种工具。不少企业因为错误地将ERP当成了管理本身,在ERP实施前未能认真地分析企业的管理问题,寻找解决途径,而过分地依赖ERP来解决问题。最后,不但老的问题得不到有效解决,还产生了许多新的问题,最终导致了ERP实施的失败。企业也因此而伤了元气。正确地认识ERP是什么与不是什么,就会在ERP实施之前认真分析企业在管理上存在的问题,了解ERP对解决这些问题的作用,充分细致地计划与落实利用ERP解决这些问题的程序,为ERP充分发挥效率提供基础。
               ERP应用成功的标志是:
               (1)系统运行集成化,软件的运作跨越多个部门。
               (2)业务流程合理化,各级业务部门根据完全优化后的流程重新构建。
               (3)绩效监控动态化,绩效系统能即时反馈以便纠正管理中存在的问题。
               (4)管理改善持续化,企业建立一个可以不断自我评价和不断改善管理的机制。
               新一代ERP的核心技术
               为了应对管理软件所面临的变化、知识、分布与集成这四大挑战,解决存在的需求与软件脱节和企业变化快与软件调整难的两大问题,新一代ERP应该采用下面四项核心技术,即软件体系结构、企业建模、集成框架与平台和工作流。
               基于体系结构的软件开发是管理软件发展的关键,体系结构是需求和设计之间反映决策信息的中间过程,软件开发通过问题定义→软件需求→软件体系结构→软件设计→软件实现几个步骤实现。可见,体系结构将软件系统的结构信息独立于算法与数据,创建满足系统需要的结构,其本质是模型的层次化。
               基于企业模型来构建是管理软件发展的核心。企业建模是认识企业、描述企业的最科学有效的手段,是准确了解企业需求、定义软件功能和流程的有效方法。它是用户、软件厂商、实施单位交流的媒介和基础平台。同时,企业建模是知识管理的基础,企业可重用的知识包含在企业模型和模板中,企业模型是企业知识的一种表现形式,也是实现企业知识积累的有效方法。基于软件体系结构和企业模型建立管理软件的业务架构已经成为管理软件开发公司重要的核心能力。
               集成框架和平台是企业管理软件发展的蓝图。通过集成平台,将各种软件集成在一个平台下,实现企业管理软件和其他信息系统的无缝集成,扩展软件的服务水平。
               工作流是提高企业管理软件柔性的重要使能技术。通过工作流来管理企业业务流程,使得管理软件中流程与功能分离,克服了传统的设计开发方法的不足——过程和功能集中在一起。软件开发需要经过三次分离:即数据库的分离——成功(理论具备完整的数据库模型),用户接口的分离——没有完全成功(缺乏模型指导)和流程的分离——正在进行(是大势所趋),而工作流正是流程分离的关键技术。
               软件体系结构、企业建模、工作流和集成框架和平台形成了管理软件开发实施的核心技术。同时,必须实现软件开发的标准化,标准化是实现软件管理软件高度可重用和柔性的基础支撑。
               新一代ERP的体系结构
               新一代ERP系统的体系结构如下图所示。它是基于企业模型和工作流系统来构建的,底层是操作系统、网络、数据库和基础组件平台组成的系统平台,作为整个系统的基础结构。中间层是由工作流系统、集成管理、公共应用服务组件等组成的应用平台。该平台作为ERP以及其他信息系统的构建平台。在这个基础结构之上建立ERP系统,通过ERP的各个功能组件组成核心业务组件框架,而各个行业的ERP系统可以在此基础上构建。并通过统一的企业入口向企业客户提供服务。
               
               新一代ERP的体系结构
               新一代ERP的实施过程包含四个主要阶段:企业(业务)战略规划、信息系统战略规划、信息系统实现和信息系统运行维护,并且这四个阶段是随着企业战略的不断调整和信息化工作的不断深入循环进行的。
               以企业模型作为底层支撑平台来实施信息化整体解决方案,利用企业建模过程中各阶段模型的演化来推进整体解决方案实施过程的演进,并通过模型演化过程中模型的一致性来保证整体解决方案的集成性和一致性。在实施过程的不同阶段,有着不同层次的企业模型作为实施的支撑,下面分别讨论各个阶段基于企业建模的实施步骤,以及各个层次的企业模型之间的映射关系和演化过程。
                      企业业务战略规划
                      面向信息系统实施的企业业务战略规划需要完成的工作包括企业定位、企业现状分析、制定业务目标与所采用的战略、确定达到目标的关键成功因素、为信息系统的规划和设计提供业务框架。
                      在这个阶段,首先要根据企业现状建立面向产品全生命周期、以业务过程为核心、集成包含企业组织结构、资源结构的需求层的企业模型。这个企业模型描述的核心是企业粗线条的业务模型,目标是对企业业务进行现状分析和诊断优化,我们称这个层次的企业模型为业务核心模型。
                      信息系统战略规划
                      在信息系统战略规划阶段需要完成的工作是从企业的业务系统框架到信息系统框架的转化。信息系统框架包含的内容是企业整体信息系统的功能结构、数据结构和集成框架,以及信息系统的实施策略、实施方法和实施计划。
                      基于企业建模的信息系统战略规划就是在模型上完成从需求层的业务核心模型到设计层的信息系统模型的抽取过程,如下图所示。根据建立并优化分析好的业务核心模型,从过程模型中根据功能抽离组织出信息系统需要实现的业务功能和功能结构,并且将过程中涉及的活动、活动之间的逻辑关系和活动之间的数据流映射成这些功能单元里面的功能操作、功能单元之间的交互关系以及整个信息系统中的数据流,这些功能单元将配置成最后运行的信息系统中的子系统或者系统组件。将过程模型中活动使用的和传递的各种可以用表单形式表达的数据抽取整理成为信息模型,描述数据结构和数据关系,同时功能单元之间交互的数据来源于这个信息模型。最后,再根据业务核心模型中描述的业务过程所关联的产品信息、组织信息和资源信息,可以确定未来数据库的系统结构、网络结构,构造信息系统各功能单元之间的集成框架。
                      
                      从业务核心模型到信息系统模型
                      信息系统实施
                      信息系统实施阶段根据实施信息系统战略规划确定的信息系统框架和实施方法、计划将信息系统搭建或者开发完毕,并且根据需要完成企业信息系统管理系统的开发。
                      系统实施相应可以分为三个方面:对已有系统的重新包装;对系统提供商提供的系统组件进行裁剪组合;对新系统/组件进行编码开发。
                      信息系统运行维护
                      信息系统运行阶段的工作包括技术与系统培训、运行管理制度制定、信息系统运行、系统日志建立、运行性能评价和信息系统调整等工作。
                      基于工作流模型的信息系统管理系统可以自动完成信息系统的运行和管理功能,并且工作流管理系统可以自动建立有效的系统日志和数据仓库,利用数据分析技术可以对日志数据进行挖掘分析,来评价信息系统的运行性能,及时发现信息系统存在的错误和潜在的问题,完成信息系统的维护工作。
 
       J2EE
        J2EE的全称是Java2EnterpriseEdition,它是由SUN公司领导,各厂商共同制定,并得到广泛认可的工业标准。业内许多大的应用服务器厂商如IBM、BEA、Oracle等都积极地参与J2EE标准的制定和实施工作。
        J2EE是专门为企业应用制定的标准,企业可以用它来编制企业级的应用,它为企业应用提供了数据库存取,交易完整性,可靠消息传递等功能。从公元2000年开始,越来越多的企业把自己的关键应用开始构建在支持J2EE标准的Web应用服务器之上。现在主流的一些J2EE应用服务器都可以支持企业应用所需的稳定性、可用性、安全性、可靠性、可扩展性等。
 
       结论
        从上面的概念和例子可以看出,要进行上面的白盒测试是需要投入巨大的测试资源,包括人力、物力和时间等。但是为什么还要进行白盒测试呢?原因如下。
        . 逻辑错误和不正确假设与一条程序路径被运行的可能性成反比。当我们设计和实现主流之外的功能、条件或控制时,错误往往开始出现在我们的工作中。日常处理往往被很好地了解(和很好地细查),而“特殊情况”的处理则难以发现。
        . 我们经常相信某逻辑路径不可能被执行,而事实上,它可能在正常的基础上被执行。程序的逻辑流有时是违反直觉的,这意味着我们关于控制流和数据流的一些无意识的假设,可能导致设计错误。只有路径测试才能发现这些错误。
        . 印刷上的错误是随机的。当一个程序被翻译为程序设计语言源代码时,有可能产生某些打印错误,很多将被语法检查机制发现,但是,其他的错误只有在测试开始时才会被发现。打印错误出现在主流上和出现在不明显的逻辑路径上的可能性是一样的。
 
       数据采集
        数据采集阶段的主要任务就是获取各个不同数据源的各类数据,按照统一的标准进行数据的转换、清洗等工作,以形成后续数据处理的符合标准要求的数据集。
        原始数据往往形式多样,包括:结构化数据,例如业务系统中的交易明细、操作日志等;非结构化数据,例如企业中的各种文档数据,视频、音频等数据;半结构化数据,例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。
        当前的大数据处理中,数据的种类一般包括:
        .传感数据:传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多,如人身体的传感数据,网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展,传感数据越来越丰富,人们也逐渐发现了其数据价值。
        .业务数据:企业业务系统在执行日常业务活动时产生的大量数据,包括设备工况、操作记录、交易流水,以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好,在推荐或预测系统中有很大的利用价值。
        .人工输入数据:用户通过软件人机交互等主动输入的数据,典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入,手机APP应用的不断发展,这种用户产生的数据也越来越多,越来越丰富。
        .科学数据:通过科学研究和科学实验不断搜集和汇聚的数据,一般是以电子记录或文本的形式存在。
        从大数据的来源进行划分,其种类包括:
        .企业数据:企业自建的各种业务系统,如ERP、在线交易系统、招聘系统等,也会产生各种数据集。
        .政府数据:政府信息化已发展多年,构建了很多业务数据。近年来政府也在不断地建设大数据中心,发布各种数据,包括人社、医疗、税务、工商、财务等。
        .互联网数据:互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据,包括门户网站、社交信息、电商网站等等。
        其中,企业数据一般属于内部数据,而政府数据、互联网数据往往属于外部数据。
        从上面大数据的分类可以看出,数据来源渠道众多,差异非常大。因此,数据采集的主要任务就是进行数据的汇聚,为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术,针对外部数据,尤其是互联网数据的爬虫技术。
        数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
        ETL(Extract Transform Load)用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
        基本的ETL体系结构示意图如下图所示。
        
        ETL体系结构示意图
        ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中,围绕上述三个核心环节进行了功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持和统计信息等,尽量降低ETL阶段的工作强度,减少工作量。
        数据转换和加工是三个环节的重点,因为抽取的数据中往往存在各种问题,例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等,并以工作流的形式进行各种方式的组合,以满足数据转换的需求。有的ETL工具也提供脚本支持,满足用户定制化的数据转换需求。
        常用的ETL工具有三种:DataStage、Informatica PowerCenter和Kettle。
        .DataStage:IBM公司的DataStage是一种数据集成软件平台,专门针对多种数据源的ETL过程进行了简化和自动化,同时提供图形框架,用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。
        .Informatica PowerCenter:Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源,包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。
        .Kettle:Kettle是一款国外开源的ETL工具,纯Java编写,可以在Windows、Linux、UNIX上运行,数据抽取高效稳定。管理来自不同数据库的数据,提供图形化的操作界面,提供工作流支持。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle包括4个产品:Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程(Transformation)。Pan批量运行由Spoon设计的ETL转换(例如使用一个时间调度器),是一个后台执行的程序,没有图形界面。Chef创建任务(Job),任务通过允许每个转换、任务、脚本等等,更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务(例如使用一个时间调度器)。
        由于很多大数据应用都需要来自互联网的外部数据,因此,爬虫技术也称为数据采集阶段的一个主要基础性的技术。
        网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。
        
        爬虫框架示意图
        爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接,维护已经爬取的URL集合和未爬取的URL集合,提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页,并从中解析出新的URL链接交给URL管理器,解析出有效数据交给数据存储器。
        网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、深层网络(Deep Web)爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标,其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。
        通用网络爬虫,爬行对象从一些种子URL扩充到整个Web,主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。常用的爬行策略有:深度优先策略、广度优先策略。
        聚焦网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比,聚焦爬虫只需要爬行与主题相关的页面,可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性,常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。
        深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写,包含两种类型:基于领域知识的表单填写,此方法一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单;基于网页结构分析的表单填写,此方法一般无领域知识或仅有有限的领域知识,将网页表单表示成DOM树,从中提取表单各字段值。常见的爬虫工具有如下三种:
        .Nutch:一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持,可以进行分布式抓取、存储和索引。Nutch采用插件结构设计,高度模块化,容易扩展。
        .Scrapy:是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫、Web2.0爬虫等。
        .Larbin:Larbin是一种开源的网络爬虫/网络蜘蛛,用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
        当数据采集到以后,需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍,此处不再详述。
 
       项目论证
        概念
        “先论证,后决策”是现代项目管理的基本原则。项目论证是指对要实施项目技术上的先进性、适用性,经济上的合理性、盈利性,实施上的可能性、风险性进行全面科学的综合分析,为项目决策提供客观依据的一种技术经济研究活动。
        项目论证应该围绕市场需求、开发技术、财务经济三个方面展开调查和分析,市场是前提,技术是手段,财务经济是核心。通过项目论证,需要回答以下方面的问题:
        .项目产品或市场的需求、实施项目的目的。
        .项目实施需要的人力、物力资源及其供应。
        .项目需要的资金及筹资渠道。
        .项目采用的技术及项目的生命力。
        .项目的规模及物理布局。
        作用
        项目论证的作用主要体现在以下几个方面:
        .项目论证是确定项目是否实施的依据。
        .项目论证是筹措资金,向银行贷款的依据。
        .项目论证是编制计划、设计、采购、施工以及机构设置、资源配置的依据。
        .项目论证是防范风险、提高项目效率的重要保证。
        阶段划分
        项目论证一般分为机会研究、初步可行性研究和详细可行性研究三个阶段。对各个阶段的工作内容、费用、准确性要求如下表所示。
        
        项目论证的阶段划分
        项目投资前期的4个阶段包括机会研究、初步可行性研究、详细可行性研究、评估与决策。前三个阶段即项目论证的三个阶段,在实际工作中,这三个阶段依项目的规模和繁简程度可把前两个阶段省略或合二为一,但详细可行性研究是不可缺少的。升级改造项目只做初步和详细研究,小项目一般只进行详细可行性研究。
        在初步可行性研究之前,如果就投资可能性已进行了项目机会研究,那么项目的初步可行性研究阶段往往可以省去。如果关于部门或资源的机会研究包括足够的项目数据,则可继续进入项目详细可行性研究阶段或决定中止进行这一研究。但是,如果项目的经济效果使人产生疑问,就要进行初步可行性研究来确定项目是否可行。
        一般程序
        项目论证是一个连续的过程,它包括问题的提出、制订目标、拟定方案、分析评价,最后从多种可行的方案中选出一种比较理想的最佳方案供投资者决策,一般包括以下7个主要步骤:
        (1)明确项目范围和业主目标。
        (2)收集并分析相关资料。
        (3)拟定多种可行的能够相互替代的实施方案。
        (4)多方案分析比较。
        (5)选择最优方案进一步详细全面地论证。
        (6)编制项目论证报告、环境影响报告书和采购方式审批报告。
        (7)编制资金筹措计划和项目实施进度计划。
 
       信息化
        人们在生活和从事生产等活动中不断产生各种消息,接收者通过各种方式了解到的消息被称为信息。信息的传送一般应借助一定的运载工具,并将信息变换成各种表现形式,如语言、文字、图像、声音等。信息是普遍存在的,像空气一样渗透到全球各个角落、各个领域。人们在生活和工作中要随时随地地获取信息、交流和处理信息,并根据它决策或采取行动。企业为了在竞争中求得生存和发展,获取及时可靠的信息将成为第一需要。信息已同能源和材料一起成为现代化社会的三大资源。信息是资源,而且是一种战略资源。信息与材料、能源不同,信息可以被很多人使用,使用的人越多,创造的价值就越高,而且一条信息可以衍生出多条信息,取之不尽。信息与信息资源不同,信息的日常表现是无序的,但是信息本身存在着内在联系和规律,信息只有通过加工处理才能成为有价值的、可利用的信息资源。随着科技的进步和发展,特别是通信技术、电子技术、激光技术、集成电路、计算机等高技术的出现,在加快经济建设和社会发展的过程中,信息的作用越来越突出,信息和我们的日常生活密切相关,获取信息已经成为我们生活、工作中的重要内容,信息在服务于我们的生活的同时,对我们生活方式的影响也越来越大,所以我们称当前的社会为信息社会。由此衍生出了许多新兴的概念。
        信息技术是指对信息进行采集、存储、处理、检索、传递、分析与显示的高技术群。信息技术发展的总趋势是数字化、网络化与智能化,并以互联网技术及其应用技术为中心。信息产业是以现代信息技术为手段,以开发和利用信息资源为中心内容,提供信息产品和信息服务的产业部门。它包括信息产品制造业、软件与信息服务业、通信业。
        信息化是指培育、发展以智能化工具为代表的新的生产力并使之造福于社会的历史过程。智能工具一般必须具备信息获取、信息传递、信息处理、信息再生和信息利用的功能。
        完整的信息化内涵如下。
        (1)信息网络体系,它是大量信息资源、各种专用信息系统及其公用通信网络和信息平台的总称。
        (2)信息产业基础,即信息科学技术的研究、开发、信息装备的制造,软件开发与利用,各类信息系统的集成及信息服务。
        (3)社会支持环境,即现代工农业生产,以及管理体制、政策法律、规章制度、文化教育、道德观念等生产关系和上层建筑。
        (4)效用积累过程,即劳动者素质、国家的现代化水平和人们生活质量不断得到提高,精神文明和物质文明不断获得进步。
        通常人们习惯用信息产业部门所制造的收入在国民生产总值中所占的比重和信息从业者占就业人口的比例作为衡量社会信息化程度的指标。粗略认为两者均超过50%以上,其社会已进入信息社会。
 
       业务处理
        业务处理的方式一般分为批处理和实时处理两种。
        批处理(batch processing)是指定期收集源文件,然后进行成批处理。如银行存款处理,白天一天所收到的存款单等到下班后一起交给数据处理部门,由他们进行累加和其他分析。批处理活动包括:收集源文件,并将它们分成批;把源文件录入到输入媒体,如磁带、磁盘;把源文件根据某个关键词排序;将源文件和主文件合并处理,建立一个新文件,并输出一些文件;定期将业务成批地送往远方的中央计算机保存和进一步处理。
        当要处理大量的数据时批处理是一种比较经济的方法。每笔业务处理时没有必要翻动主文件。错开白天的时间,机器可以在晚上处理,能充分利用机器的资源。机器的速度不一定很高,机器档次和设备费用可以大大降低。但批处理有很多缺点,如主文件经常是过时的,打出的报告也是这样,马上查出当前的情况也是不可能的。所以,许多业务转向实时处理。某些实时处理系统中还保留着某些业务的批处理。
        实时处理也是联机事务处理(Online Transaction Processing,OLTP)。能够在处理业务时及时处理完这笔业务后,立即更新主文件,因而这时的统计数据能够反映现时的真实情况。数据只要一经输入,记录、转换、更新主文件的操作一气呵成,响应客户查询也是即时的。
        实时处理能及时处理、及时更新和及时响应顾客。因而在要求及时的情况下,只有实时系统能满足要求。实时处理缺点是由于联机,直接存取必须采取特殊的措施保护数据库,以及时防止病毒和闯入者。在许多实时系统中,也用磁带作控制日记和恢复文件。因而在设备上要付出高成本。所以实时优点必须和它的成本、安全的问题相平衡,现在由于技术的发展,要更好地满足顾客需求,越来越多的公司欢迎实时处理。
   题号导航      2014年上半年 系统分析师 下午试卷 案例   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
 
第2题    在手机中做本题