数据仓库技术
被考次数: 1次
被考频率: 低频率
答错率:    51%
知识难度:
考试要求: 掌握     
知识路径:  > 电子商务系统程序设计基础  > Web 设计基础  > 数据库技术  > 数据仓库、联机分析处理和数据挖掘  > 数据仓库、联机分析处理和数据挖掘


本知识点历年真题试卷分布
>> 试题列表    
 

 
       数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库之父W. H. Inmon对数据仓库的定义是:数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。那么,所谓“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统地加工整理,是相互一致的、具有代表性的数据。所谓“随时间变化”,是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时点的数据,所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5~10年,数据量也比较大。“信息本身相对稳定”,是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
       数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几个特点:
       (1)数据效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到昨天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1~3日才能给出数据,显然不行的。
       (2)数据质量足够好。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗、装载、查询、展现等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。
       (3)数据有足够的扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来若干年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。
       数据仓库组织和管理数据的方法与普通数据库不同。主要表现在三个方面:
       (1)依据决策要求,只从数据库中抽取那些需要的数据,并进行预处理使系统获得特定的数据格式。
       (2)数据仓库是多维的,即数据仓库的数据的组织方式有多层的行和列。
       (3)支持决策处理,不同于普通的事务处理。
       数据仓库技术在近几年蓬勃发展起来,不少厂商都推出了他们的数据仓库产品,同时也推出了一些分析工具。仅仅拥有数据仓库是不够的,在其上应用各种工具进行分析,才能使数据仓库真正发挥作用。联机分析处理和数据挖掘就是这样的分析工具。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有