|
知识路径: > 数据库主流应用技术 > 数据库主流应用技术 > 数据库主流应用技术 > 大数据与数据库 >
|
相关知识点:5个
|
|
|
|
由于数据库面向日常事务处理,不适合进行分析处理,一种新的技术应运而生,这就是数据仓库技术。数据仓库技术是公认的信息利用的最佳解决方案,它不仅能够从容解决信息技术人员面临的问题,同时也为商业用户提供了很好的商业契机。
|
|
|
数据仓库并不是一个独立的个体,而是与整个大数据体系融为一体,换句话说,大数据是一个巨人,而数据仓库则是巨人的心脏,相互依赖。在这一节里,我们将讨论数据仓库的系统设计方法,建设数据仓库的三级数据模型,如何提高数据仓库的物理性能,以及数据仓库的元数据等有关内容。
|
|
|
数据仓库的数据具有四个基本特征:面向主题的、集成的、不可更新的、随时间不断变化的。这些特点说明了数据仓库从数据组织到面向分析的数据处理都与原来的数据库有较大区别,这决定了我们在进行数据仓库系统设计时,不能够照搬原来传统的数据库系统开发方法,因而需要寻找一个适于数据仓库设计的方法。
|
|
|
所谓数据模型,就是对现实世界进行抽象的工具,抽象的程度不同,也就形成了不同抽象级别层次上的数据模型。数据仓库的数据模型与操作型数据库的三级数据模型又有一定的区别,主要表现在:
|
|
|
|
(2)数据仓库的数据模型扩充了码结构,增加了时间属性作为码的一部分。
|
|
|
|
可以看出,上述三点差别也就是操作型环境中的数据与数据仓库中的数据之间的差别,同样是数据仓库为面向数据分析处理所要求的。虽然存在着这样的差别,在数据仓库设计中,仍然存在着三级数据模型,即概念模型、逻辑模型和物理模型。
|
|
|
概念模型是主观与客观之间的桥梁,它是一个概念性的工具,用于设计系统、收集信息。具体到计算机系统来说,概念模型是客观世界到机器世界的一个中间层次。人们首先将现实世界抽象为信息世界,然后将信息世界转化为机器世界,信息世界中的这一信息结构,即是我们所说的概念模型。
|
|
|
概念模型最常用的表示方法是使用E-R图作为它的描述工具。E-R图描述的是实体以及实体之间的联系,在E-R图中,长方形表示实体,在数据仓库中就表示主题,在长方形内写上主题名;椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;用菱形表示主题之间的联系,菱形框内写上联系的名字。用无向边把菱形分别与有关的主题连接,给无向边标记上联系的类型。若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
|
|
|
由于E-R图具有良好的可操作性,形式简单,易于理解,便于与用户交流,对客观世界的描述能力也较强,在数据库设计方面更得到了广泛的应用。因为目前的数据仓库一般建立在关系数据库的基础之上,为了和原有数据库的概念模型相一致,采用E-R图作为数据仓库的概念模型仍然是较为合适的。
|
|
|
在数据仓库的设计中采用的逻辑模型就是关系模型。无论是主题还是主题之间的联系,都用关系来标识。关系模型概念简单、清晰,用户易懂、易用,有严格的数学基础和在此基础上发展的关系数据理论;关系模型简化了程序员的工作和数据仓库设计开发的工作,当前比较成熟的商品化数据库产品都是基于关系模型的。因此采用关系模型作为数据仓库的逻辑模型是合适的。数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,即每个主题所对应的关系表的关系模式的定义。
|
|
|
所谓数据仓库的物理模型就是逻辑模型在数据仓库中的实现,如物理存取方式、数据存储结构、数据存放位置以及存储分配等等。物理模型是在逻辑模型的基础之上实现的,在进行物理模型设计实现时,所考虑的主要因素有:I/O存取时间、空间利用率和维护代价;在进行数据仓库的物理模型设计时,考虑到数据仓库的数据量大,但是操作单一的特点,可采取其他的一些提高数据仓库性能的技术,如:合并表、建立数据序列、引入冗余、进一步细分数据、生成导出数据、建立广义索引等等。
|
|
|
建立数据仓库过程中的一个重要问题是如何提高系统的性能。因为数据仓库的数据量很大,分析处理时涉及的数据范围也较广,往往涉及大规模数据的查询。提高系统性能,主要是要提高系统的物理I/O性能,因为I/O瓶颈常成为影响系统性能的主要因素。在数据仓库的设计中,应尽量减少每次查询处理要求的I/O次数,而使每次I/O又能返回尽量多的记录。事实上,由于数据仓库的数据极少甚至不再更新,数据仓库的物理设计可以有更多的方法和途径来提高系统性能。下面介绍粒度划分和数据分割。
|
|
|