|
知识路径: > 数据库主流应用技术 > 数据库主流应用技术 > 数据库主流应用技术 > 大数据与数据库 >
|
相关知识点:1个
|
|
|
|
数据分割是数据仓库设计的另一项重要内容,是提高数据仓库性能的一项重要技术。数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储,以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。数据的分割使数据仓库的开发人员和用户具有更大的灵活性。数据仓库中数据分割的概念与数据库中的数据分片概念是相近的。数据库系统中的数据分片有水平分片、垂直分片、混合分片和导出分片多种方式。水平分片是指按一定的条件将一个关系按行分为若干不相交的子集,每个子集为关系的一个片段;垂直分片是指将关系按列分为若干子集,垂直分片的片段必须能够重构原来的全局关系。
|
|
|
在进行数据仓库设计时需要把数据分割与粒度划分结合起来考虑。
|
|
|
数据仓库中的元数据就是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容。传统数据库中的数据字典是一种元数据,但在数据仓库中,元数据的内容比数据库中的数据字典更丰富、更复杂。设计一个描述能力强、内容完善的元数据,是有效管理数据仓库的具有决定意义的重要前提。因此元数据的设计在整个数据仓库设计中占有重要的地位,是数据仓库设计的一个重要组成部分。
|
|
|
|
(1)大数据平台通过直接读写处理业务数据,除此之外的数据都是元数据,例如任务之间的权限映射关系,数据的业务属性,数据占用的磁盘空间等等。这些元数据能够帮助用户更加高效地分析数据,有助于系统和业务的优化以及数据质量的保证。
|
|
|
(2)操作型环境和数据仓库环境之间有着复杂的、多方面的区别,因此从操作型环境到数据仓库的数据转换也是复杂的、多方面的。元数据应包含对这种转换的描述。元数据要将这种转换清晰地表示出来,把从哪些数据源用怎样的转换逻辑转换成数据仓库中的哪些目的数据等内容描述出来。这样,当从数据仓库向数据库回溯时,便能够根据数据变换的历史,找到原始依据。数据仓库的元数据还要将这种转换管理起来,既保证这种转换是正确的、适当的或合理的,又要使其是可变的、灵活的。事实上,因为用户需求是不确定的,只有保证元数据的灵活性、可变性,才能真正保证其合理性和正确性。
|
|
|
(3)除了描述和管理从数据库到数据仓库的转换外,数据仓库的元数据当然还要管理好数据仓库中的数据。一方面,数据仓库中的数据量很大,划分不同的粒度层次、进行分割策略的选择、建立各种各样的索引等等,都需要在元数据中进行描述和管理;另一方面,数据仓库中包含着较长时期内的数据,不同时期不同的需求使得其数据从形式到内容都可能不同。
|
|
|
元数据的内容在数据仓库设计、开发、实施以及使用过程中不断完善,为大数据平台(如Hadoop、HBase)维持整个系统运转所需要的信息与数据。
|
|
|