数据仓库系统(黑板，中央共享数据(不对，是中央数据结构)，知识源，独立构件)当前数据..

免费智能真题库 > 历年试卷 > 系统架构设计师 > 2024年下半年系统架构设计师上午试卷综合知识

第72题

知识点：数据仓库与数据挖掘构件数据仓库数据结构

关键词：构件数据仓库数据结构知识源数据章/节：数据库系统

数据仓库系统(黑板，中央共享数据(不对，是中央数据结构)，知识源，独立构件)当前数据结构状态

相关试题：数据库系统

更多>

第7题 2023年下半年

43%

在数据库语句中，having通常与()子句连用。

第5题 2014年下半年

43%

设关系模式R(U,F)，其中U为属性集，F是U上的一组函数依赖，那么函数依赖的公理系统（Armstrong公理系统）中的合并规则是指（5）为..

第57题 2026年上半年

给定关系模式R(U,F)，其中U为属性集，F是U上的一组函数依赖，那么函数依赖的公理系统(Armstrong 公理系统)中的分解规则是指( )为..


知识点讲解
· 数据仓库与数据挖掘 · 构件 · 数据仓库 · 数据结构

数据仓库与数据挖掘

企业常见的数据处理工作大致可以分成两大类，分别是OLTP（On-Line Transaction Processing，联机事务处理）和OLAP（On-Line Analytical Processing，联机分析处理）。OLTP是传统的关系型数据库的主要应用，OLAP是数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。

联机分析处理

OLTP是传统关系型数据库的重要应用之一，主要是基本的、日常的事务处理，例如银行交易、电信计费、民航订票等，对响应时间要求比较高，强调的是密集数据更新处理的性能和系统的可靠性及效率。OLTP用短小和中等复杂程度的查询语句，读取或修改数据库中一个比较小的部分，数据访问方式是小的随机磁盘访问。

OLTP是事件驱动、面向应用的。OLTP的基本特点是：对响应时间要求非常高；用户数量非常庞大，主要是操作人员；数据库的各种操作基于索引进行；对数据库的事务均已预先定义，查询简单，一般不牵涉多表连接操作。

OLAP使得数据分析人员能够从多角度对数据进行快速、一致、交互地存取，从而获得对数据的更深入的了解。OLAP的目标是满足决策支持或者在多维环境下特定的查询和报表需求。下表列出了OLTP与OLAP之间的比较。

OLTP与OLAP的比较

OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求，它的技术核心是“维”的概念。维是人们观察客观世界的角度，是一种高层次的类型划分。维一般包含着层次关系，这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维，使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。

OLAP的基本多维分析操作有钻取、切片和切块、旋转等。

（1）钻取：是改变维的层次，变换分析的粒度。它包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；而向下钻取则相反，它从汇总数据深入到细节数据进行观察或增加新维。

（2）切片和切块：是在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个，则是切片；如果有三个，则是切块。

（3）旋转：是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。

OLAP有多种实现方法，根据存储数据的方式不同，可以分为ROLAP（Relational OLAP，基于关系数据库的OLAP实现）、MOLAP（Multidimensional OLAP，基于多维数据组织的OLAP实现）、HOLAP（Hybrid OLAP，基于混合数据组织的OLAP实现）。

（1）ROLAP：以关系数据库为核心，以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表：一类是事实表，用来存储数据和维关键字；另一类是维表，即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起，形成了“星型模式”。对于层次复杂的维，为避免冗余数据占用过大的存储空间，可以使用多个表来描述，这种星型模式的扩展称为“雪花模式”。

（2）MOLAP：以多维数据组织方式为核心，也就是说，MOLAP使用多维数组存储数据。多维数据在存储中将形成立方块（Cube）的结构，在MOLAP中对立方块的旋转、切块、切片是产生多维数据报表的主要技术。

（3）HOLAP：低层是关系型的，高层是多维矩阵型的；或者反之。这种方式具有更好的灵活性。

还有其他的一些实现OLAP的方法，如提供一个专用的SQL Server，对某些存储模式（如星型、雪片型）提供对SQL查询的特殊支持。

OLAP工具是针对特定问题的联机数据访问与分析，它通过多维的方式对数据进行分析、查询和报表。多维分析是指对以多维形式组织起来的数据采取切片、切块、钻取、旋转等各种分析动作，以求剖析数据，使用户能从多个角度、多侧面地观察数据库中的数据，从而深入理解包含在数据中的信息。

数据仓库的概念

数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的，且随时间变化的数据集合，用于支持管理决策。

数据仓库的特征

（1）面向主题。操作型数据库的数据组织面向事务处理任务（面向应用），各个业务系统之间各自分离，而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念，是指用户使用数据仓库进行决策时所关心的重点方面，一个主题通常与多个操作型信息系统相关。例如，一个保险公司所进行的事务处理（应用问题）可能包括汽车保险、人寿保险、健康保险和意外保险等，而公司的主要主题范围可能是顾客、保险单、保险费和索赔等。

（2）集成的。在数据仓库的所有特性中，这是最重要的。面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独立，并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的，必须消除源数据中的不一致性，以保证数据仓库内的信息是关于整个企业的一致的全局信息。

（3）相对稳定的（非易失的）。操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用，所涉及的数据操作主要是数据查询，一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。

（4）随时间变化。操作型数据库主要关心当前某一个时间段内的数据，而数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点（如开始应用数据仓库的时点）到目前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库反映历史变化的属性主要表现在：

（1）数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限，传统操作型数据系统中的数据时间期限可能为数十天或数个月，数据仓库中的数据时间期限往往为数年甚至几十年。

（2）传统操作型数据系统中的数据含有“当前值”的数据，这些数据在访问时是有效的，当然数据的当前值也能被更新，但数据仓库中的数据仅仅是一系列某一时刻（可能是传统操作型数据系统）生成的复杂的快照。

（3）传统操作型数据系统中可能包含也可能不包含时间元素，如年、月、日、时、分、秒等，而数据仓库中一定会包含时间元素。

数据仓库与传统数据的区别

数据仓库虽然是从传统数据库系统发展而来，但是两者还是存在着诸多差异，例如，从数据存储的内容看，数据库只存放当前值，而数据仓库则存放历史值；数据库数据的目标是面向业务操作人员的，为业务处理人员提供数据处理的支持，而数据仓库则是面向中高层管理人员的，为其提供决策支持等。下表详细说明了数据仓库与传统数据库的区别。

数据仓库与传统数据库的比较

数据仓库的分类

从结构的角度看，有3种数据仓库模型，分别是企业仓库、数据集市和虚拟仓库。企业仓库收集跨越整个企业的各个主题的所有信息，它提供全企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是跨多个功能范围的。它通常包含详细数据和汇总数据。

数据集市包含对特定用户有用的、企业范围数据的一个子集，它的范围限定选定的主题。

虚拟仓库是操作型数据库上视图的集合。

数据仓库的结构

从数据仓库的概念结构来看，一般来说，数据仓库系统要包含数据源、数据准备区、数据仓库数据库、数据集市／知识挖掘库以及各种管理工具和应用工具，如下图所示。

数据仓库的概念结构

数据仓库建立之后，首先要从数据源中抽取相关的数据到数据准备区，在数据准备区中经过净化处理后再加载到数据仓库数据库，最后根据用户的需求将数据导入数据集市和知识挖掘库中。当用户使用数据仓库时，可以利用包括OLAP在内的多种数据仓库应用工具向数据集市／知识挖掘库或数据仓库进行决策查询分析或知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。

数据仓库的参考框架

数据仓库的参考框架由数据仓库基本功能层、数据仓库管理层和数据仓库环境支持层组成。

（1）数据仓库基本功能层。数据仓库的基本功能层部分包含数据源、数据准备区、数据仓库结构、数据集市或知识挖掘库，以及存取和使用部分。本层的功能是从数据源抽取数据，对所抽取的数据进行筛选、清理，将处理过的数据导入或者说加载到数据仓库中，根据用户的需求设立数据集市，完成数据仓库的复杂查询、决策分析和知识的挖掘等。

（2）数据仓库管理层。数据仓库的正常运行除了需要数据仓库功能层提供的基本功能外，还需要对这些基本功能进行管理与支持的结构框架。数据仓库管理层由数据仓库的数据管理和数据仓库的元数据管理组成。数据仓库的数据管理层包含数据抽取、新数据需求与查询管理，数据加载、存储、刷新和更新系统，安全性与用户授权管理系统以及数据归档、恢复及净化系统等四部分。

（3）数据仓库的环境支持层。数据仓库的环境支持层由数据仓库数据传输层和数据仓库基础层组成。数据仓库中不同结构之间的数据传输需要数据仓库的传输层来完成。数据仓库的传输层包含数据传输和传送网络、客户／服务器代理和中间件、复制系统以及数据传输层的安全保障系统。

数据仓库的架构

通常的数据仓库的架构如下图所示。

数据仓库架构

（1）数据源。数据源是数据仓库系统的基础，是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。

（2）数据的存储与管理。数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库，同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据，进行抽取、清理，并有效集成，按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库（通常称为数据集市）。

（3）OLAP服务器。对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。

（4）前端工具。主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

数据挖掘的概念

数据挖掘（datamining）技术是人们长期对数据库技术进行研究和开发的结果。

从技术上来看，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海而皆准的知识，仅支持特定的发现问题。

从业务角度来看，数据挖掘是一种新的业务信息处理技术，其主要特点是对业务数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助业务决策的关键性数据。

数据挖掘与传统的数据分析（如查询、报表、联机应用分析）的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知、有效和可实用3个特征。先前未知的信息是指该信息是预先未曾预料到的，即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

数据挖掘通过预测未来趋势及行为，做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下5类功能：

（1）自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

（2）关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

（3）聚类。数据库中的记录可被划分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

（4）概念描述。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

（5）偏差检测。数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。

数据挖掘常用技术

常见和应用最广泛的数据挖掘方法有：

（1）决策树。利用信息论中的互信息（信息增益）寻找数据库中具有最大信息量的属性，建立决策树的一个结点，再根据该属性的不同取值建设树的分支；在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树方法是Qiulan研究的ID3方法。

（2）神经网络。模拟人脑神经元结构，完成类似统计学中的判别、回归、聚类等功能，是一种非线性的模型，主要有3种神经网络模型，分别是前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习，形成知识，这些知识有些是我们过去未曾发现的，因此它具有较强的创新性。神经网络的知识体现在网络连接的权值上，神经网络的学习主要表现在神经网络权值的逐步计算上。

（3）遗传算法。模拟生物进化过程的算法，它由3个基本过程组成，分别是繁殖（选择）、交叉（重组）、变异（突变）。采用遗传算法可以产生优良的后代，经过若干代的遗传，将得到满足要求的后代即问题得解。

（4）关联规则挖掘算法。关联规则是描述数据之间存在关系的规则，一般分为两个步骤：首先求出大数据项集，然后用大数据项集产生关联规则。

除了上述的常用方法外，还有粗集方法、模糊集合方法、最邻近算法等。无论采用哪种方法完成数据挖掘，从功能上可以将数据挖掘的分析方法划分为6种，即关联分析、序列分析、分类分析、聚类分析、预测和时间序列分析。

（1）关联分析。关联分析主要用于发现不同事件之间的关联性，即一个事件发生的同时，另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。

（2）序列分析。序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列，发现的序列应该具有普遍意义，其依据除了统计上的概率之外，还要加上时间的约束。

（3）分类分析。分类分析通过分析具有类别的样本的特点，得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法等。

（4）聚类分析。聚类分析是根据物以类聚的原理，将本身没有类别的样本聚集成不同的组，并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似，而属于不同组的样本应该足够不相似。

（5）预测。预测与分类分析相似，但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程，而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。

（6）时间序列分析。时间序列分析的是随时间而变化的事件序列，目的是预测未来发展趋势，或者寻找相似发展模式或者是发现周期性发展规律。

数据挖掘的流程

数据挖掘是指一个完整的过程，该过程从大型数据库中挖掘先前未知的，有效的，可实用的信息，并使用这些信息做出决策或丰富知识。数据挖掘的流程大致如下：

（1）问题定义。在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识，弄清用户的需求。缺少了背景知识，就不能明确定义要解决的问题，就不能为挖掘准备优质的数据，也很难正确地解释得到的结果。要想充分发挥数据挖掘的价值，必须对目标要有一个清晰明确的定义，即决定到底想干什么。

（2）建立数据挖掘库。要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中，而不是采用原有的数据库或数据仓库。这是因为大部分情况下需要修改要挖掘的数据，而且还会遇到采用外部数据的情况；另外，数据挖掘还要对数据进行各种纷繁复杂的统计分析，而数据仓库可能不支持这些数据结构。

（3）分析数据。分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势，用聚类分析区分类别，最终要达到的目的就是搞清楚多因素相互影响的、十分复杂的关系，发现因素之间的相关性。

（4）调整数据。通过上述步骤的操作，对数据的状态和趋势有了进一步的了解，这时要尽可能对问题解决的要求能进一步明确化、进一步量化。针对问题的需求对数据进行增删，按照对整个数据挖掘过程的新认识组合或生成一个新的变量，以体现对状态的有效描述。

（5）模型化。在问题进一步明确，数据结构和内容进一步调整的基础上，就可以建立形成知识的模型。这一步是数据挖掘的核心环节，一般运用神经网络、决策树、数理统计、时间序列分析等方法来建立模型。

（6）评价和解释。上面得到的模式模型，有可能是没有实际意义或没有实用价值的，也有可能是其不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。评估的一种办法是直接使用原先建立的挖掘数据库中的数据来进行检验，另一种办法是另找一批数据并对其进行检验，再一种办法是在实际运行的环境中取出新鲜数据进行检验。

数据挖掘是一个多种专家合作的过程，也是一个在资金上和技术上高投入的过程。这一过程要反复进行，在反复过程中，不断地趋近事物的本质，不断地优选问题的解决方案。

构件

为了达到门户站点的基本要求，一个企业的网站应当由以下构件组成：

（1）应用服务器（Application Server）。主要用于企业较大规模电子商务应用的开发、发布和管理，同时实现与企业原有系统的集成。

（2）工作流和群件服务器。主要用于使工作人员和商业伙伴能通过Internet共享资源、协同工作。

（3）内容管理子系统。简化企业网站的产品管理、提高效率，并将相应的、经过筛选的内容发送给最终用户。

（4）目录服务器。企业使用它来管理防火墙内外的用户、资源和控制安全权限，同时为用户的通信和电子商务提供一个通道。

（5）性能优化工具。改善网站服务质量，包括流量管理、动态数据缓存、网络动态负载（Load Balancing）、知识管理等。

（6）邮件和消息服务器。使企业和服务提供者能为所有员工、合作伙伴和客户社区提供商业级的通信架构。

（7）个性化信息服务。在实时分析用户数据的基础上提供一对一的交易平台。通过对用户行为的更好理解，企业更跟踪、分析和理解网站用户。

（8）搜索引擎。用户提供更广泛的资源。

（9）安全服务器。包括数据安全、应用安全和交易完全。其基本内容有用防火墙阻止对网络的非授权访问，在安全和个人的角色授权的基础上，只需一次登录就可以访问网站的所有应用，通过提供一种对在线交易的每一方的可信任的授权方式，帮助客户、合作伙伴和员工访问Internet应用。

（10）网站服务器（Web Server）。将各种网站的信息发布给用户。

以上是通常构建网站所需要的构件，企业可针对自己的特点以及网站规模大小，应用的类型等自行选择。

在网站结构的实现上，通常在逻辑上将网站分为三层：表示层、应用逻辑层、数据层。这种结构使得网站具有较好的可扩充性，将表示层与业务功能的实现分离开来，能够更灵活地适应业务的发展。网站不需要对业务逻辑组件进行任何变动，就能够适用新出现的表示形式和客户端。例如，为了使用户更方便地在网站上购物，网站调整了页面格局和页面风格。由于网站结构层次分明，只需要改动网站表示层，业务逻辑层和数据连接层则不需要改变。

（11）表示层和相关技术。表示层用于为最终用户提供一个友好的用户界面，接受用户提交的事件，并将处理的结果返还给用户。这一层作为应用的前端和“窗口”，决定了用户对网站优劣的评价和总体印象。

网站从总体上说是独立于客户端的，客户端包括基于浏览器的HTML客户端、给予Java的客户端、传统的C/C++应用、Power Builder客户端以及VB客户端。

在表示层除了使用最基本的HTML语言外，通常还利用JavaScript Internet脚本语言，以及Java Internet程序开发语言。JavaScript程序运行在客户端，能够完成用户事件获取、数据提交前的合法性校验、错误检查和实现动画效果等。而利用Java开发的JavaServlet程序运行于服务器端，负责实现与业务逻辑层的交互，从业务逻辑层获得数据，并将用户提交的信息传给业务逻辑层，而基于Java语言的JSP程序，则实现数据的动态显示，它将JavaServlet程序获得的数据形成相应的HTML页面传给客户端。

为了适应电子商务的各种需求，新的表示层技术不断发展。如XML（可扩展标记语言）和RDF（资源描述框架）等都是当前最新的、对表示层产生重大影响的技术。XML通过一种结构化的文本方式来表述数据；RDF提供一种统一的、可互操作的方法通过Internet在程序间交换元数据。

（12）商务逻辑与实现。商务逻辑层是电子商务系统的核心，也是系统建造过程中的重点和难点。商务逻辑层包括商务应用程序、支持平台（包括商务服务层、商务支持层和基础支持层）。

支持层向上层（商务应用层）提供的服务主要包括：表达、商务支持、运行支持、开发与集成服务。构成支持平台的技术产品至少应当包括：Web服务器、商务支持软件、集成与开发工具、计算机主机、网络及其他系统软件（如操作系统、管理工具软件等）。

通常，Web服务器、商务支持软件、部分集成开发环境被集成到一个被称为“应用服务器”的软件包里，所以商务逻辑层在物理上可以简化为以下三个部门：应用软件（实现商务逻辑）；应用服务器（为应用软件提供软件支持平台）和其他支持软件；计算机主机及网络（为应用软件提供硬件支持平台）。

构造商务逻辑层的任务是为选择合适的应用服务器和其他支持软件，开发实现商务逻辑的应用软件系统。

（13）数据层及实现。构造数据层的关键是开发电子商务与外部系统、内部资源系统的接口，完成系统集成。

数据层的数据源主要包括：相关信息系统（如ERP系统）的数据与企业的数据库，企业与协作企业（如供应商）间交换的数据，企业与银行间交换的数据，企业与认证中心之间的认证数据，企业与其他商务中介交换的电子数据。

由于企业商务逻辑的处理过程是一个从市场、销售、采购到客户服务的整体，所以必须将商务逻辑处理过程中所涉及到的数据集成到一起，因此构造数据层的任务是：实现电子商务系统与企业内部和外部信息系统之间的网络互联，并确保安全的网络环境，基于应用服务器平台的商务应用系统与企业内部数据的共享。

数据仓库

传统数据库在联机事务处理（OLTP）中获得了较大的成功，但是对管理人员的决策分析要求却无法满足。因为管理人员希望对组织中的大量数据进行分析，了解组织业务的发展趋势，而传统的数据库中只能保留当前的管理信息，缺乏决策分析所需要的大量的历史信息。为了满足管理人员的决策分析需要，在数据库基础上产生了能满足决策分析需要的数据环境——数据仓库（Data Warehouse，DW）。

虽然数据仓库是从数据库发展而来的，但是二者在许多方面有相当大的差异，二者的比较情况如下表所示。

数据仓库与数据库比较

数据仓库的基本特性

数据仓库有这样一些重要的特性：面向主题的、数据是集成的、数据是相对稳定的、数据是反映历史变化的。

面向主题的

数据仓库中数据是面向主题进行组织的。从信息管理的角度来看，主题就是一个较高的管理层次上对信息系统中数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度来看，主题就是一些数据集合，这些数据集合对分析对象进行了比较完整的、一致的数据描述，这种数据描述不仅涉及数据自身，还涉及数据间的联系。例如，企业中的客户、产品和供应商等都可以作为主题来看待。

数据仓库的创建使用都是围绕主题实现的，因此，必须了解如何按照决策分析来抽取主题，所抽取的主题应该包含哪些数据内容，这些数据应该如何组织。在进行主题抽取时，必须按照决策分析对象进行。例如，在企业销售管理中的管理人员所关心的是本企业哪些产品销售量大、利润高？哪些客户采购的产品数量多？竞争对手的哪些产品对本企业产品构成威胁？根据这些管理决策分析对象，就可以抽取“产品”“客户”等主题。

数据是集成的

数据仓库的集成性是指根据决策分析的要求，将分散于各处的原数据进行抽取、筛选、清理、综合等集成工作，使数据仓库中的数据具有集成性。

数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取数据。如在线事务处理系统（OLPT）、企业业务流程重组（BRP）以及基于因特网的电子商务（EC）中的数据是与业务处理联系在一起的，只为业务的日常处理服务，而不是为决策分析服务。这样，数据仓库在从业务处理系统那里获取数据时，并不能将原数据库中的数据直接加载到数据仓库中，而要进行一系列的数据预处理。即从原数据库中挑选出数据仓库所需要的数据，然后将来自不同数据库中的数据按某一标准进行统一，如将数据源中数据的单位、字长与内容统一起来，将源数据中字段的同名异义、异名同义现象消除，然后将源数据加载到数据仓库，并将数据仓库中的数据进行某种程度的综合，进行概括和聚集的处理。

数据是相对稳定的

数据仓库的数据主要是供决策分析之用，所涉及的数据操作主要是数据查询，一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容，是不同时间的数据库快照的集合，以及基于这些快照进行统计、综合和重组的导出数据，而不是联机处理的数据。数据库中进行联机处理的数据经过集成输入到数据仓库中。因为数据仓库只进行数据查询操作，所以在DBMS中的完整性保护、并发控制在数据仓库管理中都可以省去。但是，由于数据仓库的查询数据量往往很大，所以对数据查询提出了更高的要求，需要采用复杂的索引技术。

数据是反映历史变化的

数据仓库中数据的相对稳定是针对应用来说的，数据仓库的用户进行分析处理时是不进行数据更新操作的。但并不表明在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中，所有的数据仓库数据是永远不变的。数据仓库的数据是反映历史变化的，这主要表现在如下三个方面：

（1）数据仓库随时间变化不断增加新的数据内容。数据仓库系统必须不断捕捉OLTP数据库中变化的数据，追加到数据仓库中去。

（2）数据仓库随时间变化不断删除旧的数据内容。

（3）数据仓库中包含大量的综合数据，这些数据有很多信息与时间有关，如数据经常按时间段进行综合，或隔一定的时间进行抽样等等，这些数据要随时间不断地进行重新综合。

数据仓库的数据模式

典型的数据仓库具有为数据分析而设计的模式，使用OLAP工具进行联机分析处理。因此数据通常是多维数据，包括维属性、度量属性。包含多维数据的表称为事实表，事实表通常很大。例如，一个表sales记录了零售商店的销售信息，其中每个元组对应一个商品售出记录，这是一个非常典型的事实表的例子。表sales的维包括售出的是何种商品（用商品标识表示）、商品售出的日期、商品售出的地点、哪个顾客购买该商品等等。度量属性包括售出商品的数量和金额。

为了减少存储要求，维属性通常是一些短的标识，作为参照其他表的外码。例如，事实表sales含有属性item_key、time_key、branch_key和location_key，以及度量属性units_sold和dollars_sold。其中，属性item_key是一个参照维表item的外码，表item含有商品名称、商品的品牌、商品所属类别等属性；属性time_key是一个参照维表time的外码，表time含有日、月、季和年的属性；属性branch_key是一个参照维表branch的外码，表branch含有出售商品的分销商的名称、分销商的类型属性；属性location_key是一个参照维表location的外码，表location含有销售地点的街道、城市、省份、国家等属性。由此得到一个事实表、多维表以及从事实表到多维表的参照外码的模式称为星型模式，如下图所示。

数据仓库的星型模式示例

更复杂的数据仓库设计可能含有多级维表，例如维表item含有属性supplier_key，作为参照给出供应商的细节信息的另一个维表supplier的外码；维表location含有属性city_key，作为参照给出城市的细节信息的另一个维表city的外码。这种模式称为雪花模式，如下图所示。

数据仓库的雪花模式示例

复杂的数据仓库设计可能含有不止一个事实表，下图模式中含有Sales和Shipping两个事实表，共享location、item、time和branch维表。这种模式称为事实星型模式。

数据仓库的事实星型模式示例

数据仓库的体系结构

数据仓库通常采用三层体系结构，底层为数据仓库服务器、中间层为OLAP服务器，顶层为前端工具。底层的数据仓库服务器一般是一个关系数据库系统，数据仓库服务器从操作型数据库或外部数据源提取数据，对数据进行清理、转换、集成等，然后装入数据仓库中。中间层的OLAP服务器的实现可以是关系型OLAP，即扩充的关系型DBMS，提供对多维数据的支持；也可以是多维的OLAP服务器，它是一种特殊的服务器，直接支持多维数据的存储和操作。顶层的前端工具包括查询和报表工具、分析工具、数据挖掘工具等。

从结构的角度看有三种数据仓库模型：企业仓库、数据集市和虚拟仓库。

企业仓库收集跨越整个企业的各个主题的所有信息。它提供全企业范围的数据集成，数据通常都来自多个操作型数据库和外部信息提供者，并且是跨越多个功能范围的。它通常包含详细数据和汇总数据。企业数据仓库可以在传统的大型机上实现，例如UNIX超级服务器或并行结构平台。它需要广泛的业务建模，可能需要多年的时间来设计和建造。

数据集市包含对特定用户有用的、企业范围数据的一个子集。它的范围限于选定的主题，例如一个商场的数据集市可能限定于它的主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。通常，数据集市可以在低价格的部门服务器上实现，基于UNIX或Windows NT/2000/XP。实现数据集市的周期一般是数周，而不是数月或数年。但是，如果它的规划不是企业范围的，从长远讲，可能会涉及很复杂的集成。根据数据的来源不同，数据集市分为独立的和依赖的两类。在独立的数据集市中，数据来自一个或多个操作型数据库或外部信息提供者，或者是一个特定部门或地区本地产生的数据。在依赖数据集市中，数据直接来自企业数据仓库。

虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询，只有一些可能的汇总视图被物化。虚拟仓库易于建立，但需要操作型数据库服务器具有剩余能力。

数据结构

根据数据元素之间关系的不同特性，通常有下列4类基本的逻辑结构，即集合结构、线性结构、树形结构、图形结构。

1）线性结构

线性表是最常用且最简单的一种数据结构。线性表中除第一个元素外，每个元素均只有一个直接前驱；除最后一个元素外，每个元素都只有一个直接后继。

栈是限定仅在表尾进行插入或删除操作的线性表，是只能通过访问它的一端来实现数据存储和检索的一种线性数据结构。

队列是一种先进先出（FIFO）的线性表，它只允许在表的一端进行插入，而在另一端删除元素。

2）树

树是n（n≥0）个互不相交的有限集，当n=0时称为空树。在一棵非空树中，有且仅有一个节点称为根节点；当n>1时，其余的节点可分为若干个不相交的集合，其中每一个集合本身又是一棵树，这些集合称为根节点的子树。

3）图

图是由两个集合V和E组成的二元组，记为G=（V, E），其中V是顶点的非空有限集合，E是图中边的有限集合。

题号导航 2024年下半年系统架构设计师上午试卷综合知识

本试卷我的完整做题情况



	第72题在手机中做本题