【说明】<br />某电子商务企业随着业务不断发展，销售订单不断增加，每月订单超过了50..

免费智能真题库 > 历年试卷 > 系统分析师 > 2017年上半年系统分析师下午试卷案例

第4题

知识点：电子商务分区规范化迁移数据库数据库设计数据挖掘索引系统性能

【说明】
某电子商务企业随着业务不断发展，销售订单不断增加，每月订单超过了50万笔，急需开发一套新的互联网电子订单系统。同时该电商希望建立相应的数据中心，能够对订单数据进行分析挖掘，以便更好地服务用户。
王工负责订单系统的数据库设计与开发，初步设计的核心订单关系模式为:
orders(order_no，customer_no ，order_date，product_no，price，......);
考虑订单数据过多，单一表的设计会对系统性能产生较大影响，仅仅采用索引不足以解决性能问题。因此，需要将订单表拆分，按月存储。
王工采用反规范化设计方法来解决，给出了相应的解决方案。李工负责数据中心的设计与开发。李工认为王工的解决方案存在问题，建议采用数据物理分区技术。在解决性能问题的同时，也为后续的数据迁移、数据挖掘和分析等工作提供支持。

问题：4.1 (8分)
常见的反规范化设计包括增加冗余列、增加派生列、重新组表和表分割。为解决题干所述需求，王工采用的是哪种方法?请用300字以内的文字解释说明该方法，并指出其优缺点。

问题：4.2 (8分）
物理数据分区技术一般分为水平分区和垂直分区，数据库中常见的是水平分区。水平分区分为范围分区、哈希分区、列表分区等。请阅读下表，在(1)~(8) 中填写不同分区方法在数据值、数据管理能力、实施难度与可维护性、数据分布等方面的特点。

问题：4.3 (9分）
根据需求，李工宜选择物理水平分区中的哪种分区方法?请用300字以内的文字分别解释说明该方法的优缺点。


知识点讲解
· 电子商务 · 分区 · 规范化 · 迁移 · 数据库 · 数据库设计 · 数据挖掘 · 索引 · 系统性能

电子商务

电子商务是指买卖双方利用现代开放的Internet网络，按照一定的标准所进行的各类商业活动，主要包括网上购物、企业之间的网上交易和在线电子支付等新型的商业运营模式。狭义的电子商务是指利用Web提供的通信手段在网上买卖产品或提供服务；广义的电子商务除了以上内容外，还包括企业内部的商务活动，如生产、管理、财务等，以及企业间的商务活动，即把买家、卖家、厂家和合作伙伴通过Internet、Intranet和Extranet连接起来所开展的业务。

电子商务分三个方面，即电子商情广告、电子选购和交易，电子交易凭证的交换、电子支付与结算，以及网上售后服务等。参与电子商务的实体有四类：顾客（个人消费者或集团购买）、商户（包括销售商、制造商和储运商）、银行（包括发卡行和收单行）及认证中心。电子商务主要有三种模式：

（1）B2B（Business To Business，企业对企业）是指企业与企业之间通过互联网进行产品、服务及信息的交换。B2B电子商务模式包括两种基本模式，一种是企业之间直接进行的电子商务（如制造商的在线采购和在线供货等），另一种是通过第三方电子商务网站平台进行的商务活动。

（2）B2C（Business To Customer，企业对个人）是商家对消费者，也就是通常说的商业零售，即直接面向消费者销售产品和服务。最具有代表性的B2C电子商务模式就是网上零售网站。B2C电子商务的模式并不是唯一的，专门依靠网站开展网上零售只是B2C电子商务的一种形式，企业网站也可以开设面向消费者的在线直接销售，这也是B2C电子商务的表现形式。

（3）C2C（Customer To Customer，个人对个人）是消费者对消费者的交易，简单地说就是消费者本身提供服务或产品给消费者，最常见的形态就是个人工作者提供服务给消费者，如保险从业人员、促销人员的在线服务及销售网点或商品竞标网站。此类网站非企业对消费者，而是由提供服务的消费者与需求服务的消费者私下达成交易的方式。C2C商务平台就是通过为买卖双方提供一个在线交易平台，使卖方可以主动提供商品上网拍卖，而买方可以自行选择商品进行竞价。

分区

现在，数据量的增加已经使得数据不可以仅在单一的计算机系统中存储（分布式的应用），尤其是为了保证数据的可靠性，有时需要复制备份。同时，为了一些规模性的操作（比如负载平衡）或者考虑到一些动态因素的影响（存储结点的改变），在设计中就要考虑“分区”的概念。

分区的一些主要方法如下：

（1）内存缓存：缓存技术可以看成一种分区。内存中的数据库系统将使用频率最高的数据复制到缓存中，加快了数据给用户传递的速度，同时也大大减轻了数据库服务器的负担。在分布式缓存中，缓存由很多带有分配好一定内存的进程组成，它们能够放置到不同的机器上并且可以通过配置进行应用。它的协议可以在不同的编程语言中实现，同时在用户的应用中提供了简单的键值存储API。它通过将键值哈希散列到缓存中来存储对象。

（2）集群：数据库服务器集群在为用户提供服务时的透明性（用户感觉数据像是在同一个地方），是另外一个对数据进行分区的方法。然而，这种方法虽然能在某种程度上扩展系统数据持久层，可是集群本身的特性却仅仅应用在了数据库管理系统的顶层，而并未在分布式最初的设计中得到应用。

（3）读写分离：指定一台或多台主服务器，所有或部分的写操作被送至此，同时再设一定数量的副本服务器用以满足读请求。如果主服务器向至少一个用户异步复制数据，这是没有写延迟的，可如果主服务器在向最后一个用户写数据还没完成的时候就崩溃了，那么写操作将是无效的；如果主服务器向用户同步复制数据，这是有延迟的，这种更新不会丢失，但读请求却不能送达副本服务器。如果对一致性要求很高的话，无法避免进一步的写延迟。在这种情况下，如果主服务器崩溃了，那么有最新的数据的副本服务器将会成为新的主服务器。这种模型（主／从模型）在读写率很高的时候工作得很好。

（4）范围分割技术／分片（sharding）：指对数据按照如下方式进行分区操作，即对数据的请求和更新在同一个结点上，并且对于分布在不同服务器上的数据存储和下载的量大致相同。从可靠性和负载平衡的观点看，数据的碎片也是需要被复制的，并且允许它们被写入主服务器的副本中和所有需要维护数据分区的副本服务器中。而为了做到这一点，需要在分区和存储结点之间做一个映射。这个映射是动态还是静态取决于用户的应用、主服务器的“映射服务／组件”以及网络中用户应用于网络结点之间的基础结构。在分区场景中，关键在于如何将数据库中的对象映射到服务器上。通常的方法是哈希散列法。

规范化

关系数据库设计的方法之一就是设计满足适当范式的模式，通常可以通过判断分解后的模式达到几范式来评价模式规范化的程度。范式有：1NF、2NF、3NF、BCNF、4NF和5NF，其中1NF级别最低。这几种范式之间

成立。

通过分解，可以将一个低一级范式的关系模式转换成若干个高一级范式的关系模式，这种过程叫作规范化。下面将给出各个范式的定义。

1NF（第一范式）

【定义7.10】若关系模式R的每一个分量是不可再分的数据项，则关系模式R属于第一范式。记为R∈1NF。

例如，供应者和它所提供的零件信息，关系模式FIRST和函数依赖集F如下：

FIRST（Sno，Sname，Status，City，Pno，Qty）

F=｛Sno→Sname，Sno→Status，Status→City，（Sno，Pno）→Qty｝

对具体的关系FIRST如下表所示。从下表中可以看出，每一个分量都是不可再分的数据项，所以是1NF的。但是，1NF存在4个问题：

FIRST

（1）冗余度大。例如每个供应者的Sno、Sname、Status、City要与其供应的零件的种类一样多。

（2）引起修改操作的不一致性。例如供应者S1从“天津”搬到“上海”，若不注意，会使一些数据被修改，另一些数据未被修改，导致数据修改的不一致性。

（3）插入异常。关系模式FRIST的主码为Sno、Pno，按照关系模式实体完整性规定主码不能取空值或部分取空值。这样，当某个供应者的某些信息未提供时（如Pno），则不能进行插入操作，这就是所谓的插入异常。

（4）删除异常。若供应商S4的P2零件销售完了，并且以后不再销售P2零件，那么应删除该元组。这样，在基本关系FIRST找不到S4，可S4又是客观存在的。

正因为上述4个原因，所以要对模式进行分解，并引入了2NF。

2NF（第二范式）

【定义7.11】若关系模式R∈1NF，且每一个非主属性完全依赖于码，则关系模式R∈2NF。

换句话说，当1NF消除了非主属性对码的部分函数依赖，则称为2NF。

例如，FIRST关系中的码是Sno、Pno，而Sno→Status，因此非主属性Status部分函数依赖于码，故非2NF的。

若此时，将FIRST关系分解为：

FIRST₁（Sno，Sname，Status，City）∈ 2NF

FIRST₂（Sno，Pno，Qty）∈2NF

因为分解后的关系模式FIRST1的码为Sno，非主属性Sname、Status、City完全依赖于码Sno，所以属于2NF；关系模式FIRST₂的码为Sno、Pno，非主属性Qty完全依赖于码，所以也属于2NF。

3NF（第三范式）

【定义7.12】若关系模式R（U，F）中不存在这样的码X，属性组Y及非主属性

使得X→Y，

成立，则关系模式R∈3NF。

即当2NF消除了非主属性对码的传递函数依赖，则称为3NF。

例如，FIRST₁?3NF，因为在分解后的关系模式FIRST₁中有Sno→Status，Status→City，存在着非主属性City传递依赖于码Sno。若此时将FIRST₁继续分解为：

FIRST₁₁（Sno，Sname，Status）∈ 3NF

FIRST₁₂（Status，City）∈3NF

通过上述分解，数据库模式FIRST转换为FIRST₁₁（Sno，Sname，Status）、FIRST₁₂（Status，City）、FIRST₂（Sno，Pno，Qty）三个子模式。由于这三个子模式都达到了3NF，因此称分解后的数据库模式达到了3NF。

可以证明，3NF的模式必是2NF的模式。产生冗余和异常的两个重要原因是部分依赖和传递依赖。因为3NF模式中不存在非主属性对码的部分函数依赖和传递函数依赖，所以具有较好的性能。对于非3NF的1NF、2NF其性能弱，一般不宜作为数据库模式，通常要将它们变换成为3NF或更高级别的范式，这种变换过程称为“关系模式的规范化处理”。

BCNF（Boyce Codd Normal Form，巴克斯范式）

【定义7.13】关系模式R∈1NF，若X→Y且

时，X必含有码，则关系模式R∈BCNF。

也就是说，当3NF消除了主属性对码的部分函数依赖和传递函数依赖，则称为BCNF。

结论：一个满足BCNF的关系模式，应有如下性质。

（1）所有非主属性对每一个码都是完全函数依赖。

（2）所有非主属性对每一个不包含它的码，也是完全函数依赖。

（3）没有任何属性完全函数依赖于非码的任何一组属性。

例如，设R（Pno，Pname，Mname）的属性分别表示零件号、零件名和厂商名，如果约定，每种零件号只有一个零件名，但不同的零件号可以有相同的零件名；每种零件可以有多个厂商生产，但每家厂商生产的零件应有不同的零件名。这样我们可以得到如下一组函数依赖：

Pno→Pname，（Pname，Mname）→Pno

由于该关系模式R中的候选码为（Pname，Mname）或（Pno，Mname），因而关系模式R的属性都是主属性，不存在非主属性对码的传递依赖，所以R是3NF的。但是，主属性Pname传递依赖于码（Pname，Mname），因此R不是BCNF的。当一种零件由多个生产厂家生产时，零件名与零件号间的联系将多次重复，带来冗余和操作异常现象。若将R分解成：

R1（Pno，Pname）和R2（Pno，Mname）

就可以解决上述问题，并且分解后的关系模式R1、R2都属于BCNF。

4NF（第四范式）

【定义7.14】关系模式R∈1NF，若对于R的每个非平凡多值依赖X→→Y且

时，X必含有码，则关系模式R（U，F）∈4NF。

4NF是限制关系模式的属性间不允许有非平凡且非函数依赖的多值依赖。

注意：如果只考虑函数依赖，关系模式最高的规范化程度是BCNF；如果考虑多值依赖，关系模式最高的规范化程度是4NF。

连接依赖5NF

连接依赖：当关系模式无损分解为n个投影（n>2）会产生一些特殊的情况。下面考虑供应商数据库中SPJ关系的一个具体的值，如下图所示。

关系SPJ是三个二元投影的连接

第一次SP、PJ投影连接“

”起来的结果比原始SPJ关系多了一个元组“S2，P1，J2”，即上图中带下画线的元组。第二次连接的结果去掉了多余的元组，从而恢复了原始的关系SPJ。在这种情况下，原始的SPJ关系是可3分解的。注意，无论我们选择哪两个投影作为第一次连接，结果都是一样的，尽管在每种情况下中间结果不同。

SPJ的可3分解性是基本与时间无关的特性，是关系模式的所有合法值满足的特性，也就是说，这是关系模式满足一个特定的与时间无关的完整性约束。将这种约束简称为3D（3分解）约束。上述情况就是连接依赖要研究的问题。

连接依赖：如果给定一个关系模式R，R₁，R₂，R₃，…，R_n是R的分解，那么称R满足连接依赖JD^*｛R₁，R₂，R₃，…，R_n｝，当且仅当R的任何可能出现的合法值都与它在R₁，R₂，R₃，…，R_n上的投影等价。

形式化地说，若R=R₁∪R₂∪…∪R_n，且

，则称R满足连接依赖JD^*｛R₁，R₂，R₃，…，R_n｝。如果某个R_i，就是R本身，则连接依赖是平凡的。

为了进一步理解连接依赖的概念，我们考虑银行数据库中的子模式：贷款（L-no，Bname，C-name，amount）。其中：

.贷款号为L-no的贷款是由机构名为Bname贷出的。

.贷款号为L-no的贷款是贷给客户名为C-name的客户。

.贷款号为L-no的贷款的金额是amount。

我们可以看到这是一个非常直观的逻辑蕴涵连接依赖：

JD^*（（L-no，Bname），（L-no，C-name），（L-no，amount））

这个例子说明了连接依赖很直观，符合数据库设计的原则。

【定义7.15】一个关系模式R是第五范式（也称投影-连接范式PJNF），当且仅当R的每一个非平凡的连接依赖都被R的候选码所蕴涵，记作5NF。

“被R的候选码所蕴涵”的含义可通过SPJ关系来理解。关系模式SPJ并不是5NF的，因为它满足一个特定连接依赖，即3D约束。这显然没有被其唯一的候选码（该候选码是所有属性的组合）所蕴涵。其区别是，关系模式SPJ并不是5NF，因为它是可被3分解的，可3分解并没有为其（Sno，Pno，Jno）候选码所蕴涵。但是将SPJ3分解后，由于3个投影SP、PJ、JS不包括任何（非平凡的）连接依赖，因此它们都是5NF的。

迁移

选择一个适当的迁移时间，最好定在单位事务不繁忙的时候（如周末）。事先做好系统软件和数据的备份，然后逐步将原有系统安装部署到新网络中，并做好相关设备的配置。要一边安装一边测试，注意不但要用管理员身份测试，还要用普通用户身份测试，以确保迁移后的系统与原有系统一致。

数据库

数据库（DataBase，DB）是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享。

系统使用的所有数据存储在一个或几个数据库中。

数据库设计

数据库的设计质量对整个系统的功能和效率有很大的影响。数据库设计的核心问题是：从系统的观点出发，根据系统分析和系统设计的要求，结合选用的数据库管理系统，建立一个数据模式。设计的基本要求是：

.符合用户需求，能正确反映用户的工作环境

.设计与所选用的DBMS所支持的数据模式相匹配

.数据组织合理，易操作、易维护、易理解

数据库设计步骤

数据库的设计过程可以分为4个阶段，即用户需求分析、概念结构设计、逻辑结构设计和物理结构设计。下图反映和分析了这一设计过程，其中：

数据库设计步骤

.用户需求分析是对现实世界的调查和分析

.概念结构设计是从现实世界向信息世界的转换。根据用户需求来进行数据库建模，也称为概念模型，常用实体关系模型表示。

.逻辑结构设计是从信息世界向数据世界的转化。将概念模型转化为某种数据库管理系统所支持的数据模型。

.物理结构设计是为数据模型选择合适的存储结构和存储方法。

用户需求分析

用户需求分析需要结合具体的业务需求分析，确定信息系统的各类使用者以及管理员对数据及其处理、数据安全性和完整性的要求。主要设计如下三方面：

（1）系统应用环境分析。

系统应用环境及系统所服务和运行的特殊组织环境。不同业务单位有不同的组织结构和业务工作流程。环境的特殊性将决定数据库的整体设计思路和风格。

（2）用户数据需求及加工分析。

用户需求及加工分析指用户希望从数据库中获得那些信息以及对信息的处理要求。由此决定数据库中应该存储哪些信息以及对数据需要进行哪些加工处理，包括在处理过程中特定的查询要求、响应时间要求，以及数据安全性、保密性、完整性和一致性等方面的要求，应在此基础上编制数据字典。

（3）系统约束条件分析。

系统约束条件分析及分析现有系统的规模、结构、资源和地理分布，明确现有系统存在的种种限制或约束，从而使系统设计不至于脱离实际条件，确保系统设计顺利实施。

数据库概念结构设计

概念结构设计是指由现实世界的各种客观事物及其联系转化为信息世界中的信息模型的过程，即为数据库的概念结构设计。E-R模型即实体-联系模型是描述数据库概念结构的有力工具。下面结合实例说明E-R模型的构建。

在一个政府部门中存在着多个不同科室，每一个由若干名科员构成，每个科室都有一名主管上级领导，科室公务员负责为前来机关办事的群众提供相关的服务。现分别画出各个科室的E-R模型图，再画出整个机关的E-R模型。

一个科室结构应包括：

（1）实体，即上级领导、科室、科员、群众。

（2）实体联系，主管领导与科室之间是一对多的关系，科室与科员之间的联系也是一对多的关系，科员与群众之间是多对多的关系。

（3）各个实体所具有的属性。

.主管上级领导，属性可以有编号、姓名、性别、年龄、职务、任职时间、参加工作时间、入党时间、学历

.科室的属性可以包括科室号

.科员的属性包括编号、姓名、性别、年龄、职称、参加工作时间、入党时间、学历

.群众属性包括服务日期、服务事宜、处理结果

.服务，包括服务日期、服务事宜、处理结果

通过以上分析，可以得到如下的E-R模型，如下图所示（部分属性）。

科室E-R模式图

数据库逻辑结构设计

逻辑结构设计的任务是要将概念结构设计阶段完成的概念模型转换成能被选定的数据库管理系统支持的数据模型。现行的数据库管理系统一般支持网状、层次和关系三种数据模型中的一种，其中关系型的数据模型在DBMS中的应用和支持较为广泛，已成为主流。

下面简单介绍一下由E-R模型转换为关系数据模型的转化规则。在关系数据模型下，数据的逻辑结构是一张二维表，每个关系为一张二维表格。E-R模型转换为关系数据模型的转化规则如下。

.每一实体及其属性对应于一个关系模式。实体名作为关系名，实体的属性作为对应关系的属性。所谓关系模式，就是对关系的描述，用关系名（属性1、属性2、属性3，……属性n）来表示。

.两两实体之间的联系及其属性一般对应一个关系模式，联系名作为对应的关系名，联系的属性作为对应关系的属性；不带属性的联系可以去掉。

.实体和联系中关键字属性在关系模式中仍作为关键字。

上图中所示的实体关系图可以按照这些转换规则进行转化得到如下对应的关系模型。

.主管上级领导，编号、姓名、性别、年龄、职务、任职时间、参加工作时间、入党时间、学历

.科室，包括主管上级领导编号、科室号

.科员，包括科室号、编号、姓名、性别、年龄、职称、参加工作时间、入党时间、学历

.群众，包括来访者编号、姓名、性别、年龄、来访日期、服务事宜

.服务，包括受理公务员编号、来访者编号、服务日期、服务事宜、处理结果

不同的系统配备的数据库管理系统性能不同，因而必须结合具体DBMS的性能和要求将一般数据模型转换成所选用的数据管理系统支持的数据模型，若选用的DBMS支持层次、网络模型，则还要完成从关系模型向层次或网络模型的转换。

数据库物理结构设计

数据库的物理设计以逻辑结构设计的结果为输入，结合关系数据库系统的功能和应用环境、存储设备等具体条件为数据模型选择合适的存储结构和存储方法。从而提高数据库的效率。物理结构设计的主要任务如下。

（1）确定存储结构。

根据用户对数据结构和处理的要求，权衡数据存取时间、空间利用率和维护代价等三方面的利弊，综合考虑存储效率、维护成本等相关因素，从数据库管理系统提供的各种存储结构（例如顺序存储结构、索引存储结构，等等）中，选取合适的结构并加以实现。

（2）选择和调整存储路径。

数据库必须支持多个用户的多种应用，因此必须提供多个存取入口、多条存取路径，建立多个辅助索引。此过程中需要考虑一些问题，例如如何选取合适的数据项建立索引，如何建立辅助索引从而达到检索效率和存储空间的统一等。

（3）确定数据存储位置。

按照不同的应用可将数据分为若干个组。根据各组数据利用频率和存储要求的不同，各类数据的存放位置、存储设备以及区域划分都应有所不同。应该把存取频率和存取速度要求较高的数据存储在高速存储器上，把存取频率和存取速度要求较低的数据存储在低速存储器上。

（4）确定存储分配。

大多数据库管理系统会提供一些存储分配参数，例如溢出区大小、块大小、缓冲区大小和个数等，设计人员应全面考虑这些参数，以进行物理优化。

（5）确定数据的完整性与安全性约束。

进行物理设计时不仅要考虑所选用数据库管理系统提供的安全机制和完整性约束，还要考虑用户使用制度、应用程序、计算机系统等各个涉及具体应用的方面。

（6）考虑数据恢复方案。

数据库的物理设计阶段也要考虑数据库的恢复问题，采取必要的物理措施和手段，为突发事件和故障后的恢复做好准备，提供必要的物理工具。

数据挖掘

随着数据库技术的不断发展及数据库管理系统的广泛应用，数据库中存储的数据量急剧增大，在大量的数据背后隐藏着许多重要的信息，如果能把这些信息从数据库中抽取出来，将为公司创造很多潜在的利润，而这种从海量数据库中挖掘信息的技术，就称之为数据挖掘（Data Mining，DM）。事实上，从技术角度看，数据挖掘可以定义为从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又潜在有用的信息和知识的过程。

数据挖掘的分类

数据挖掘工具能够对将来的趋势和行为进行预测，从而很好地支持人们的决策，比如，经过对公司整个数据库系统的分析，数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件推销活动最有可能做出反应，为什么”等类似的问题。有些数据挖掘工具还能够解决一些很消耗人工时间的传统问题，因为它们能够快速地浏览整个数据库，找出一些专家们不易察觉的极有用的信息。

数据挖掘技术的分类可以有多种角度。按照所挖掘数据库的种类可分为：关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘等。按所发现的知识类别可分为：关联规则、特征描述、分类分析、聚类分析、趋势和偏差分析等。按所发现的知识抽象层次可分为：一般化知识、初级知识和多层次知识等。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用，因为对这种技术进行支持的三种基础技术已经发展成熟。这些技术是：海量数据搜集、强大的多处理器计算机、数据挖掘算法。在数据挖掘中最常用的技术有：

.人工神经网络：仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。

.决策树：代表着决策集的树形结构。

.遗传算法：基于进化理论，并采用遗传结合、遗传变异，以及自然选择等设计方法的优化技术。

.近邻算法：将数据集合中每一个记录进行分类的方法。

.规则推导：从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

采用上述技术的某些专门的分析工具已经发展了大约十年的历史，不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。将数据挖掘工具与传统数据分析工具进行比较（如下表所示），可以发现传统数据分析工具的分析重点在于向管理人员提供过去已经发生什么，描述过去的事实，例如，上个月的销售成本是多少；而挖掘工具则在于预测未来的情况，解释过去所发生的事实的原因，例如，下个月的市场需求情况怎样，或者某个客户为什么会转向竞争对手。分析的目的也不同，前者是为了从过去的事实中列出管理人员感兴趣的事实，例如，哪些是公司最大的客户；后者则是要找出哪些未来可能成为公司最大的客户。从两者分析时所需的数据量来看，也有明显的差异，前者需要的数据量并不很大，而后者需要海量数据才能运行。

数据挖掘工具与传统数据分析工具的比较

数据挖掘与数据仓库的关系

根据数据挖掘的定义可以看出，数据挖掘包含一系列旨在数据库中发现有用而未发现的模式的技术，如果将其与数据仓库紧密联系在一起，将会获取意外的成功。传统的观点认为，数据挖掘技术扎根于计算科学和数学，不需要也不得益于数据仓库。这种观点并不正确，成功的数据挖掘的关键之一在于通过访问正确、完整和集成的数据，才能进行深层次的分析，寻求有益的信息。而这些正是数据仓库所能提供的，数据仓库不仅是集成数据的一种方式，数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结，将给数据挖掘带来各种便利和功能。

数据挖掘技术的应用过程

数据挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用这样几个阶段。

确定挖掘对象

数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的，但是探索的问题应是有预见性的、有目标的。为了数据挖掘而挖掘数据带有盲目性，往往是不会成功的。在定义挖掘对象时，需要确定这样的问题：从何处入手？需要挖掘什么数据？要用多少数据？数据挖掘要进行到什么程度？虽然在数据挖掘中常常事先不能确定最后挖掘的结果到底是什么？例如，选择的数据是描述信用卡客户的实际支付情况，那么数据挖掘者的工作就可能是围绕着获取信用卡使用者实际支付情况而展开的。

有时还要用户提供一些先验的知识，例如概念树等。这些先验知识可能是用户业务领域知识或以前数据挖掘所获得的初步成果。这就意味着数据挖掘是一个过程，在挖掘过程中可能提出新的问题，可能尝试用其他方法来检验数据，在数据的子集上进行同样的研究。有时业务对象是一些已经理解的数据，但是在某些情况下还需要对这些数据进行挖掘。此时，不是通过数据挖掘发现新的有价值的信息，而是通过数据挖掘验证假设的正确性，或者是通过同样方式的数据挖掘查看模式是否发生变化。如果在经常性的同样的数据挖掘中的一次挖掘没有出现以前同样的结果，这意味着模式已经发生了变化，可能需要进行更深层次的挖掘。例如，将数据挖掘应用于客户关系管理（CRM）中，就需要对客户关系管理的商业主题进行仔细的定义。每个CRM应用都有一个或多个商业目标，要为每个目标建立恰当的模型。例如，“提高客户对企业促销的响应率”和“提高每个客户的响应价值”这两个目标是不同的，并且在定义问题的同时，也生成了评价CRM应用结果的标准和方法，即确定了数据挖掘的评价指标。

准备数据

在确定数据挖掘的业务对象后，需要搜索所有与业务对象有关的内部和外部数据，从中选出适合于数据挖掘应用的数据。对数据的选择必须在建立数据挖掘模型之前完成。选择数据后，还需要对数据进行预处理，对数据进行清洗、解决数据中的缺值、冗余、数据值的不一致性、数据定义的不一致性、过时数据等问题。在数据挖掘时，有时还需要对数据分组，以提高数据挖掘的效率，降低模型的复杂度。

建立模型

将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型，是数据挖掘的关键。

数据挖掘

对所得到的经过转化的数据进行挖掘，除了完善与选择合适的算法需要人工干预外，数据挖掘工作都由数据挖掘工具自动完成。

结果分析

当数据挖掘出现结果后，要对挖掘结果进行解释和评估。具体的解释和评估方法一般根据数据挖掘操作结果所制定的决策成败来定，但是管理决策分析人员在使用数据挖掘结果之前，又希望能够对挖掘的结果进行评估，以保证数据挖掘结果在实际应用中的成功率。因此，在对数据挖掘结果进行评价时，可以考虑这样几个方面的问题：第一，建立模型相同的数据集在模型上进行操作所获得的结果要优于用不同数据集在模型上的操作结果；第二，模型的某些结果可能比其他预测结果更加准确；第三，由于模型是以样板数据为基础建立的，因此，实际结果往往会比建模时的结果差。另外，利用可视化技术可将数据挖掘结果表现得更清楚，更有利于对数据挖掘的结果分析。

知识应用

数据挖掘的结果经过业务决策人员的认可，才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起，构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用，才能对数据挖掘的成果做出正确的评价。但是，在应用数据挖掘的成果时，决策人员关心的是数据挖掘的最终结果与用其他候选结果在实际应用中的差距。

数据挖掘技术可以让现有的软件和硬件更加自动化，并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候，它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据，让分析的结果更加准确可靠，并且易于理解。数据库可以由此拓展深度和广度。在深度上，允许有更多的列存在。以往，在进行较复杂的数据分析时，专家们限于时间因素，不得不对参加运算的变量、数量加以限制，但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在，高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历，并且任何可能参选的变量都被考虑进去，再不需要选择变量的子集来进行运算了。广度上，允许有更多的行存在。更大的样本使产生错误和变化的概率降低，这样用户就能更加精确地推导出一些虽小但颇为重要的结论。

索引

在数据库系统中，索引是一种可选结构，其目的是提高数据访问速度。利用索引可提高用户访问数据的速度，或直接从索引中独立检索数据。如果对索引的配置和使用进行了优化，那么索引能大大降低数据文件的I/O操作并提高系统性能。

但是在为一个表创建索引之后，Oracle将自动维护这个索引。当用户在表中插入、更新或删除记录时，系统将自动更新与该表相关的索引。一个表可以有任意数量的索引，但一个表的索引越多，用户在该表中插入、更新或删除记录时所造成的系统开销也越大。其原因是无论何时更新表，系统都必须更新与之相关的索引。

索引是建立在表的一个或多个字段之上的。索引的作用大小取决于该字段或字段集的选择性。所谓选择性，是指索引能降低数据集中的程度。如果表中与某个索引相关的字段值各不相同，那么该索引就有很好的选择性。一个选择性很差的索引的例子，是基于字段值仅为true/false的字段创建的索引，因为表中很多记录该字段的字段值都相同。一个索引可能只能帮助管理员降低检索的记录数，而不能惟一地确定一条记录。例如：如果为一个表的LastName字段创建了一个索引，现在用户需要搜索John Smith，那么这个索引将返回LastName字段值为Smith的所有记录，因而用户还不得不在返回的记录中搜索含John的记录。索引的选择性越好，就越有助于降低返回记录的数量，从而提高数据访问速度。下面介绍有效创建和使用索引的技巧和方法。

. 索引和降低系统处理的数据量。

索引的主要作用之一就是降低系统处理的数据量。对CPU使用和等待完成I/O操作的时间上，I/O操作引起的系统开销都是非常昂贵的。降低I/O操作可提高系统性能和处理能力。如果不使用索引，那么为了找到特定的数据，系统将不得不扫描表中的所有数据。

例如如下查询语句：

如果不使用索引，系统必须扫描整个emp表并检查表中每条记录的employee_id字段的值。如果emp表很大，那么这个操作可能意味着数量巨大的I/O读写和很长的处理时间。

如果为emp表的employee_id字段创建了索引，那么系统将遍历该索引并找到用户所查询记录的ID。找到记录ID之后，只需一条额外的I/O操作就能检索到用户所需的数据。

用于说明这个问题的最好例子，是只需查找一条记录的情况。在表的每条记录中，类似employee_id这样的字段的值可能在整个表中都是惟一的。这意味着查询结果值返回一条记录，这种查询的效率是非常高的。

在某些情况下，索引必须返回大量数据。如下面的例子：

这个查询语句很可能返回大量数据，因为索引操作返回了大量记录的ID，并且系统必须独立访问这些记录的ID，所以这种情况下，不使用索引可能比使用索引的效率更高，直接进行表扫描可能效率更高。不同情况下，采用哪种查寻方法更好，很大程度上取决于表的数据量和组织形式。

对于不同的数据，在某些情况下位图索引可能非常有用，而在另外一些情况下，使用位图索引可能没有任何好处。

. 索引和更新。

如果对表创建了索引，那么更新、插入和删除表中的记录都将导致额外的系统开销。在系统提交这些操作之前，系统将会更新所有与该表相关的索引。这可能需要花费很长时间，并额外增加一定的系统开销。

. 在字段选择性很低的情况下适用索引。

在某些情况下，表中的某些字段的选择性可能很低。开发人员没必要为所有表创建索引，实事上，在某些情况下索引引起的问题比解决的问题更多。在很多情况下，需要反复试验，才能确定一个索引是否有助于提高系统性能。

但是，位图索引能在字段选择性不高的情况下工作得很好。一个位图索引可以和其他位图索引联合使用，以降低系统检索的数据集。对于某些值为true/false、yes/no或其他小范围数据的字段，建立位图索引是非常合适的。请记住：位图索引所占用的空间，是随着与该索引相关的字段的不同值的数量的增加而增加的。

如果决定创建一个索引，那么确定为哪些字段创建索引是非常重要的。对于不同的表，可能会选择一个或多个字段创建索引。可使用如下方法来确定在哪些字段上创建索引：

①选择那些最常出现在where子句中的字段。经常被访问的字段最可能受益于索引。

②经常用于连接表的字段是创建索引的必然候选字段。

③必须注意索引导致的查询语句性能的提高与更新数据时性能的降低之间的平衡。

④经常被修改的字段不适合创建索引，其原因是，更新索引将增加系统开销。

在某些情况下，使用复合索引的效率可能比使用简单索引的效率更高。下面的一些例子说明了应当在何种情况下使用复合索引。

①某两个字段单独来看都不具有惟一性，但结合在一起却有惟一性，那么这种情况下，复合索引将工作得很好。例如：A字段和B字段都几乎没有惟一性值，但绝大多数情况下，字段A和B的某个特定组合却具有惟一性特点。那么在检索数据时，可在where子句重视and操作符来将这两个字段连接在一起。

②如果select语句中的所有值都位于复合索引中，那么Oracle将不会检索表，而直接从索引中返回数据。

③如果多个查询语句的where子句中作为查询条件的字段都不相同，但返回的记录相同，那么应当考虑利用这些字段创建一个复合索引。

在创建索引之后，开发人员应当定期利用SQL TRACE工具或EXPLAIN PLAN来察看用户查询是否充分利用了索引。很有必要花费一定精力来试验使用索引和未使用索引在效率上的差别，以判断索引所耗费资源是否物有所值。

应该删除那些不经常使用的索引。可使用alter index monitoring usage语句来跟踪索引的使用情况。还可以从系统表all_indexes、user_indexes和dba_indexes中查询用户访问索引的频率。

如果为一个不适合创建索引的字段或表创建了索引，那么这可能会导致系统能力的下降。而如果创建的索引合理，那么这将降低系统的I/O操作并加快访问速度，从而大大提高系统性能。

系统性能

系统性能定义和指标

计算机系统性能指标以系统响应时间和作业吞吐量为代表。响应时间（Elapsed Time）是指用户从输入信息到服务器完成任务给出响应的时间，即计算机系统完成某一任务（程序）所花费的时间，比如存储器访问、输入／输出等待、操作系统开销等。作业吞吐量是整个服务器在单位时间内完成的任务量。假定用户不间断地输入请求，则在系统资源充裕的情况下，单个用户的吞吐量与响应时间成反比，即响应时间越短，吞吐量越大。为了缩短某一用户或服务的响应时间，可以分配给它更多的资源。性能调整就是根据应用要求和服务器具体运行环境和状态，改变各个用户和服务程序所分配的系统资源，充分发挥系统能力，用尽量少的资源满足用户要求，达到为更多用户服务的目的。

计算机性能的其他常用指标还包括MIPS （Million Instruction Per Second）和MFLOPS（Million Floating-point Instruction Per Second）。

（1） MIPS=指令数/（执行时间×1000000）。

其主要特点如下：

① MIPS大小和指令集有关，不同指令集的计算机间的MIPS不能比较。

②在同一台计算机上MIPS是变化的，因程序不同而变化。

③有时MIPS指标会出现矛盾。

④主要适用于带有硬件浮点处理器的计算机。

⑤MIPS中，除包含运算指令外，还包含取数、存数、转移等指令在内。

⑥MIPS只适宜于评估标量机。

⑦相对MIPS指相对参照机而言的MIPS，通常用VAX-11/780机处理能力为1MIPS。

（2）MFLOPS=浮点指令数/（执行时间×1000000）。

①与机器和程序有关。

②测量浮点运算时，比MIPS准确。

③MFLOPS比较适宜于评估向量计算机。

④MFLOPS与MIPS关系：1MFLOPS≈3MIPS。

⑤MFLOPS仅仅只能用来衡量计算机浮点操作的性能，而不能体现计算机的整体性能。例如编译程序，不管计算机的性能有多好，它的MFLOPS不会太高。

⑥MFLOPS是基于操作而非指令的，所以它可以用来比较两种不同的计算机。

⑦MFLOPS依赖于操作类型。例如100%的浮点加要远快于100%的浮点除。

⑧单个程序的MFLOPS值并不能反映计算机的性能。

系统性能评估

计算机性能评价技术可用于开发中和开发后的系统评价。主要包括三种技术：分析技术、模拟技术、测量技术。

分析技术

分析技术是在一定假设条件下，计算机系统参数与性能指标参数之间存在着某种函数关系，按其工作负载的驱动条件列出方程，用数学方法求解。其特点是具有理论的严密性，节约人力和物力，可应用于设计中的系统。它的数学工具主要是利用排队论模型进行分析。

模拟技术

模拟技术首先是对于被评价系统的运行特性建立系统模型，按系统可能有的工作负载特性建立工作负载模型；随后编写模拟程序，模仿被评价系统的运行；设计模拟实验，依照评价目标，选择与目标有关因素，得出实验值，再进行统计、分析。其特点在于可应用于设计中或实际应用中的系统，可与分析技术相结合，构成一个混合系统。分析和模拟技术最后均需要通过测量技术验证。

测量技术

测量技术则是对于已投入使用的系统进行测量，通常采用不同层次的基准测试程序评估。其评估层次包括实际应用程序、核心程序、合成测试程序三个层次，但必须均为国际性组织认可的程序，同时需要对评估结果进行分析和统计以保证其准确性。

常用的国际认可的用来测试机器性能的测试基准测试程序（按评价准确性递减的顺序）：

（1）实际的应用程序方法。

运行例如C编译程序、Tex、字处理软件、CAD工具等。

（2）核心基准程序方法。

从实际的程序中抽取少量关键循环程序段，并用它们来评价计算机的性能。

（3）简单基准测试程序。

简单基准测试程序通常只有10～100行而且运行结果是可以预知的。

（4）综合基准测试程序。

为了体现平均执行而人为编制的，类似于核心程序，没有任何用户真正运行综合基准测试程序。

题号导航 2017年上半年系统分析师下午试卷案例

本试卷我的完整做题情况



	第4题在手机中做本题