论数据挖掘方法及应用<br />随着信息技术和数据库技术的普遍应用，人类获取数据的能力..

免费智能真题库 > 历年试卷 > 系统分析师 > 2018年上半年系统分析师下午试卷论文

第4题

知识点：数据库数据库技术数据挖掘智能化自动化

论数据挖掘方法及应用
随着信息技术和数据库技术的普遍应用，人类获取数据的能力不断增强，数据库的数量和规模在迅速增加。数据挖掘又称数据库中的知识发现（Knowledge Discover in Database, KDD），是识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。数据挖掘是数据库知识发现过程的一个步骤，其目标就是要智能化和自动化地把数据转换为有用的信息和知识。

问题：4.1 请围绕“数据挖据方法及应用”论题，依次从以下三个方面进行论述。
1.概要叙述你参与分析和开发的软件系统以及你所担任的主要任务和开展的主要工作。
2.详细阐述三种常用的数据挖掘方法。
3.详细说明你所参与分析和开发的软件系统是如何基于常用的数据挖掘方法进行数据挖掘的。


知识点讲解
· 数据库 · 数据库技术 · 数据挖掘 · 智能化 · 自动化

数据库

数据库（DataBase，DB）是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享。

系统使用的所有数据存储在一个或几个数据库中。

数据库技术

计算机与人类相比的最大优势就是能够迅速准确地处理大量数据。因此，自从计算机发明以来，数据处理就是它的基本功能和关键技术。数据处理的中心问题是数据管理，即对数据的分类、组织、编码、存储、检索和维护等。而数据库技术正是数据处理技术发展到比较成熟后的产物。可以说，数据库技术是现代计算机应用的基础。电子商务以电子计算机及其网络技术取代传统方式来进行生产经营活动，当然离不开数据库技术的支持。数据库技术对电子商务的支持主要表现在两方面：

存储和管理各种商务数据：这是数据库技术的基本功能。

决策支持：近几年，随着数据仓库和数据挖掘技术的产生和发展，使企业可以科学地对数据库中海量的商务数据进行科学地组织、分析和统计，从而更好地服务于企业的决策支持。可以说，数据库技术是电子商务的一项支撑技术，在电子商务的建设中占有重要的地位。

数据库技术基本理论

电子商务是利用电子网络进行的商务活动，这里的电子网络主要是指Internet和基于Internet技术的Intranet（企业内部网）、Extranet（企业外部网）。其进行的商务活动不仅包含电子数据交换所涉及的电子交易，还包括电子函件交流、网上站点宣传和利用Internet技术改造的其他传统应用。但电子商务应用的前提是企业管理信息系统的广泛应用。数据库技术是企业管理信息系统的核心技术之一，所以，要深入理解电子商务就应该先了解数据库的一些基本理论。

数据模型

模型就是对现实世界特征的模拟和抽象，数据模型是对现实世界数据特征的抽象。对于具体的模型人们并不陌生，如航模飞机、地图和建筑设计沙盘等都是具体的模型。最常用的数据模型分为概念数据模型和基本数据模型。

（1）概念数据模型，也称信息模型，是按用户的观点对数据和信息建模，是现实世界到信息世界的第一层抽象，强调其语义表达功能，易于用户理解，是用户和数据库设计人员交流的语言，主要用于数据库设计。这类模型中最著名的是实体联系模型，简称E-R模型。

（2）基本数据模型。它是按计算机系统的观点对数据建模，是现实世界数据特征的抽象，用于DBMS的实现。基本的数据模型有层次模型、网状模型、关系模型和面向对象模型（Object Oriented Model）。

数据库结构的基础是数据模型，是用来描述数据的一组概念和定义。数据模型的三要素是数据结构、数据操作和数据的约束条件。

.数据结构。是所研究的对象类型的集合，是对系统静态特性的描述。

.数据操作。对数据库中各种对象（型）的实例（值）允许执行的操作的集合，包括操作及操作规则。如操作有检索、插入、删除和修改，操作规则有优先级别等。数据操作是对系统动态特性的描述。

.数据的约束条件。是一组完整性规则的集合。也就是说，对于具体的应用数据必须遵循特定的语义约束条件，以保证数据的正确、有效和相容。

关系数据库

（1）基本概念。关系数据库是以关系模型为基础的数据库，它利用关系来描述现实世界。关系模型有三部分组成：数据结构、关系操作集合、关系的完整性。

.数据结构。在关系模型中，无论是实体还是实体之间的联系均由单一的结构类型即关系来表示。

.关系操作。关系代数（或等价的关系演算）中并、交、差、选择、投影、连接等。关系模型给出了关系操作的能力和特点，但不对DBMS的语言给出具体的语法要求，关系语言的特点是高度的非过程化。其操作方式的特点是集合操作，即操作的对象和结果是集合，称为一次一集合的方式，而不是一次一记录的方式。

.关系完整性。实体完整性、参照完整性和用户自己定义的完整性。实体完整性是保证数据库中记录的唯一性，即每个记录的主键不能为空值也不能与其他记录的主键相同。参照完整性是保证表与表之间语意上的完整性，即当一个表引用在另一个表中定义的实体时，要保证这个实体的有效性。这两种完整性是关系模型必须满足的约束条件，应该由关系系统自动支持。而用户自定义完整性反映了用户的要求，是用户自行定义的。

（2）结构化查询语言（SQL）。结构化查询语言（Structured Query Language，SQL）的理论是在1974年被提出的，并在IBM公司的System R上实现。由于它功能丰富、使用方式灵活、语言简洁易学等优点，在计算机工业界和用户中备受青睐，很快得以推广。后来，美国国家标准局（ANSI）和国际标准化组织（ISO）先后批准SQL作为关系数据库语言的美国及国际标准。至此，SQL就成为关系数据库的标准语言，关系数据库系统一般都支持标准SQL语句。所以，尽管当今不同品牌的关系数据库有这样或那样的差异，人们都可以通过标准SQL语句对数据库进行操作，这就大大减轻了用户的负担。

SQL虽被称为“查询语言”，其功能却不仅仅是查询，它的功能包括数据定义、数据操纵、数据库控制、事务控制四个方面，是一个综合、通用、功能强大的关系数据库语言。其中：

.数据定义。用于定义和修改数据库对象。如CREATE TABLE（创建表）、DROP TABLE（删除表）等。

.数据操纵。对数据的增、删、改和查询操作。如SELECT（查询数据）、INSERT（插入记录）、DELETE（删除记录）、UPDATE（修改数据）等。

.数据库控制。控制用户对数据库的访问权限。如GRANT（授予权利）、REVOKE（取消权利）等。

.事务控制。控制数据库系统事务的运行。如COMMIT（事务提交）、ROLLBACK（事务撤销）等。

SQL有如下几个比较突出的优点。

.一体化。SQL可以完成包括数据库定义、修改、删除、数据更新、数据查询等数据库生命周期中的全部活动，给用户使用带来很多方便。

.灵活。SQL有两种使用方式。一种是联机交互使用，另一种是嵌入某种高级程序设计语言的程序中。这两种方式的语法结构是统一的。这样既给用户带来了灵活的选择余地，又不会带来不一致的困扰。

.高度非过程化。与高级编程语言相比，SQL对数据库的操作方面是非常有优势的。使用SQL用户只需提出“做什么”，不用了解实现的细节，复杂的过程均由系统自动完成。

.语言简洁，易学易用。

（3）关系数据的规范化理论。为了使数据库设计的方法走向完备，人们提出规范化理论。规范化可以使关系的结构简化，更加有规律，存储尽量减少冗余，使数据库设计得更为合理。规范化的目的可以概括为以下几点：①保证库中每一个分量都不可再分；②消除冗余存储，简化检索操作；③消除插入异常和删除异常。

数据库系统的建立

数据库系统是企业整个管理信息系统的核心和基础，它的任务就是把系统中大量的数据按一定的模型组织起来，以便及时、准确地提供给用户。一个管理信息系统的各部分是否能紧密地结合在一起以及如何结合，关键在数据库。因此只有对数据库进行合理的逻辑设计和有效的物理设计才能开发出完善而高效的管理信息系统。数据库系统是整个管理信息系统建设重要的组成部分。

建设数据库系统一般要分为两步：一是设计和建立高效的数据库（DB），二是设计和建立数据库管理系统（DBMS）。其基本过程如下图所示。

数据库管理信息系统的建设过程

数据仓库、联机分析处理和数据挖掘

广义概念上的数据仓库是一种帮助企业作决策的体系化解决方案，它包括了三个方面的内容：数据仓库技术（Data Warehouse，DW）、联机分析处理技术（Online Analytical Processing，OLAP）和数据挖掘技术（Data Mining，DM）。

数据仓库技术

数据仓库是一种只读的、用于分析的数据库，常常作为决策支持系统的底层。它从大量的事务型数据库中抽取数据，并将其清理、转换为新的存储格式，即为了决策目标而把数据聚合在一种特殊的格式中。数据仓库之父W. H. Inmon对数据仓库的定义是：数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。其中，“主题”是指用户使用数据仓库辅助决策时所关心的重点问题，每一个主题对应一个客观分析领域，如销售、成本、利润的情况等。那么，所谓“面向主题”就是指数据仓库中的信息是按主题组织的，按主题来提供信息。“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总，而是经过系统地加工整理，是相互一致的、具有代表性的数据。所谓“随时间变化”，是指数据仓库中存储的是一个时间段的数据，而不仅仅是某一个时点的数据，所以主要用于进行时间趋势分析。一般数据仓库内的数据时限为5～10年，数据量也比较大。“信息本身相对稳定”，是指数据一旦进入数据仓库，一般情况下将被长期保留，变更很少。

数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源，为了决策需要而产生的，它并不是所谓的“大型数据库”。数据仓库的方案建设的目的，是为前端查询和分析作为基础，由于有较大的冗余，所以需要的存储也较大。为了更好地为前端应用服务，数据仓库往往有如下几个特点：

（1）数据效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等，可以看出，日为周期的数据要求的效率最高，要求24小时甚至12小时内，客户能看到昨天的数据分析。由于有的企业每日的数据量很大，设计不好的数据仓库经常会出问题，延迟1～3日才能给出数据，显然不行的。

（2）数据质量足够好。数据仓库所提供的各种信息，肯定要准确的数据，但由于数据仓库流程通常分为多个步骤，包括数据清洗、装载、查询、展现等，复杂的架构会更多层次，那么由于数据源有脏数据或者代码不严谨，都可以导致数据失真，客户看到错误的信息就可能导致分析出错误的决策，造成损失，而不是效益。

（3）数据有足够的扩展性。之所以有的大型数据仓库系统架构设计复杂，是因为考虑到了未来若干年的扩展性，这样的话，未来不用太快花钱去重建数据仓库系统，就能很稳定运行。主要体现在数据建模的合理性，数据仓库方案中多出一些中间层，使海量数据流有足够的缓冲，不至于数据量大很多，就运行不起来了。

数据仓库组织和管理数据的方法与普通数据库不同。主要表现在三个方面：

（1）依据决策要求，只从数据库中抽取那些需要的数据，并进行预处理使系统获得特定的数据格式。

（2）数据仓库是多维的，即数据仓库的数据的组织方式有多层的行和列。

（3）支持决策处理，不同于普通的事务处理。

数据仓库技术在近几年蓬勃发展起来，不少厂商都推出了他们的数据仓库产品，同时也推出了一些分析工具。仅仅拥有数据仓库是不够的，在其上应用各种工具进行分析，才能使数据仓库真正发挥作用。联机分析处理和数据挖掘就是这样的分析工具。

联机分析处理技术

联机分析处理是针对特定问题的联机数据访问和分析，通过对信息进行快速、稳定、一致和交互式的存取，对数据进行多层次、多阶段的分析处理，以获得高度归纳的分析结果。联机分析处理是一种自上而下、不断深入的分析工具：在用户提出问题或假设之后，它负责提取出关于此问题的详细信息，并以一种比较直观的方式呈现给用户。联机分析处理技术的发展速度很快，在数据仓库的概念提出不久，联机分析处理的理论及相应工具就被相继推出了。

联机分析处理要求按多维方式组织企业的数据，传统的关系数据库难以胜任。为此，人们提出了多维数据库的概念。正是这一技术的发展使决策分析中的数据结构和分析方法相分离，才有可能研制出通用而灵活的分析工具，并使分析工具产品化。维是人们观察现实世界的角度，决策分析需要从不同的角度观察分析数据，以多维数据为核心的多维数据分析是决策的主要内容。多维数据库是以多维方式来组织数据的。目前，联机分析处理的工具可分为两大类，一类是基于多维数据库的，另一类是基于关系数据库的。两者的相同点是基本数据源仍是数据库和数据仓库，都是基于关系数据模型的，都向用户显示多维数据视图；不同点在于，前者是把分析所需的数据从数据仓库中抽取出来，物理地组织成多维数据库，而后者则是利用关系表来模拟多维数据，并不是物理地生成多维数据库。

数据挖掘技术

数据挖掘的基本思想就是从数据中抽取有价值的信息，其目的是帮助决策者寻找数据间潜在的关联，发现被忽略的要素，而这些信息对预测趋势和决策行为也许是十分有用的。

从数据库的角度看，数据挖掘就是这样一个过程，它从数据库的数据中识别出有效的、新颖的、具有潜在效用的并最终可理解的信息（如规则、约束等）的非平凡过程。非平凡是一个数学概念，用来描述其复杂程度，即数据挖掘既不是把数据全部抽取，也不是所有数据都不抽取，而是抽取出隐含的、未知的、可能有用的信息。

从决策支持的角度看，数据挖掘是一种决策支持的过程，主要基于人工智能、机器学习、统计学和数据库技术等多种技术，能高度自动地分析企业原始的数据，进行归纳推理，从中挖掘出潜在的模式，使系统能通过这些发现的知识来预测客户的行为，帮助企业的决策者调整市场策略，从而减少风险，辅助做出正确的决策。它是提高商业和科学决策过程质量和效率的一种新方法。

数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析，以辅助决策，那么它们之间是否有差别呢？答案是肯定的。从某种意义上来说，联机分析处理还是一种传统的决策支持方法。即，在某个假设的前提下通过数据查询和分析来验证或否定这个假设，所以联机分析处理是一种验证型的分析。一般来说验证型的分析有如下局限性：

（1）常常需要以假设为基础。用户的假设能力有限，只能局限于对几种变量进行假设。

（2）联机分析处理需要对用户的需求有全面而深入的了解，然而实际上有些时候用户的需求并不是确定的。

（3）抽取信息的质量依赖于用户对结果的解释，容易导致错误。

我们可以看出，联机分析处理是由用户驱动的，很大程度上受到用户水平的限制。与联机分析处理不同，数据挖掘是数据驱动的，是一种真正的知识发现方法。使用数据挖掘工具，用户不必提出确切的要求，系统能够根据数据本身的规律性，自动地挖掘数据潜在的模式，或通过联想，建立新的业务模型，帮助决策者调整市场策略，并找到正确的决策。这显然利于发现未知的事实。从数据分析深度的角度来看，联机分析处理位于较浅的层次，而数据挖掘则处于较深的层次。所以，联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。

近几年，越来越多的联机分析处理产品融入了数据挖掘的方法，所以联机分析处理与数据挖掘间的界限正在逐渐模糊。

SQL语言

SQL概述

SQL（Structured Query Language）结构化查询语言，是一种数据库查询及程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。它不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，不同底层结构的不同数据库系统可以使用相同的SQL语言作为数据输入与管理的接口，常用的数据库开发系统，都支持SQL语言作为查询语言。

SQL语言主要具有以下优点：

.非过程化语言。SQL是一个非过程化的语言，因为它一次处理一个记录，对数据提供自动导航。SQL允许用户在高层的数据结构上工作，而不对单个记录进行操作。

.统一的语言。SQL将许多任务统一在一种语言之中，包括：查询数据；在表中插入、修改和删除记录；建立、修改和删除数据对象；控制对数据和数据对象的存取；保证数据库一致性和完整性。

.是所有关系数据库的公共语言。由于主流的关系数据库管理系统都支持SQL语言，所以SQL语言具有很强的公用性，所有用SQL编写的程序都是可以移植的。

SQL语法基础

（1）CREATE建立表结构语句。

基本语法格式：

语法说明：CREATE语句用于创建数据库中的表。其中column_name代表表中的字段名称，data_type代表字段可容纳何种数据类型。常用的数据类型可以是integer（size）、int（size）、smallint（size）、tinyint（size）、decimal（size，d）、numeric（size，d）、varchar（size）、date（yyyymmdd）等。CREATE语句的应用格式如下所示。

该语句创建Student学生表，其中包含Id、Sname等六个字段。

（2）SELECT查询语句。SELECT语句是数据库最基本语句之一，也是最常用的SQL操作。用户使用SELECT语句可以从数据库中按照自身的需要查询数据信息。系统按照用户的要求选择数据，然后将选择的数据以用户规定的格式整理后返回给用户。用户使用SELECT语句不但可以对数据库进行精确查询，还可以进行模糊查询。

基本语法格式：

语法说明：ALL|DISTINCT用来标识在查询结果中出现相同行时的处理方式。如果使用关键字ALL，则返回查询结果中的所有行（包括重复行）；如果使用关键字DISTINCT，返回删除相同行的查询结果；select_list表示获取字段信息的字段列表，各个字段名称之间用逗号分隔。在这个列表中可以包含数据源表或视图中的字段名称及其他表达式，例如常量或函数。如果用户用“*”来代替字段列表，那么系统将返回指定数据库表中的全部数据信息；INTO new_table_list代表创建一个新的数据表，这个数据表的名称是new_table_list，包含的数据信息是查询出来的结果集；table_list表示数据信息的数据源表列表；WHERE search_conditions代表查询条件，该子句表示一个或多个筛选条件的组合。WHERE子句中可以使用算数运算符、比较运算符和逻辑运算符来设置条件。还可以使用BETWEEN…AND…、LIKE、IN、NOT IN等特殊运算符；GROUP BY group_by_list表示查询的分组条件，即归纳信息类型；HAVING search_conditions表示组或聚合的查询条件；ORDER BY order_lis表示查询结果的排序方式。具体应用格式如以下SQL语句所示。

语句一：

该语句查找Student学生表中所有学生的信息。

语句二：

该语句查找Student学生表中广东籍女学生的Sno、Sname和Sclass信息。

语句三：

该语句查找Student学生表中Sno最小的前10个记录。

语句四：

该语句查找Student学生表中所有Snative既不是湖南也不是湖北的学生信息。

语句五：

该语句查询以Sclass作为分组条件，查询结果为Student学生表中每个班的人数。

语句六：

该语句查找Student学生表中人数大于30的Sclass和人数。HAVING子句总是跟在GROUP BY子句之后，不可以单独使用。

（3）INSERT插入语句。在SQL语句中，向数据表中添加数据的常用方法就是使用INSERT语句。

语法格式：

语法说明：INSERT INTO子句用于指定向某数据表插入数据。数据表名跟在INSERT INTO关键字后面；column name用于指定该数据表的列名，可以指定一列或者多列，所有这些列都必须放在圆括号“()”中。如果要指定多个列，则必须用逗号隔开。如果指定了列名，那么在目标数据表中所有未被指定的列必须支持空值或者默认值；VALUES子句主要用于提供向表中插入的值。这些值也必须放在圆括号中，如果指定的值为多个时，这些值之间也必须用逗号隔开。具体应用形式可见以下语句。

该语句向Student学生表插入一条新的记录。

UPDATE更新语句

当数据被添加到数据表之后，会经常需要修改。在SQL语言中，对数据的修改是通过使用UPDATE语句来实现的。

语法格式：

语法说明：UPDATE子句和SET子句是必需的，而WHERE子句是可选的。在UPDATE子句中，必须指定将要更新的数据表的名称。在SET子句中，必须指定一个或多个子句表达式。使用UPDATE语句可以更改表中单行、多行或者表或视图中所有行的数值。具体应用形式可见以下语句。

将Student学生表中Sname为刘晶晶的Sclass和Snative记录进行更新。

DELETE删除语句

DELETE语句用来从表或视图中删除一行或者多行记录。

语法格式：

语法说明：DELETE FROM子句要求指定从中删除行的表的名称，WHERE指定搜索条件。如果在DELETE语句中没有包括WHERE子句，那么将从指定的表中删除所有行。在DELETE语句中没有指定列名，这是因为不能从表中删除单个列的值。具体应用形式可见以下语句。

该语句删除Student学生表中Sname为“刘晶晶”的记录。

数据挖掘

随着数据库技术的不断发展及数据库管理系统的广泛应用，数据库中存储的数据量急剧增大，在大量的数据背后隐藏着许多重要的信息，如果能把这些信息从数据库中抽取出来，将为公司创造很多潜在的利润，而这种从海量数据库中挖掘信息的技术，就称之为数据挖掘（Data Mining，DM）。事实上，从技术角度看，数据挖掘可以定义为从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又潜在有用的信息和知识的过程。

数据挖掘的分类

数据挖掘工具能够对将来的趋势和行为进行预测，从而很好地支持人们的决策，比如，经过对公司整个数据库系统的分析，数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件推销活动最有可能做出反应，为什么”等类似的问题。有些数据挖掘工具还能够解决一些很消耗人工时间的传统问题，因为它们能够快速地浏览整个数据库，找出一些专家们不易察觉的极有用的信息。

数据挖掘技术的分类可以有多种角度。按照所挖掘数据库的种类可分为：关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘等。按所发现的知识类别可分为：关联规则、特征描述、分类分析、聚类分析、趋势和偏差分析等。按所发现的知识抽象层次可分为：一般化知识、初级知识和多层次知识等。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用，因为对这种技术进行支持的三种基础技术已经发展成熟。这些技术是：海量数据搜集、强大的多处理器计算机、数据挖掘算法。在数据挖掘中最常用的技术有：

.人工神经网络：仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。

.决策树：代表着决策集的树形结构。

.遗传算法：基于进化理论，并采用遗传结合、遗传变异，以及自然选择等设计方法的优化技术。

.近邻算法：将数据集合中每一个记录进行分类的方法。

.规则推导：从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

采用上述技术的某些专门的分析工具已经发展了大约十年的历史，不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。将数据挖掘工具与传统数据分析工具进行比较（如下表所示），可以发现传统数据分析工具的分析重点在于向管理人员提供过去已经发生什么，描述过去的事实，例如，上个月的销售成本是多少；而挖掘工具则在于预测未来的情况，解释过去所发生的事实的原因，例如，下个月的市场需求情况怎样，或者某个客户为什么会转向竞争对手。分析的目的也不同，前者是为了从过去的事实中列出管理人员感兴趣的事实，例如，哪些是公司最大的客户；后者则是要找出哪些未来可能成为公司最大的客户。从两者分析时所需的数据量来看，也有明显的差异，前者需要的数据量并不很大，而后者需要海量数据才能运行。

数据挖掘工具与传统数据分析工具的比较

数据挖掘与数据仓库的关系

根据数据挖掘的定义可以看出，数据挖掘包含一系列旨在数据库中发现有用而未发现的模式的技术，如果将其与数据仓库紧密联系在一起，将会获取意外的成功。传统的观点认为，数据挖掘技术扎根于计算科学和数学，不需要也不得益于数据仓库。这种观点并不正确，成功的数据挖掘的关键之一在于通过访问正确、完整和集成的数据，才能进行深层次的分析，寻求有益的信息。而这些正是数据仓库所能提供的，数据仓库不仅是集成数据的一种方式，数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结，将给数据挖掘带来各种便利和功能。

数据挖掘技术的应用过程

数据挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用这样几个阶段。

确定挖掘对象

数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的，但是探索的问题应是有预见性的、有目标的。为了数据挖掘而挖掘数据带有盲目性，往往是不会成功的。在定义挖掘对象时，需要确定这样的问题：从何处入手？需要挖掘什么数据？要用多少数据？数据挖掘要进行到什么程度？虽然在数据挖掘中常常事先不能确定最后挖掘的结果到底是什么？例如，选择的数据是描述信用卡客户的实际支付情况，那么数据挖掘者的工作就可能是围绕着获取信用卡使用者实际支付情况而展开的。

有时还要用户提供一些先验的知识，例如概念树等。这些先验知识可能是用户业务领域知识或以前数据挖掘所获得的初步成果。这就意味着数据挖掘是一个过程，在挖掘过程中可能提出新的问题，可能尝试用其他方法来检验数据，在数据的子集上进行同样的研究。有时业务对象是一些已经理解的数据，但是在某些情况下还需要对这些数据进行挖掘。此时，不是通过数据挖掘发现新的有价值的信息，而是通过数据挖掘验证假设的正确性，或者是通过同样方式的数据挖掘查看模式是否发生变化。如果在经常性的同样的数据挖掘中的一次挖掘没有出现以前同样的结果，这意味着模式已经发生了变化，可能需要进行更深层次的挖掘。例如，将数据挖掘应用于客户关系管理（CRM）中，就需要对客户关系管理的商业主题进行仔细的定义。每个CRM应用都有一个或多个商业目标，要为每个目标建立恰当的模型。例如，“提高客户对企业促销的响应率”和“提高每个客户的响应价值”这两个目标是不同的，并且在定义问题的同时，也生成了评价CRM应用结果的标准和方法，即确定了数据挖掘的评价指标。

准备数据

在确定数据挖掘的业务对象后，需要搜索所有与业务对象有关的内部和外部数据，从中选出适合于数据挖掘应用的数据。对数据的选择必须在建立数据挖掘模型之前完成。选择数据后，还需要对数据进行预处理，对数据进行清洗、解决数据中的缺值、冗余、数据值的不一致性、数据定义的不一致性、过时数据等问题。在数据挖掘时，有时还需要对数据分组，以提高数据挖掘的效率，降低模型的复杂度。

建立模型

将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型，是数据挖掘的关键。

数据挖掘

对所得到的经过转化的数据进行挖掘，除了完善与选择合适的算法需要人工干预外，数据挖掘工作都由数据挖掘工具自动完成。

结果分析

当数据挖掘出现结果后，要对挖掘结果进行解释和评估。具体的解释和评估方法一般根据数据挖掘操作结果所制定的决策成败来定，但是管理决策分析人员在使用数据挖掘结果之前，又希望能够对挖掘的结果进行评估，以保证数据挖掘结果在实际应用中的成功率。因此，在对数据挖掘结果进行评价时，可以考虑这样几个方面的问题：第一，建立模型相同的数据集在模型上进行操作所获得的结果要优于用不同数据集在模型上的操作结果；第二，模型的某些结果可能比其他预测结果更加准确；第三，由于模型是以样板数据为基础建立的，因此，实际结果往往会比建模时的结果差。另外，利用可视化技术可将数据挖掘结果表现得更清楚，更有利于对数据挖掘的结果分析。

知识应用

数据挖掘的结果经过业务决策人员的认可，才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起，构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用，才能对数据挖掘的成果做出正确的评价。但是，在应用数据挖掘的成果时，决策人员关心的是数据挖掘的最终结果与用其他候选结果在实际应用中的差距。

数据挖掘技术可以让现有的软件和硬件更加自动化，并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候，它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据，让分析的结果更加准确可靠，并且易于理解。数据库可以由此拓展深度和广度。在深度上，允许有更多的列存在。以往，在进行较复杂的数据分析时，专家们限于时间因素，不得不对参加运算的变量、数量加以限制，但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在，高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历，并且任何可能参选的变量都被考虑进去，再不需要选择变量的子集来进行运算了。广度上，允许有更多的行存在。更大的样本使产生错误和变化的概率降低，这样用户就能更加精确地推导出一些虽小但颇为重要的结论。

智能化

这是物流自动化、信息化的一种高层次应用，物流作业过程大量的运筹和决策，如库存水平的确定、运输（搬运）路径的选择、自动导向车的运行轨迹和作业控制、自动分拣机的运行、物流配送中心经营管理的决策支持等问题都需要借助于大量的知识才能解决。在物流自动化的进程中，物流智能化是不可回避的技术难题。

自动化

简而言之，就是将我们日常手动进行的一些工作通过工具，系统自动来完成，解放我们的双手，例如：没有工具前，我们安装系统需要一台一台裸机安装，如2000台，可能需要10人/10天，而现在通过自动化工具，只需几个简单命令就能解决这个问题。还有如机器人类程序，自动完成以往每天人工干预的工作，使其自动完成、汇报结果，并具备一定的专家系统能力，能做一些简单的是／非判断、优化选择等。应该说，自动化运维是运维工程师职业化的一个追求，利己利公，虽然这是一个异常艰巨的任务，不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素，都可能会对现有自动化系统产生影响，所以需要模块化、接口化等工作。自动化相关工作，是运维工程师的核心重点工作之一，也是价值的体现。

总结一下运维中关键技术：大量高并发网站的设计方案；高可靠、高可伸缩性网络架构设计；网站安全问题，如何避免被黑？南北互联问题，动态CDN解决方案；海量数据存储架构。

题号导航 2018年上半年系统分析师下午试卷论文

本试卷我的完整做题情况



	第4题在手机中做本题