数据挖掘是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡..

免费智能真题库 > 历年试卷 > 系统架构设计师 > 2013年下半年系统架构设计师上午试卷综合知识

第24题

知识点：数据挖掘常用技术数据挖掘的概念数据库数据挖掘

关键词：数据库数据挖掘数据章/节：数据库系统

数据挖掘是从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程，主要任务有（24)。

A. 聚类分析、联机分析、信息检索等

B. 信息检索、聚类分析、分类分析等

C. 聚类分析、分类分析、关联规则挖掘等

D. 分类分析、联机分析、关联规则挖掘等

相关试题：数据仓库与数据挖掘

更多>

第8题 2018年下半年

23%

数据仓库中，数据（）是指数据一旦进入数据仓库后，将被长期保留并定期加载和刷新，可以进行各种查询操作，但很少对数据进行修改..


知识点讲解
· 数据挖掘常用技术 · 数据挖掘的概念 · 数据库 · 数据挖掘

数据挖掘常用技术

常见和应用最广泛的数据挖掘方法有：

（1）决策树。利用信息论中的互信息（信息增益）寻找数据库中具有最大信息量的属性，建立决策树的一个结点，再根据该属性的不同取值建设树的分支；在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树方法是Qiulan研究的ID3方法。

（2）神经网络。模拟人脑神经元结构，完成类似统计学中的判别、回归、聚类等功能，是一种非线性的模型，主要有3种神经网络模型，分别是前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习，形成知识，这些知识有些是我们过去未曾发现的，因此它具有较强的创新性。神经网络的知识体现在网络连接的权值上，神经网络的学习主要表现在神经网络权值的逐步计算上。

（3）遗传算法。模拟生物进化过程的算法，它由3个基本过程组成，分别是繁殖（选择）、交叉（重组）、变异（突变）。采用遗传算法可以产生优良的后代，经过若干代的遗传，将得到满足要求的后代即问题得解。

（4）关联规则挖掘算法。关联规则是描述数据之间存在关系的规则，一般分为两个步骤：首先求出大数据项集，然后用大数据项集产生关联规则。

除了上述的常用方法外，还有粗集方法、模糊集合方法、最邻近算法等。无论采用哪种方法完成数据挖掘，从功能上可以将数据挖掘的分析方法划分为6种，即关联分析、序列分析、分类分析、聚类分析、预测和时间序列分析。

（1）关联分析。关联分析主要用于发现不同事件之间的关联性，即一个事件发生的同时，另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。

（2）序列分析。序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列，发现的序列应该具有普遍意义，其依据除了统计上的概率之外，还要加上时间的约束。

（3）分类分析。分类分析通过分析具有类别的样本的特点，得到决定样本属于各种类别的规则或方法。利用这些规则和方法对未知类别的样本分类时应该具有一定的准确度。其主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法等。

（4）聚类分析。聚类分析是根据物以类聚的原理，将本身没有类别的样本聚集成不同的组，并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似，而属于不同组的样本应该足够不相似。

（5）预测。预测与分类分析相似，但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程，而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。

（6）时间序列分析。时间序列分析的是随时间而变化的事件序列，目的是预测未来发展趋势，或者寻找相似发展模式或者是发现周期性发展规律。

数据挖掘的概念

数据挖掘（datamining）技术是人们长期对数据库技术进行研究和开发的结果。

从技术上来看，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海而皆准的知识，仅支持特定的发现问题。

从业务角度来看，数据挖掘是一种新的业务信息处理技术，其主要特点是对业务数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助业务决策的关键性数据。

数据挖掘与传统的数据分析（如查询、报表、联机应用分析）的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知、有效和可实用3个特征。先前未知的信息是指该信息是预先未曾预料到的，即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

数据挖掘通过预测未来趋势及行为，做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下5类功能：

（1）自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

（2）关联分析。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

（3）聚类。数据库中的记录可被划分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

（4）概念描述。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。

（5）偏差检测。数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。

数据库

数据库（DataBase，DB）是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享。

系统使用的所有数据存储在一个或几个数据库中。

数据挖掘

随着数据库技术的不断发展及数据库管理系统的广泛应用，数据库中存储的数据量急剧增大，在大量的数据背后隐藏着许多重要的信息，如果能把这些信息从数据库中抽取出来，将为公司创造很多潜在的利润，而这种从海量数据库中挖掘信息的技术，就称之为数据挖掘（Data Mining，DM）。事实上，从技术角度看，数据挖掘可以定义为从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又潜在有用的信息和知识的过程。

数据挖掘的分类

数据挖掘工具能够对将来的趋势和行为进行预测，从而很好地支持人们的决策，比如，经过对公司整个数据库系统的分析，数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件推销活动最有可能做出反应，为什么”等类似的问题。有些数据挖掘工具还能够解决一些很消耗人工时间的传统问题，因为它们能够快速地浏览整个数据库，找出一些专家们不易察觉的极有用的信息。

数据挖掘技术的分类可以有多种角度。按照所挖掘数据库的种类可分为：关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘等。按所发现的知识类别可分为：关联规则、特征描述、分类分析、聚类分析、趋势和偏差分析等。按所发现的知识抽象层次可分为：一般化知识、初级知识和多层次知识等。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用，因为对这种技术进行支持的三种基础技术已经发展成熟。这些技术是：海量数据搜集、强大的多处理器计算机、数据挖掘算法。在数据挖掘中最常用的技术有：

.人工神经网络：仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。

.决策树：代表着决策集的树形结构。

.遗传算法：基于进化理论，并采用遗传结合、遗传变异，以及自然选择等设计方法的优化技术。

.近邻算法：将数据集合中每一个记录进行分类的方法。

.规则推导：从统计意义上对数据中的“如果-那么”规则进行寻找和推导。

采用上述技术的某些专门的分析工具已经发展了大约十年的历史，不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。将数据挖掘工具与传统数据分析工具进行比较（如下表所示），可以发现传统数据分析工具的分析重点在于向管理人员提供过去已经发生什么，描述过去的事实，例如，上个月的销售成本是多少；而挖掘工具则在于预测未来的情况，解释过去所发生的事实的原因，例如，下个月的市场需求情况怎样，或者某个客户为什么会转向竞争对手。分析的目的也不同，前者是为了从过去的事实中列出管理人员感兴趣的事实，例如，哪些是公司最大的客户；后者则是要找出哪些未来可能成为公司最大的客户。从两者分析时所需的数据量来看，也有明显的差异，前者需要的数据量并不很大，而后者需要海量数据才能运行。

数据挖掘工具与传统数据分析工具的比较

数据挖掘与数据仓库的关系

根据数据挖掘的定义可以看出，数据挖掘包含一系列旨在数据库中发现有用而未发现的模式的技术，如果将其与数据仓库紧密联系在一起，将会获取意外的成功。传统的观点认为，数据挖掘技术扎根于计算科学和数学，不需要也不得益于数据仓库。这种观点并不正确，成功的数据挖掘的关键之一在于通过访问正确、完整和集成的数据，才能进行深层次的分析，寻求有益的信息。而这些正是数据仓库所能提供的，数据仓库不仅是集成数据的一种方式，数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结，将给数据挖掘带来各种便利和功能。

数据挖掘技术的应用过程

数据挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用这样几个阶段。

确定挖掘对象

数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的，但是探索的问题应是有预见性的、有目标的。为了数据挖掘而挖掘数据带有盲目性，往往是不会成功的。在定义挖掘对象时，需要确定这样的问题：从何处入手？需要挖掘什么数据？要用多少数据？数据挖掘要进行到什么程度？虽然在数据挖掘中常常事先不能确定最后挖掘的结果到底是什么？例如，选择的数据是描述信用卡客户的实际支付情况，那么数据挖掘者的工作就可能是围绕着获取信用卡使用者实际支付情况而展开的。

有时还要用户提供一些先验的知识，例如概念树等。这些先验知识可能是用户业务领域知识或以前数据挖掘所获得的初步成果。这就意味着数据挖掘是一个过程，在挖掘过程中可能提出新的问题，可能尝试用其他方法来检验数据，在数据的子集上进行同样的研究。有时业务对象是一些已经理解的数据，但是在某些情况下还需要对这些数据进行挖掘。此时，不是通过数据挖掘发现新的有价值的信息，而是通过数据挖掘验证假设的正确性，或者是通过同样方式的数据挖掘查看模式是否发生变化。如果在经常性的同样的数据挖掘中的一次挖掘没有出现以前同样的结果，这意味着模式已经发生了变化，可能需要进行更深层次的挖掘。例如，将数据挖掘应用于客户关系管理（CRM）中，就需要对客户关系管理的商业主题进行仔细的定义。每个CRM应用都有一个或多个商业目标，要为每个目标建立恰当的模型。例如，“提高客户对企业促销的响应率”和“提高每个客户的响应价值”这两个目标是不同的，并且在定义问题的同时，也生成了评价CRM应用结果的标准和方法，即确定了数据挖掘的评价指标。

准备数据

在确定数据挖掘的业务对象后，需要搜索所有与业务对象有关的内部和外部数据，从中选出适合于数据挖掘应用的数据。对数据的选择必须在建立数据挖掘模型之前完成。选择数据后，还需要对数据进行预处理，对数据进行清洗、解决数据中的缺值、冗余、数据值的不一致性、数据定义的不一致性、过时数据等问题。在数据挖掘时，有时还需要对数据分组，以提高数据挖掘的效率，降低模型的复杂度。

建立模型

将数据转换成一个分析模型，这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型，是数据挖掘的关键。

数据挖掘

对所得到的经过转化的数据进行挖掘，除了完善与选择合适的算法需要人工干预外，数据挖掘工作都由数据挖掘工具自动完成。

结果分析

当数据挖掘出现结果后，要对挖掘结果进行解释和评估。具体的解释和评估方法一般根据数据挖掘操作结果所制定的决策成败来定，但是管理决策分析人员在使用数据挖掘结果之前，又希望能够对挖掘的结果进行评估，以保证数据挖掘结果在实际应用中的成功率。因此，在对数据挖掘结果进行评价时，可以考虑这样几个方面的问题：第一，建立模型相同的数据集在模型上进行操作所获得的结果要优于用不同数据集在模型上的操作结果；第二，模型的某些结果可能比其他预测结果更加准确；第三，由于模型是以样板数据为基础建立的，因此，实际结果往往会比建模时的结果差。另外，利用可视化技术可将数据挖掘结果表现得更清楚，更有利于对数据挖掘的结果分析。

知识应用

数据挖掘的结果经过业务决策人员的认可，才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起，构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用，才能对数据挖掘的成果做出正确的评价。但是，在应用数据挖掘的成果时，决策人员关心的是数据挖掘的最终结果与用其他候选结果在实际应用中的差距。

数据挖掘技术可以让现有的软件和硬件更加自动化，并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候，它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据，让分析的结果更加准确可靠，并且易于理解。数据库可以由此拓展深度和广度。在深度上，允许有更多的列存在。以往，在进行较复杂的数据分析时，专家们限于时间因素，不得不对参加运算的变量、数量加以限制，但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在，高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历，并且任何可能参选的变量都被考虑进去，再不需要选择变量的子集来进行运算了。广度上，允许有更多的行存在。更大的样本使产生错误和变化的概率降低，这样用户就能更加精确地推导出一些虽小但颇为重要的结论。

题号导航 2013年下半年系统架构设计师上午试卷综合知识

本试卷我的完整做题情况



	第24题在手机中做本题