数据挖掘
被考次数: 1次
被考频率: 低频率
答错率:    54%
知识难度:
考试要求: 了解     
知识路径:  > 信息系统数据资源维护  > 信息系统数据资源的开发与利用  > 信息系统数据资源的开发与利用方法  > 信息系统数据资源的开发与利用


本知识点历年真题试卷分布
>> 试题列表    
 

 
       数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。从商业的角度定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
       面向管理决策的数据挖掘和商务智能(Business Intelligence,BI)的应用建立在数据资源高度集成的基础上,利用新型的海量数据分析方法,在数据资源中寻找潜在的、有助于管理决策的规律和知识。在人工智能领域,通常把数据挖掘又称为数据库中的知识发现(Knowledge Discovery in Database,KDD)。
       数据挖掘方法一般都是基于机器学习、模式识别和统计方法的。通过对这些方法的综合和集成,来完成在海量数据中对潜在知识的挖掘工作。数据挖掘的基本目标是和描述。一般来说,可以根据知识类型将数据挖掘划分为以下几类。
       (1)概念描述(归纳或简约)。包括对概念的识别和比较,它通过对数据进行一般化汇总或将可能矛盾的数据的特征进行说明,寻求对一个数据子集简约的描述。例如,销售经理把顾客的购买数据按年龄分组,观察每组顾客的购买频次和平均消费额。
       (2)关联规则。发现数据之间的关联性、相关性和因果关系,从而进一步得出不同信息之间潜在的逻辑规律,为业务运作提供参考和决策支持。例如,某大型超市在利用数据挖掘方法对商品进行关联分析后,发现一部分滞销商品居然是消费额最高的25%的客户的购买对象。于是为了能够使得效益最大化,该超市仍然继续供应这些滞销商品,而不是简单地撤下这些商品。
       (3)分类和预测。对数据按类进行划分,挖掘出每类数据的描述和模型,根据已有信息和模式,来预测未来或未知的属性值。
       (4)聚类。将数据按照某种标准进行汇总,形成新的类。聚类和分类不同,在分类中,数据事先是给出类标记的,然后选择分类算法对这些类进行划分,是一种监督学习的方式;而聚类则是将数据集合按特定属性测度的相似性进行聚合,并没有事先给定类别,是一种非监督学习的方式。
       (5)时间序列数据分析。这是统计方法的直接应用,主要包括趋势和偏差分析、用户定义的模式匹配分析及周期数据分析。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有