首页 > 知识点讲解
       数据挖掘
知识路径: > 数据库技术 > 数据仓库和数据分析基础知识 > 
被考次数:4次     被考频率:中频率     总体答错率:58%     知识难度系数:     
相关知识点:8个      
        随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘(Data Mining,DM)。事实上,从技术角度看,数据挖掘可以定义为从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又潜在有用的信息和知识的过程。
               数据挖掘的分类
               数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件推销活动最有可能做出反应,为什么”等类似的问题。有些数据挖掘工具还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易察觉的极有用的信息。
               数据挖掘技术的分类可以有多种角度。按照所挖掘数据库的种类可分为:关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据库的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘等。按所发现的知识类别可分为:关联规则、特征描述、分类分析、聚类分析、趋势和偏差分析等。按所发现的知识抽象层次可分为:一般化知识、初级知识和多层次知识等。
               数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟。这些技术是:海量数据搜集、强大的多处理器计算机、数据挖掘算法。在数据挖掘中最常用的技术有:
               .人工神经网络:仿照生理神经网络结构的非线形预测模型,通过学习进行模式识别。
               .决策树:代表着决策集的树形结构。
               .遗传算法:基于进化理论,并采用遗传结合、遗传变异,以及自然选择等设计方法的优化技术。
               .近邻算法:将数据集合中每一个记录进行分类的方法。
               .规则推导:从统计意义上对数据中的“如果-那么”规则进行寻找和推导。
               采用上述技术的某些专门的分析工具已经发展了大约十年的历史,不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。将数据挖掘工具与传统数据分析工具进行比较(如下表所示),可以发现传统数据分析工具的分析重点在于向管理人员提供过去已经发生什么,描述过去的事实,例如,上个月的销售成本是多少;而挖掘工具则在于预测未来的情况,解释过去所发生的事实的原因,例如,下个月的市场需求情况怎样,或者某个客户为什么会转向竞争对手。分析的目的也不同,前者是为了从过去的事实中列出管理人员感兴趣的事实,例如,哪些是公司最大的客户;后者则是要找出哪些未来可能成为公司最大的客户。从两者分析时所需的数据量来看,也有明显的差异,前者需要的数据量并不很大,而后者需要海量数据才能运行。
               
               数据挖掘工具与传统数据分析工具的比较
               数据挖掘与数据仓库的关系
               根据数据挖掘的定义可以看出,数据挖掘包含一系列旨在数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将会获取意外的成功。传统的观点认为,数据挖掘技术扎根于计算科学和数学,不需要也不得益于数据仓库。这种观点并不正确,成功的数据挖掘的关键之一在于通过访问正确、完整和集成的数据,才能进行深层次的分析,寻求有益的信息。而这些正是数据仓库所能提供的,数据仓库不仅是集成数据的一种方式,数据仓库的联机分析功能OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结,将给数据挖掘带来各种便利和功能。
               数据挖掘技术的应用过程
               数据挖掘过程一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用这样几个阶段。
                      确定挖掘对象
                      数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的,但是探索的问题应是有预见性的、有目标的。为了数据挖掘而挖掘数据带有盲目性,往往是不会成功的。在定义挖掘对象时,需要确定这样的问题:从何处入手?需要挖掘什么数据?要用多少数据?数据挖掘要进行到什么程度?虽然在数据挖掘中常常事先不能确定最后挖掘的结果到底是什么?例如,选择的数据是描述信用卡客户的实际支付情况,那么数据挖掘者的工作就可能是围绕着获取信用卡使用者实际支付情况而展开的。
                      有时还要用户提供一些先验的知识,例如概念树等。这些先验知识可能是用户业务领域知识或以前数据挖掘所获得的初步成果。这就意味着数据挖掘是一个过程,在挖掘过程中可能提出新的问题,可能尝试用其他方法来检验数据,在数据的子集上进行同样的研究。有时业务对象是一些已经理解的数据,但是在某些情况下还需要对这些数据进行挖掘。此时,不是通过数据挖掘发现新的有价值的信息,而是通过数据挖掘验证假设的正确性,或者是通过同样方式的数据挖掘查看模式是否发生变化。如果在经常性的同样的数据挖掘中的一次挖掘没有出现以前同样的结果,这意味着模式已经发生了变化,可能需要进行更深层次的挖掘。例如,将数据挖掘应用于客户关系管理(CRM)中,就需要对客户关系管理的商业主题进行仔细的定义。每个CRM应用都有一个或多个商业目标,要为每个目标建立恰当的模型。例如,“提高客户对企业促销的响应率”和“提高每个客户的响应价值”这两个目标是不同的,并且在定义问题的同时,也生成了评价CRM应用结果的标准和方法,即确定了数据挖掘的评价指标。
                      准备数据
                      在确定数据挖掘的业务对象后,需要搜索所有与业务对象有关的内部和外部数据,从中选出适合于数据挖掘应用的数据。对数据的选择必须在建立数据挖掘模型之前完成。选择数据后,还需要对数据进行预处理,对数据进行清洗、解决数据中的缺值、冗余、数据值的不一致性、数据定义的不一致性、过时数据等问题。在数据挖掘时,有时还需要对数据分组,以提高数据挖掘的效率,降低模型的复杂度。
                      建立模型
                      将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型,是数据挖掘的关键。
                      数据挖掘
                      对所得到的经过转化的数据进行挖掘,除了完善与选择合适的算法需要人工干预外,数据挖掘工作都由数据挖掘工具自动完成。
                      结果分析
                      当数据挖掘出现结果后,要对挖掘结果进行解释和评估。具体的解释和评估方法一般根据数据挖掘操作结果所制定的决策成败来定,但是管理决策分析人员在使用数据挖掘结果之前,又希望能够对挖掘的结果进行评估,以保证数据挖掘结果在实际应用中的成功率。因此,在对数据挖掘结果进行评价时,可以考虑这样几个方面的问题:第一,建立模型相同的数据集在模型上进行操作所获得的结果要优于用不同数据集在模型上的操作结果;第二,模型的某些结果可能比其他预测结果更加准确;第三,由于模型是以样板数据为基础建立的,因此,实际结果往往会比建模时的结果差。另外,利用可视化技术可将数据挖掘结果表现得更清楚,更有利于对数据挖掘的结果分析。
                      知识应用
                      数据挖掘的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出正确的评价。但是,在应用数据挖掘的成果时,决策人员关心的是数据挖掘的最终结果与用其他候选结果在实际应用中的差距。
                      数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行。当数据挖掘工具运行于高性能的并行处理系统上的时候,它能在数分钟内分析一个超大型的数据库。这种更快的处理速度意味着用户有更多的机会来分析数据,让分析的结果更加准确可靠,并且易于理解。数据库可以由此拓展深度和广度。在深度上,允许有更多的列存在。以往,在进行较复杂的数据分析时,专家们限于时间因素,不得不对参加运算的变量、数量加以限制,但是那些被丢弃而没有参加运算的变量有可能包含着另一些不为人知的有用信息。现在,高性能的数据挖掘工具让用户对数据库能进行通盘的深度遍历,并且任何可能参选的变量都被考虑进去,再不需要选择变量的子集来进行运算了。广度上,允许有更多的行存在。更大的样本使产生错误和变化的概率降低,这样用户就能更加精确地推导出一些虽小但颇为重要的结论。
 
本知识点历年真题:
隶属试卷 题号/题型 题干 难度系数/错误率
   2013年上半年
   数据库系统工程..
   上午试卷 综合知识
第63题
选择题
盗窃信用卡的人的购买行为可能不同于信用卡持有者,信用卡公司通过分析不同于常见行为的变化来检测窃贼,这属于(63)分析。

59%
   2013年上半年
   数据库系统工程..
   上午试卷 综合知识
第62题
选择题
根据现有的心脏病患者和非心脏病患者数据来建立模型,基于该模型诊断新的病人是否为心脏病患者,不适于用算法(62)分析。

57%
>>  更多  本知识点历年真题
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。


工作时间:9:00-20:00

客服

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

商务合作

点击这里给我发消息

客服邮箱service@rkpass.cn


京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2023 All Rights Reserved 软考在线版权所有