|
知识路径: > 计算机系统综合知识 > 数据库系统 > 数据仓库与数据挖掘技术 > 数据挖掘技术 >
|
相关知识点:3个
|
|
|
|
数据挖掘是一个很广泛的概念,也是一门应该广泛的学科,目前,已经形成了多个分支。本节介绍空间数据挖掘、多媒体数据挖掘和文本数据挖掘的基础知识。
|
|
|
|
空间数据挖掘(Spatial Data Mining, SDM)是在数据挖掘的基础之上,结合地理信息系统、遥感图像处理、全球定位系统、模式识别、可视化等相关的研究领域而形成的一个分支学科,也称为空间数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery, SDMKD)。SDM是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有用的特征和模式的理论、方法和技术。SDMKD的过程大致可分为以下步骤:数据准备、数据选择、数据预处理、数据缩减或者数据变换、确定数据挖掘目标、确定知识发现算法、数据挖掘、模式解释、知识评价等,而数据挖掘只是其中的一个关键步骤。
|
|
|
|
空间数据与其他类型数据的本质区别是其空间属性。空间属性包括空间位置、距离、几何形状、大小等内容,并且可引申为空间个体之间的相互关系,如拓扑关系、方位关系、度量关系等,从而使得空间数据比其他类型的数据要更为复杂,主要表现在:空间属性之间的非线性关系;空间数据的多尺度特征,即空间数据在不同观察层次上所遵循的规律以及所体现出的特征都不尽相同;空间信息的不确定性,空间位置、空间相关性及其他属性均可能存在不确定性;空间数据属性空间的高维数,与空间数据相关联的可能很多(如遥感传感器波段的数目可能多达上百个),从而使属性空间的维数非常之高;空间数据的不完备性,在数据获取和加工过程中,都有可能发生数据丢失或者无法获取的现象,导致空间数据缺失的现象非常严重;海量数据,空间数据库或数据仓库中存储着各种类型的栅格数据、矢量数据、空间个体的属性数据等,其数据量异常巨大。
|
|
|
空间数据的这些特点使其中隐含着更多、更为复杂的知识,因而也使空间数据挖掘的研究更加困难和更具挑战性。
|
|
|
|
SDM的任务可以概括如下:在空间数据库和数据仓库的基础上,综合利用统计学、模式识别、人工智能、粗集、模糊数学、机器学习、专家系统、可视化等领域的相关技术和方法,以及其他相关的信息技术手段,从大量的空间数据、管理数据、经营数据或遥感数据中析取出可信的、新颖的、感兴趣的、隐藏的、事先未知的、潜在有用的和最终可理解的知识,从而揭示出蕴含在空间数据背后客观世界的本质规律、内在联系和发展趋势,实现知识的自动或半自动获取,为管理和经营决策提供依据。简言之,SDM的任务就是要从空间数据库和数据仓库发现知识,并提供相关的决策支持。
|
|
|
一般而言,从空间数据库和数据仓库中可能发现的知识类型包括普遍的几何知识、规则型知识、空间聚类与分类知识、空间分布规律、空间对象的发展趋势、空间对象的结构型知识、空间偏差型知识等。SDM的任务是要在不同的空间概念层次(从微观到宏观)挖掘出上述各种类型的知识,并用相应的知识模型表示出来。可供选用的知识表示方法包括:基于规则的表示法、基于逻辑的知识表示、基于关系的知识表示、面向对象的知识表示、基于模型的知识表示、语义网络表示、脚本表示、模拟表示、基于过程的表示以及基于本体的知识表示等。
|
|
|
不仅如此,SDM的任务还包括根据所采用的知识表示方法设计出相应的推理模型,这样才能为不同领域、不同层次、具有不同应用需求的用户提供行之有效的决策支持。
|
|
|
|
多媒体数据挖掘(Multimedia Data Mining, MDM)就是于大量多媒体集中,通过综合分析视听特性和语义,发现隐含的、有效的、有价值的、可理解的模式,进而发现知识,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。
|
|
|
MDM相对于传统的数据挖掘有几个需要解决的问题。首先,多媒体数据为非结构化、异构数据。要在这些非结构化的数据上进行挖掘以获取知识,必须将这些非结构化数据转化为结构数据,通过特征提取,用特征向量作为元数据建立元数据库,在此基础上进行数据挖掘。其次,多媒体数据的特征向量通常是数十维甚至数百维,如何对高维矢量进行数据挖掘也是要考虑的重要问题。
|
|
|
|
|
.多媒体数据集。大型多媒体数据集可能包含几十万幅图片、几千小时的视频和音频,它们的媒体结构与元数据库中的描述关联,用于可视化表现和存取。
|
|
|
.预处理模块。此模块主要是对多媒体原始数据进行预处理,提取有效特征。将特征矢量以元数据的形式记录在元数据库中。元数据库是一种按照挖掘要求组织的多维、多层次、多媒体属性数据库,支持高效率的MDM。
|
|
|
.挖掘引擎。挖掘引擎包含一组快速挖掘算法,系统可以根据具体的应用选择一个或多个相应的挖掘算法,对元数据库进行挖掘。元数据库中的特征矢量通常是高维的,而传统的数据挖掘方法一般只适用于低维数据。若仍用这些方法来处理这些高维矢量,将得不到理想的结果,这就是所谓的“维度灾难”。为克服维度灾难的影响,很多针对高维数据索引结构的经典算法被提出。
|
|
|
.用户接口。用户接口可以实现挖掘结果的可视化和解释界面,也可以为用户提供交互接口扩展SQL挖掘语言。由于多媒体的视听和时空特性,挖掘出来的模式应该以新的表现方式呈现出来,如导航式知识展开和交互式问题求解过程,以及提供挖掘结果的可视化接口。
|
|
|
|
|
.图像挖掘。原始图像不能直接用于图像挖掘。首先要对原始图像进行预处理以生成可供高层挖掘模块使用的图像特征数据库,然后在特征数据库的基础上进行对图像数据挖掘操作。预处理是对原始图像集进行一系列处理以产生图像描述特征库的过程,主要包括可视特征提取、对象识别、数据规约。图像挖掘技术包括图像相似搜索、图像关联规则、图像分类和图像聚类。
|
|
|
.视频挖掘。既可根据视频结构进行预处理,也可根据视频运动目标识别进行预处理。预处理阶段所获取的各种视频特征不仅是建立视频数据库的基础,同时也是视频检索和挖掘的必要条件。因此,实时自动的镜头分割、代表帧提取、运动目标分割、识别与跟踪等视频内容处理技术是视频挖掘技术的基础。视频挖掘技术主要有视频分类挖掘、视频聚类挖掘、视频关联挖掘、序趋势分析等。
|
|
|
.音频挖掘。音频是听觉媒体,其主要特征有基音、音调、韵律或旋律等。音频挖掘通常有两种途径,第一,运用语音识别技术将语音识别成文字,将音频挖掘转换成文本挖掘;第二,直接从音频中提取声音特征,如基音、音调等,对特征进行知识获取。对音调、韵律使用机器学习技术,包括粗糙集、人工神经网络和决策树技术分析音频的基频、能量分布及其他特征,从而获得音频事件和对象的结构,挖掘出隐含在音频流中的信息线索、规律和模式。通过对海量语音数据库中语音特征的提取和学习,获得音调和韵律变化的模式,使得语音合成更加自然化和智能化。
|
|
|
|
文本数据挖掘(Text Data Mining, TDM)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,它在智能商务、信息检索、生物信息处理等方面都有广泛的应用。例如,客户关系管理、互联网搜索等。
|
|
|
|
按照挖掘的对象不同,可以把TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。基于单文档的数据挖掘对文档的分析并不涉及其他文档,其主要的挖掘技术有:文本摘要、信息提取(包括名字提取、短语提取、关系提取等)。基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,其主要的技术有:文本分类、文本聚类、个性化文本过滤、文档作者归属、因素分析等。
|
|
|
TDM可以分为3层,底层是TDM的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是TDM的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
|
|
|
与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,TDM所研究的文本数据库,由来自各种数据源的大量文档组成,包括新闻报道、研究论文、书籍、数字图书馆、电子邮件消息和Web页面等等。这些文档可能包含标题、作者、出版日期、长度等结构化数据,也可能包含摘要和内容等非结构化的文本成分。因而文档数据库中存储的最多的就是所谓的半结构化数据。
|
|
|
|
基于Web的文本信息的挖掘是Web内容挖掘的一个方面,由于Web上的信息在很大程度上是文本信息,因此,Web文本挖掘是Web内容挖掘的最主要,也是最重要的部分,并且被认为比数据挖掘具有更高的商业潜力,其实,当数据挖掘的对象完全由文本这种数据类型组成时这个过程就成为文本数据挖掘。
|
|
|
Web文本数据挖掘主要是对Web上大量文档集的内容进行总结、分类、聚类、关联分析以及利用Web文档进行趋势预测等。Web文本数据挖掘中,文本的特征表示是挖掘工作的基础,文本的分类和聚类是最重要、最基本的挖掘功能。
|
|
|