|
知识路径: > 计算机系统综合知识 > 数据库系统 > 数据仓库与数据挖掘技术 > 数据挖掘技术 > 数据挖掘技术的应用 >
|
相关知识点:1个
|
|
|
|
按照挖掘的对象不同,可以把TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。基于单文档的数据挖掘对文档的分析并不涉及其他文档,其主要的挖掘技术有:文本摘要、信息提取(包括名字提取、短语提取、关系提取等)。基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,其主要的技术有:文本分类、文本聚类、个性化文本过滤、文档作者归属、因素分析等。
|
|
|
TDM可以分为3层,底层是TDM的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是TDM的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
|
|
|
与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,TDM所研究的文本数据库,由来自各种数据源的大量文档组成,包括新闻报道、研究论文、书籍、数字图书馆、电子邮件消息和Web页面等等。这些文档可能包含标题、作者、出版日期、长度等结构化数据,也可能包含摘要和内容等非结构化的文本成分。因而文档数据库中存储的最多的就是所谓的半结构化数据。
|
|
|