TDM概述
考试要求: 掌握     
知识路径:  > 计算机系统综合知识  > 数据库系统  > 数据仓库与数据挖掘技术  > 数据挖掘技术  > 数据挖掘技术的应用


 
       按照挖掘的对象不同,可以把TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。基于单文档的数据挖掘对文档的分析并不涉及其他文档,其主要的挖掘技术有:文本摘要、信息提取(包括名字提取、短语提取、关系提取等)。基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,其主要的技术有:文本分类、文本聚类、个性化文本过滤、文档作者归属、因素分析等。
       TDM可以分为3层,底层是TDM的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是TDM的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。
       与一般数据挖掘以关系、事务和数据仓库中的结构数据为研究目标所不同的是,TDM所研究的文本数据库,由来自各种数据源的大量文档组成,包括新闻报道、研究论文、书籍、数字图书馆、电子邮件消息和Web页面等等。这些文档可能包含标题、作者、出版日期、长度等结构化数据,也可能包含摘要和内容等非结构化的文本成分。因而文档数据库中存储的最多的就是所谓的半结构化数据。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有