Web挖掘技术与流程-软考在线

Web挖掘技术与流程



考试要求：了解

知识路径： > 信息系统数据资源维护 > 信息系统数据资源的开发与利用 > 信息系统数据资源的开发与利用方法 > 信息系统数据资源的开发与利用 > Web数据挖掘技术

Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。Web挖掘可以在很多方面发挥作用，如对搜索引擎的结构进行挖掘，确定权威页面，Web文档分类，Web log挖掘，智能查询，建立MetaWeb数据仓库等。一般对Web数据挖掘做如下定义：Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入，P看作输出，那么Web挖掘的过程就是从输入到输出的一个映射，与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。

（1）查找资源。任务是从目标Web文档中得到数据，值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。信息选择和预处理任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。

（2）模式发现。自动进行模式发现，可以在同一个站点内部或在多个站点之间进行。

（3）模式分析。验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5