Web数据挖掘技术-软考在线

Web数据挖掘技术


知识路径： > 信息系统数据资源维护 > 信息系统数据资源的开发与利用 > 信息系统数据资源的开发与利用方法 > 信息系统数据资源的开发与利用
考试要求：了解相关知识点：12个

技术概述

电子商务产生的数据具备异构、不确定性、无结构或半结构、动态性和海量性等特点，复杂程度已远远超出了人类目前已有的分析能力。基于Web的数据挖掘与传统的数据挖掘有许多不同之处。Web数据挖掘主要包括三种数据挖掘任务。

（1）对Web内容的挖掘。互联网电子商务数据呈指数形式飞速增长，然而当用户面对整个因特网的海量数据时，却感觉很难找到对自己有用的商业数据。例如：当买方在互联网寻找适合自己的商品和服务、比较商品价格和交易条件时，需要尽可能搜集此商品的相关Web页面，即以商品作为Web页面聚类或者分类的依据，以此提高电子商务交易过程尤其是前期交易过程的效率。总的来说为方便客户，应该为他们提供一步到位的查询解决方案，Web页面的自动聚分类方法有助于压缩搜索空间，加快检索速度，提高查询精度，帮助客户快速找到相关信息。

（2）对Web结构的挖掘。Web页面是半结构化的，在Web页面不仅有各种内容信息，而且存在特定的结构标记，其中最重要的标记就是超链接。Web页面所包含的知识不仅存在于各个页面的内容中，也存在于页面之间的相互链接中。对于电子商务而言，一个重要的问题是要找到对某个商业主题可以当作核心信息源的一些网站和网页。通过对Web电子商务进行数据挖掘时理解和利用超文本链接结构，可以此核心信息源为基础，优化供应链和虚拟企业产生和运作的效率，有助于网络电子商务社区的发现和利用。

（3）对Web访问的挖掘。对Web访问的挖掘是目前研究最深入的Web数据挖掘技术。在Internet电子商务中，电子时空下推拉互动的双向交互信息被记录在Web服务器的日志文件中。Web日志一般可分为访问日志、代理日志和引用日志。

对于拓扑结构已知的特定商务站点，尽管用户在不同时期可能有不同的浏览模式，但就长期而言用户行为是有一定的规律及趋势的。通过分析Web日志文件，可以发现其中蕴涵的相似客户群体、相关Web重要页面和有关客户访问模式。以频繁访问路径和相关Web重要页面为依据优化商务站点结构，实现网站自适应；以客户分类为依据为客户提供个性化服务（如电子商品推荐系统），以挖掘销售数据发现交易关联性为依据提高营销活动效率和强化广告宣传效应。这里部分理论是以市场营销学的市场细分原理为基础，基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。

Web挖掘技术与流程

Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域，包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。Web挖掘可以在很多方面发挥作用，如对搜索引擎的结构进行挖掘，确定权威页面，Web文档分类，Web log挖掘，智能查询，建立MetaWeb数据仓库等。一般对Web数据挖掘做如下定义：Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入，P看作输出，那么Web挖掘的过程就是从输入到输出的一个映射，与传统数据和数据仓库相比，Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的，所以很难直接以Web网页上的数据进行数据挖掘，而必须经过必要的数据处理。

（1）查找资源。任务是从目标Web文档中得到数据，值得注意的是有时信息资源不仅限于在线Web文档，还包括电子邮件、电子文档、新闻组，或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。信息选择和预处理任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。

（2）模式发现。自动进行模式发现，可以在同一个站点内部或在多个站点之间进行。

（3）模式分析。验证、解释上一步骤产生的模式。可以是机器自动完成，也可以是与分析人员进行交互来完成。

Web数据挖掘技术在电子商务中的应用

在Web挖掘中有一个很重要的步骤就是要为挖掘算法找到合适的数据。以一个图书网站为例，在Web使用模式数据挖掘中，数据的来源主要有以下3个方面。

（1）服务器端数据的收集（Server Level Collection）。

可以从Web服务器、代理服务器的Web log文件中收集数据，此部分信息是最简单和最方便的数据来源，它记录了每一次网页请求信息。启动Web服务器的日志记录功能后，每当浏览者通过浏览器请求一个网页时，这个请求被记录在访问日志中。代理服务器就把所记录的信息保存在文本文件中，通常以“.txt”或“.log”作为文件的扩展名。Web日志文件是由一条条记录组成，一条记录就记录了购书者对Web页面的一次访问。

另外，Web服务器还可以存储其他的Web使用信息，比如Cookie，以及购书者提交的查询数据。Cookie是由服务器产生的，用于记录购书者的状态或者访问路径。由于涉及到购书者的隐私问题，使用Cookie需要客户的配合。

（2）包监测技术（packet sniffing technology）。辅之以监视所有到达服务器的数据，提取其中的HTTP请求信息。此部分数据主要来自购书者的点击流（Click stream），用于考察购书者的行为表现。

网络底层信息监听过滤指监听整个网络的所有信息流量，并根据信息源主机、目标主机、服务协议端口等信息过滤掉不关心的垃圾数据，然后进行进一步的处理，如关键字的搜索等，最终将购书者感兴趣的数据发送到给定的数据接受程序，存储到数据库中进行分析统计。

（3）后台数据库里的原有数据。后台数据库存储了购书者、图书和订单这三个方面信息，主要有3个数据表构成：第1个是User（用户信息数据表），它用来存放登录的用户信息；第2个是Book（图书数据表），用来记录图书的基本信息；第3个是Orders（订单数据表），用来存放购买者在网上所下的订单情况。按照Web数据挖掘技术，将后台数据库与网络日志预处理后得到的数据相匹配建立数据挖掘库，即购书者特征数据仓库，将收集到的数据进行分门别类。依照此原理便可以将分布在不同功能模块中的信息抽取出来，然后清洗数据。

数据挖掘阶段。我们把以上信息转化为多维数据模型中的星型模式来表示如下，我们将用户的一次订书看作一个事务T，采集到的多个订书记录T组成事务数据库D，它由N个二维数组组成，数组的行集为所有BBS登录记录样本的集合，列集为特征集，事务的唯一标识符为SrcIP。Web数据挖掘技术实现的总体流程如下。

（1）确立目标样本，即由用户选择目标文本，作为提取用户的特征信息。

（2）提取特征信息，即根据目标样本的词频分布，从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。

（3）网络信息获取，即先利用搜索引擎站点选择待采集站点，再利用Robot程序采集静态Web页面，最后获取被访问站点网络数据库中的动态信息，生成WWW资源索引库。

（4）信息特征匹配，即提取索引库中的源信息的特征向量，并与目标样本的特征向量进行匹配，将符合阈值条件的信息返回给用户。

Web数据挖掘还有待进一步的研究，尤其是近来对Web内容挖掘方面集中在信息集成，如建立基于Web的知识库或基于Web的数据仓库的研究上，但这种访求同样存在很多的问题。但建立一个基于Web数据仓库的数据挖掘系统仍是一种值得研究的方法。

目前国内外主要研究内容如下。

（1）Web页面聚分类应用研究。页面聚分类挖掘结果在电子商务各环节的应用问题；以Web内容挖掘为主结合Web结构挖掘和Web使用挖掘的多智能集成算法的Web页面聚分类模型的研究；如何改进文本聚分类挖掘算法以适合电子商务Web页面聚分类。

（2）客户群聚分类应用研究。客户聚分类在电子商务各环节的应用问题，研究对营销机制的影响；以Web访问挖掘为主的多智能集成算法的聚分类模型；电子商务推荐系统的研制与开发。

（3）客户频繁访问路径挖掘应用研究。以客户频繁访问路径挖掘结果为基础分析用户访问站点的规律、改进网站的组织结构及其性能，实现网站自适应；客户频繁访问路径挖掘算法。

（4）交易关联性挖掘应用研究。以交易关联性挖掘结果为基础研究对企业决策管理、协同商务管理、政府监管等方面的应用问题，研究影响识别交易关联性的关键或主要数据特征；基于多智能算法的交易关联性挖掘模型。

（5）异常客户与异常交易检测应用研究。异常监测在电子商务中的基本应用框架，异常交易或者电子欺诈所具备的数据特征，异常交易或电子欺诈的识别算法。

（6）互联网下供应链关系挖掘研究。主要研究电子供应链和虚拟企业形成效率等的关系，电子供应链关系挖掘的基本模型、算法和应用，如何解释和应用电子供应链挖掘结果以有效地优化电子商务供应链。

（7）电子商务数据挖掘的解释问题。电子商务数据挖掘涉及管理学、经济学、计算机科学、智能科学、数学等多领域、跨学科的理论知识，因此需研究Web数据挖掘结果的管理理论解释问题和经济理论解释问题中模型的建立机制、步骤和对挖掘结果和解释理论本身的互动影响；主要涉及管理学和经济学理论的选择；解释的立场问题；挖掘所获得新知识对解释理论本身的修正问题。

（8）商务数据挖掘过程改进。商务数据挖掘须启动过程改进，当前国内外无成熟的商务数据挖掘的过程研究。研究商务数据挖掘或商务智能项目实施过程，定义企业在该领域的标准过程，研究如何通过企业过程的改进不断提高ERP等商业数据系统的应用价值。

（9）电子商务数据集特征识别。必须在Web挖掘算法的挖掘前、挖掘中、挖掘后各阶段充分考虑电子商务数据集所独有的、区别于一般数据集的特征；根据识别出的商务数据特征设计新的数据挖掘算法或对原数据挖掘算法进行改进和优化，即特征结合问题。


	相关知识点：
	数据挖掘分析变量的选择数据挖掘在电子商务中的应用数据挖掘涉及数据的私有性和安全.. 数据趋势的预测数据仓库数据挖掘结果的不确定性数据抽取的方法的选择数据挖掘数据模型的可靠性数据挖掘在应用中面临的问题数据挖掘的具体应用方面面向电子商务的数据挖掘过程

	软考在线指南
	优惠劵及余额
	在线支付
	修改密码
	下载及使用
	购买流程
	取消订单

	联系我们
	关于我们
	联系我们
	商务合作

旗下网站群

高级资格科目
信息系统项目管理师	系统分析师
系统架构设计师	网络规划设计师
系统规划与管理师
初级资格科目
程序员	网络管理员
信息处理技术员	信息系统运行管理员

中级资格科目
系统集成项目管理工程师	网络工程师
软件设计师	信息系统监理师
信息系统管理工程师	数据库系统工程师
多媒体应用设计师	软件评测师
嵌入式系统设计师	电子商务设计师
信息安全工程师

本网站所有产品设计（包括造型，颜色，图案，观感，文字，产品，内容），功能及其展示形式，均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部，违者将依法追究责任，特此声明。
本站部分内容来自互联网或由会员上传，版权归原作者所有。如有问题，请及时联系我们。

工作时间：9:00-20:00

客服

QQ 486577830

商务合作

QQ 486577830

客服邮箱service@rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5 |