Web数据挖掘技术在电子商务中的应用
考试要求: 了解     
知识路径:  > 信息系统数据资源维护  > 信息系统数据资源的开发与利用  > 信息系统数据资源的开发与利用方法  > 信息系统数据资源的开发与利用  > Web数据挖掘技术


 
       在Web挖掘中有一个很重要的步骤就是要为挖掘算法找到合适的数据。以一个图书网站为例,在Web使用模式数据挖掘中,数据的来源主要有以下3个方面。
       (1)服务器端数据的收集(Server Level Collection)。
       可以从Web服务器、代理服务器的Web log文件中收集数据,此部分信息是最简单和最方便的数据来源,它记录了每一次网页请求信息。启动Web服务器的日志记录功能后,每当浏览者通过浏览器请求一个网页时,这个请求被记录在访问日志中。代理服务器就把所记录的信息保存在文本文件中,通常以“.txt”或“.log”作为文件的扩展名。Web日志文件是由一条条记录组成,一条记录就记录了购书者对Web页面的一次访问。
       另外,Web服务器还可以存储其他的Web使用信息,比如Cookie,以及购书者提交的查询数据。Cookie是由服务器产生的,用于记录购书者的状态或者访问路径。由于涉及到购书者的隐私问题,使用Cookie需要客户的配合。
       (2)包监测技术(packet sniffing technology)。辅之以监视所有到达服务器的数据,提取其中的HTTP请求信息。此部分数据主要来自购书者的点击流(Click stream),用于考察购书者的行为表现。
       网络底层信息监听过滤指监听整个网络的所有信息流量,并根据信息源主机、目标主机、服务协议端口等信息过滤掉不关心的垃圾数据,然后进行进一步的处理,如关键字的搜索等,最终将购书者感兴趣的数据发送到给定的数据接受程序,存储到数据库中进行分析统计。
       (3)后台数据库里的原有数据。后台数据库存储了购书者、图书和订单这三个方面信息,主要有3个数据表构成:第1个是User(用户信息数据表),它用来存放登录的用户信息;第2个是Book(图书数据表),用来记录图书的基本信息;第3个是Orders(订单数据表),用来存放购买者在网上所下的订单情况。按照Web数据挖掘技术,将后台数据库与网络日志预处理后得到的数据相匹配建立数据挖掘库,即购书者特征数据仓库,将收集到的数据进行分门别类。依照此原理便可以将分布在不同功能模块中的信息抽取出来,然后清洗数据。
       数据挖掘阶段。我们把以上信息转化为多维数据模型中的星型模式来表示如下,我们将用户的一次订书看作一个事务T,采集到的多个订书记录T组成事务数据库D,它由N个二维数组组成,数组的行集为所有BBS登录记录样本的集合,列集为特征集,事务的唯一标识符为SrcIP。Web数据挖掘技术实现的总体流程如下。
       (1)确立目标样本,即由用户选择目标文本,作为提取用户的特征信息。
       (2)提取特征信息,即根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。
       (3)网络信息获取,即先利用搜索引擎站点选择待采集站点,再利用Robot程序采集静态Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。
       (4)信息特征匹配,即提取索引库中的源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息返回给用户。
       Web数据挖掘还有待进一步的研究,尤其是近来对Web内容挖掘方面集中在信息集成,如建立基于Web的知识库或基于Web的数据仓库的研究上,但这种访求同样存在很多的问题。但建立一个基于Web数据仓库的数据挖掘系统仍是一种值得研究的方法。
       目前国内外主要研究内容如下。
       (1)Web页面聚分类应用研究。页面聚分类挖掘结果在电子商务各环节的应用问题;以Web内容挖掘为主结合Web结构挖掘和Web使用挖掘的多智能集成算法的Web页面聚分类模型的研究;如何改进文本聚分类挖掘算法以适合电子商务Web页面聚分类。
       (2)客户群聚分类应用研究。客户聚分类在电子商务各环节的应用问题,研究对营销机制的影响;以Web访问挖掘为主的多智能集成算法的聚分类模型;电子商务推荐系统的研制与开发。
       (3)客户频繁访问路径挖掘应用研究。以客户频繁访问路径挖掘结果为基础分析用户访问站点的规律、改进网站的组织结构及其性能,实现网站自适应;客户频繁访问路径挖掘算法。
       (4)交易关联性挖掘应用研究。以交易关联性挖掘结果为基础研究对企业决策管理、协同商务管理、政府监管等方面的应用问题,研究影响识别交易关联性的关键或主要数据特征;基于多智能算法的交易关联性挖掘模型。
       (5)异常客户与异常交易检测应用研究。异常监测在电子商务中的基本应用框架,异常交易或者电子欺诈所具备的数据特征,异常交易或电子欺诈的识别算法。
       (6)互联网下供应链关系挖掘研究。主要研究电子供应链和虚拟企业形成效率等的关系,电子供应链关系挖掘的基本模型、算法和应用,如何解释和应用电子供应链挖掘结果以有效地优化电子商务供应链。
       (7)电子商务数据挖掘的解释问题。电子商务数据挖掘涉及管理学、经济学、计算机科学、智能科学、数学等多领域、跨学科的理论知识,因此需研究Web数据挖掘结果的管理理论解释问题和经济理论解释问题中模型的建立机制、步骤和对挖掘结果和解释理论本身的互动影响;主要涉及管理学和经济学理论的选择;解释的立场问题;挖掘所获得新知识对解释理论本身的修正问题。
       (8)商务数据挖掘过程改进。商务数据挖掘须启动过程改进,当前国内外无成熟的商务数据挖掘的过程研究。研究商务数据挖掘或商务智能项目实施过程,定义企业在该领域的标准过程,研究如何通过企业过程的改进不断提高ERP等商业数据系统的应用价值。
       (9)电子商务数据集特征识别。必须在Web挖掘算法的挖掘前、挖掘中、挖掘后各阶段充分考虑电子商务数据集所独有的、区别于一般数据集的特征;根据识别出的商务数据特征设计新的数据挖掘算法或对原数据挖掘算法进行改进和优化,即特征结合问题。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有