技术概述
考试要求: 了解     
知识路径:  > 信息系统数据资源维护  > 信息系统数据资源的开发与利用  > 信息系统数据资源的开发与利用方法  > 信息系统数据资源的开发与利用  > Web数据挖掘技术


 
       电子商务产生的数据具备异构、不确定性、无结构或半结构、动态性和海量性等特点,复杂程度已远远超出了人类目前已有的分析能力。基于Web的数据挖掘与传统的数据挖掘有许多不同之处。Web数据挖掘主要包括三种数据挖掘任务。
       (1)对Web内容的挖掘。互联网电子商务数据呈指数形式飞速增长,然而当用户面对整个因特网的海量数据时,却感觉很难找到对自己有用的商业数据。例如:当买方在互联网寻找适合自己的商品和服务、比较商品价格和交易条件时,需要尽可能搜集此商品的相关Web页面,即以商品作为Web页面聚类或者分类的依据,以此提高电子商务交易过程尤其是前期交易过程的效率。总的来说为方便客户,应该为他们提供一步到位的查询解决方案,Web页面的自动聚分类方法有助于压缩搜索空间,加快检索速度,提高查询精度,帮助客户快速找到相关信息。
       (2)对Web结构的挖掘。Web页面是半结构化的,在Web页面不仅有各种内容信息,而且存在特定的结构标记,其中最重要的标记就是超链接。Web页面所包含的知识不仅存在于各个页面的内容中,也存在于页面之间的相互链接中。对于电子商务而言,一个重要的问题是要找到对某个商业主题可以当作核心信息源的一些网站和网页。通过对Web电子商务进行数据挖掘时理解和利用超文本链接结构,可以此核心信息源为基础,优化供应链和虚拟企业产生和运作的效率,有助于网络电子商务社区的发现和利用。
       (3)对Web访问的挖掘。对Web访问的挖掘是目前研究最深入的Web数据挖掘技术。在Internet电子商务中,电子时空下推拉互动的双向交互信息被记录在Web服务器的日志文件中。Web日志一般可分为访问日志、代理日志和引用日志。
       对于拓扑结构已知的特定商务站点,尽管用户在不同时期可能有不同的浏览模式,但就长期而言用户行为是有一定的规律及趋势的。通过分析Web日志文件,可以发现其中蕴涵的相似客户群体、相关Web重要页面和有关客户访问模式。以频繁访问路径和相关Web重要页面为依据优化商务站点结构,实现网站自适应;以客户分类为依据为客户提供个性化服务(如电子商品推荐系统),以挖掘销售数据发现交易关联性为依据提高营销活动效率和强化广告宣传效应。这里部分理论是以市场营销学的市场细分原理为基础,基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有