面向电子商务的数据挖掘过程
被考次数: 1次
被考频率: 低频率
答错率:    20%
知识难度:
考试要求: 了解     
知识路径:  > 信息系统数据资源维护  > 信息系统数据资源的开发与利用  > 信息系统数据资源的开发与利用方法  > 信息系统数据资源的开发与利用  > 数据挖掘在电子商务中的应用


本知识点历年真题试卷分布
>> 试题列表    
 

 
       一般的数据挖掘的流程如下图所示。
       
       数据挖掘流程
       面向电子商务的数据挖掘过程可以分为以下3个步骤。
       (1)准备数据。进行数据挖掘的时候,一般并不是对原始的数据进行挖掘,而是先要对数据作一些预处理,包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。
       (2)发现模式。根据不同的挖掘目标,可以相应采用不同的挖掘方法,得到有意义的数据模式。数据挖掘的方法有很多种,主要包括3大类:统计分析、知识发现、其他可视化方法。统计分析方法主要用于检查数据中的数据规律,然后利用统计模型和数学模型来解释这些规律,通常使用的统计方法有线性分析、非线性分析、线性回归、因子分析,单变量曲线和双变量统计以及时间序列分析等。知识发现方法源于人工智能和机器学习,利用数据搜寻过程,得到一个有意义的数据模式,从中可以发现规律。可视化方法可以给出多变量的图形分析,同时显示多变量间的关系,有助于分析以前挖掘的数据,进一步增强数据挖掘能力。
       (3)分析、解释模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:①关联规则,揭示数据之间的内在的联系,发现用户与站点各页面的访问关系。②分类,给出类的公共属性描述,并将新的记录分配到预先定义好的类中去或分类新的项。③聚类,分类的逆过程,按照“类内相似性最大,类间相似性最小”的原则,对数据进行类的聚集,多指客户群体聚类和Web网页聚类。客户群体聚类将具有相似浏览模式的用户分在一组,而Web网页聚类提供有针对性的网络服务应用。④序列模式,侧重于挖掘出数据的前后时间顺序关系,分析是否存在一定趋势,以预测未来的访问模式。⑤路径分析,可以发现一个Web站点中最经常被访问的路径。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有