频繁模式和关联规则挖掘
考试要求: 掌握     
知识路径:  > 计算机系统基础知识  > 计算机软件知识  > 数据结构与算法知识  > 算法设计与分析  > 数据挖掘算法


 
       挖掘海量数据中的频繁模式和关联规则可以有效地指导企业发现交叉销售机会、进行决策分析和商务管理等。一个典型的应用是购物篮分析,即顾客经常购买的商品集合,从而分析顾客的购买习惯。而其中,沃尔玛公司对其顾客购买数据进行分析时,发现购买尿布的客户通常也会购买啤酒,根据这一规律,他们在摆放货架时,有意地把啤酒和尿布放到一起,以便顾客购买。这就是有名的啤酒尿布故事。频繁模式时频繁出现在数据集中的模式,要求满足最小支持度阈值,如啤酒和尿布频繁地出现在同一购物篮中。关联规则是形如A→B的规则,其中A和B表示数据集中的子集,要求AB既要满足最小支持度阈值,还要满足最小置信度阈值。如同时购买啤酒和尿布的购物篮满足最小支持度阈值,同时A→B满足最小置信度阈值。支持度和置信度的定义如下:
       Support(A→B)=P(A U B)
       Confidence(A→B)=P(BIA)
       求解关联规则首先要求出数据集中的频繁模式,然后由频繁模式产生关联规则。
       人们提出了多种关联规则挖掘算法:类Apriori算法;基于频繁模式增长的方法,如FP-growth;使用垂直数据格式的算法,如ECLAT。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有