分类
考试要求: 掌握     
知识路径:  > 计算机系统基础知识  > 计算机软件知识  > 数据结构与算法知识  > 算法设计与分析  > 数据挖掘算法


 
       分类是一种有监督的学习过程,根据历史数据预测未来数据的模型。分类的数据对象属性分为两类,一般属性和分类属性或者目标属性。对数据分类有两个步骤:学习模型和应用模型,在分类过程中,涉及到的数据包括训练数据集、测试数据集和未知数据。学习模型是指基于训练数据集采用分类算法建立学习模型。而应用模型是指应用测试数据集的数据到学习模型中,根据输出来评估模型的好坏以及将未知数据输入到学习模型中,预测数据的类型。
       存在多种分类算法。决策树归纳是一种自顶向下的递归树算法,使用一种属性选择度量为树的每个非叶子节点选择待分裂的属性。ID3、C4.5和CART是典型的决策树算法,它们使用不同的属性选择度量。朴素贝叶斯算法和贝叶斯信念网络基于后验概率的贝叶斯公式进行分类,前者假设类条件独立,即数据对象的各个属性之间互相独立,后者考虑属性之间的关系。后向传播(BP)算法是使用梯度下降法的神经网络方法。它搜索一组权重,对数据建模,使得数据对象的预测类型和实际类型之间的平均平方距离最小。支持向量机(SVIVI)是一种用于线性和非线性数据的分类算法。它把输入数据变换到较高维空间,使用称作支持向量的基本元组,从中发现分离数据的超平面。
       可以用混淆矩阵来评估分类模型的质量。如对于两类问题,混淆矩阵给出真正例(True Positive)、真负例(True Negative)、假正例(False Positive)、假负例(False Negative)。基于这些量可以计算分类模型的准确率、灵敏度(召回率)、特效性、精度、F度量等。可以用显著性检验和ROC曲线来评价不同分类模型的好坏。
       把已知类别的数据集分为训练集和测试集时,可以采用保持、随机抽样、交叉检验和自助法。而可以将多个分类模型组合起来以提高分类的质量,其中袋装、提升和随机森林是典型的组合分类方法。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有