|
|
|
|
|
|
|
|
|
|
|
收集用户需求是要找出用户需要的重要服务和功能。收集用户需求的机制主要包括与用户群的交流、用户服务和需求归档3个方面。
|
|
|
收集用户需求最常用的方式有观察和问卷调查、集中访谈、采访关键人物。在整个设计和实施阶段,应始终保持与关键人员之间的交流,以确保网络工程建设不偏离用户需求。
|
|
|
用户服务表用于表示收集和归档的需求信息,也用来指导管理人员和网络用户进行讨论。
|
|
|
|
|
|
|
|
|
|
|
|
|
分类是一种有监督的学习过程,根据历史数据预测未来数据的模型。分类的数据对象属性分为两类,一般属性和分类属性或者目标属性。对数据分类有两个步骤:学习模型和应用模型,在分类过程中,涉及到的数据包括训练数据集、测试数据集和未知数据。学习模型是指基于训练数据集采用分类算法建立学习模型。而应用模型是指应用测试数据集的数据到学习模型中,根据输出来评估模型的好坏以及将未知数据输入到学习模型中,预测数据的类型。
|
|
|
存在多种分类算法。决策树归纳是一种自顶向下的递归树算法,使用一种属性选择度量为树的每个非叶子节点选择待分裂的属性。ID3、C4.5和CART是典型的决策树算法,它们使用不同的属性选择度量。朴素贝叶斯算法和贝叶斯信念网络基于后验概率的贝叶斯公式进行分类,前者假设类条件独立,即数据对象的各个属性之间互相独立,后者考虑属性之间的关系。后向传播(BP)算法是使用梯度下降法的神经网络方法。它搜索一组权重,对数据建模,使得数据对象的预测类型和实际类型之间的平均平方距离最小。支持向量机(SVIVI)是一种用于线性和非线性数据的分类算法。它把输入数据变换到较高维空间,使用称作支持向量的基本元组,从中发现分离数据的超平面。
|
|
|
可以用混淆矩阵来评估分类模型的质量。如对于两类问题,混淆矩阵给出真正例(True Positive)、真负例(True Negative)、假正例(False Positive)、假负例(False Negative)。基于这些量可以计算分类模型的准确率、灵敏度(召回率)、特效性、精度、F度量等。可以用显著性检验和ROC曲线来评价不同分类模型的好坏。
|
|
|
把已知类别的数据集分为训练集和测试集时,可以采用保持、随机抽样、交叉检验和自助法。而可以将多个分类模型组合起来以提高分类的质量,其中袋装、提升和随机森林是典型的组合分类方法。
|
|
|
|
|
|
|
|
|
|
|
|
|
数据库(DataBase,DB)是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
按在计算机中的作用可分为内部存储器、外部存储器和缓冲存储器。
|
|
|
(1)内部存储器简称内存或主存。内存是主机的一个组成部分,它用来容纳当前正在使用的,或者经常要使用的程序或数据,CPU可以直接从内部存储器取指令或存取数据。
|
|
|
(2)外部存储器简称外存或辅存。外存也是用来存储各种信息的,但是CPU要使用这些信息时,必须通过专门的设备将信息先传送到内存中,因此外存存放相对来说不经常使用的程序和数据。另外,外存总是和某个外部设备相关的。
|
|
|
(3)缓冲存储器用于两个工作速度不同的部件之间,在交换信息过程中起缓冲作用。
|
|
|
|
按存储介质可分为半导体存储器、磁表面存储器和光电存储器。
|
|
|
|
按存取方式可分为随机存储器(RAM)、只读存储器(ROM)和串行访问存储器。
|
|
|
|
|
|
|
|
|
|
|
|
|
概念结构设计的主要特点有:能真实地反映现实世界,包括事物和相互之间的联系,能满足用户对数据的处理要求,是对现实世界的一个真实模型;易于理解;易于更改;易于向关系、网状、层次等各种数据模型转换。
|
|
|
|
概念结构设计的基本方法有自顶向下、自底向上、逐步扩张、混合策略。
|
|
|
|
(1)数据的抽象。对象之间两种基本联系是聚集和概括。
|
|
|
(2)依赖关系。一个实体的存在必须以另一个实体的存在为前提。通常将前者称为弱实体,用双线框表示,用指向弱实体的箭头表明依赖关系。
|
|
|
|
|
|
|
|
|
|
|