数据分析工作通常包括①~⑤五个阶段。目前，自动化程度比较低的两个阶段是（）。<br ..

免费智能真题库 > 历年试卷 > 系统分析师 > 2017年上半年系统分析师上午试卷综合知识

第53题

知识点：商业智能结论数据分析自动化

关键词：数据分析数据章/节：数据库系统企业信息化与电子商务

数据分析工作通常包括①~⑤五个阶段。目前，自动化程度比较低的两个阶段是（）。
①发现并提出问题 ②获取并清洗数据 ③按数学模型计算
④调整并优化模型 ⑤解释输出的结论

A. ①②

B. ①

C. ③④

D. ④

相关试题：商业智能

更多>

第24题 2020年下半年

24%

商业智能（BI）主要关注如何从业务数据中提取有用的信息，然后根据这些信息采取相应的行动，其核心是构建（24) 。BI系统的处理流..

第25题 2020年下半年

20%

商业智能（BI）主要关注如何从业务数据中提取有用的信息，然后根据这些信息采取相应的行动，其核心是构建（24) 。BI系统的处理流..

第23题 2016年上半年

42%

商业智能关注如何从业务数据中提取有用的信息，然后采用这些信息指导企业的业务开展。商业智能系统主要包括数据预处理、（22）、..

相关试题：数据仓库与数据挖掘技术

更多>

第23题 2015年上半年

43%

采用数据仓库技术进行数据收集时，有时会遇一些略微不一致但可以纠正的数据，纠正这些数据的过程称为（）。

第44题 2018年上半年

52%

某集团公司下属有多个超市，假设公司高管需要从时间、地区和商品种类三个维度来分析某电器商品销售数据，那么应采用（）来完成。..

第40题 2015年上半年

43%

数据仓库中数据（）的特点是指数据一旦进入数据仓库后，将被长期保留并定期加载和刷新，可以进行各种查询操作，但很少对数据进行..


知识点讲解
· 商业智能 · 结论 · 数据分析 · 自动化

商业智能

商业智能（Business Intelligence, BI）是企业对商业数据的搜集、管理和分析的系统过程，目的是使企业的各级决策者获得知识或洞察力，帮助他们做出对企业更有利的决策。BI技术并不是基础技术或者产品技术，它是数据仓库、OLAP和数据挖掘等相关技术走向商业应用后形成的一种应用技术。

BI系统主要实现将原始业务数据转换为企业决策信息的过程。与一般的信息系统不同，它在处理海量数据、数据分析和信息展现等多个方面都具有突出性能。

一般认为数据仓库、OLAP和数据挖掘技术是BI的三大组成部分。BI系统主要包括数据预处理、建立数据仓库、数据分析及数据展现四个主要阶段。数据预处理是整合企业原始数据的第一步，它包括数据的抽取、转换和装载三个过程。建立数据仓库则是处理海量数据的基础。数据分析是体现系统智能的关键，一般采用OLAP和数据挖掘两大技术。联机分析处理不仅进行数据汇总／聚集，同时还提供切片、切块、下钻、上卷和旋转等数据分析功能，用户可以方便地对海量数据进行多维分析。数据挖掘的目标则是挖掘数据背后隐藏的知识，通过关联分析、聚类和分类等方法建立分析模型，预测企业未来发展趋势和将要面临的问题。在海量数据和分析手段增多的情况下，数据展现则主要保障系统分析结果的可视化。

结论

从上面的概念和例子可以看出，要进行上面的白盒测试是需要投入巨大的测试资源，包括人力、物力和时间等。但是为什么还要进行白盒测试呢？原因如下。

. 逻辑错误和不正确假设与一条程序路径被运行的可能性成反比。当我们设计和实现主流之外的功能、条件或控制时，错误往往开始出现在我们的工作中。日常处理往往被很好地了解（和很好地细查），而“特殊情况”的处理则难以发现。

. 我们经常相信某逻辑路径不可能被执行，而事实上，它可能在正常的基础上被执行。程序的逻辑流有时是违反直觉的，这意味着我们关于控制流和数据流的一些无意识的假设，可能导致设计错误。只有路径测试才能发现这些错误。

. 印刷上的错误是随机的。当一个程序被翻译为程序设计语言源代码时，有可能产生某些打印错误，很多将被语法检查机制发现，但是，其他的错误只有在测试开始时才会被发现。打印错误出现在主流上和出现在不明显的逻辑路径上的可能性是一样的。

数据分析

数据分析是大数据处理过程中的重要组成部分，是大数据价值体现的核心环节。经典的机器学习方法是最常见的数据智能分析方法，近年来迅速发展的深度学习在某些领域取得了惊人的效果。在应用开发上，也形成了几种主流的大数据处理框架。

机器学习中算法很多，也有很多不同种类的分类方法，一般分为监督学习和非监督学习（或无监督学习）。其中，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练，是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的，可以将监督学习分为两类：回归和分类。

回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题，而其本质是线性回归模型，只是在回归的连续值结果上加了一层函数映射。

分类是机器学习中的一个重要问题，其过程也是从训练集中建立因变量和自变量的映射过程，与回归问题不同的是，分类问题中因变量的取值是离散的，根据因变量的取值范围，可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同，分类算法大致包括：基于示例的分类方法，如K最近邻（K-Nearest Neighbor，KNN）方法；基于概率模型的分类方法，如朴素贝叶斯、最大期望算法EM等；基于线性模型的分类方法，如SVM；基于决策模型的分类方法，如C4.5、AdaBoost、随机森林等。

在实际应用中，缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高，学习模型是为了推断出数据的一些内在结构。因此，根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称为无监督学习。常见的算法有：关联规则挖掘，是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法，基本思想是两个对象的距离越近，其相似度越大；相似度接近的若干对象组成一个簇；算法的目标是从给定数据集中找到紧凑且独立的簇。

近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的，包括BP神经网络、深度神经网络。

BP神经网络是一种反向传播的前馈神经网络，所谓前馈神经网络就是指各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层。所谓反向传播是指从输出层开始沿着相反的方向来逐层调整参数的过程。BP神经网络由输入层、隐含层和输出层组成。

深度神经网络主要包括卷积神经网络、循环神经网络等，也包括它们的各种改进模型。

（1）卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，其结构包括输入层、卷积层、池化层、全连接层以及输出层等。该算法在图像处理、模式识别等领域取得了非常好的效果。在CNN的发展过程中，最经典的模型是AlexNet，针对不同的应用需要，又产生了全卷积模型（FCN）、残差神经网络模型（ResNet）、DeepFace等模型结构。

（2）循环神经网络（Recurrent Neural Network，RNN）是一种人工神经网络，在该网络中，除了层间的连接以外，同层各单元之间连接构成了一个有向图序列，允许它显示一个时间序列的动态时间行为。RNN可以使用它们的内部状态来处理输入序列，这使得它们适用于诸如未分割的、连续的手写识别或语音识别等任务。传统的RNN是很难训练的，往往会出现梯度消失或梯度爆炸等情况，因此又出现了多个扩展版本，如BiRNN、LSTM等。

随着深度学习的快速发展和应用的普及，开始出现了一些深度学习框架。深度学习框架是一种界面、库或工具，可以使用户在无需深入了解底层算法的细节的情况下，能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型，为模型的实现提供了一种清晰而简洁的方法。常见的深度学习框架有：Caffe，是一个广泛使用的开源深度学习框架，支持常用的网络模型，比如Lenet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等；TensorFlow，是一个使用数据流图进行数值计算的开源软件库，图中的节点表示数学运算，而图边表示节点之间传递的多维数据阵列（又称张量），其为大多数复杂的深度学习模型预先编写好了代码，比如递归神经网络和卷积神经网络，灵活架构使我们能够在一个或多个CPU（以及GPU）上部署深度学习模型；Keras，是一个由Python编写的开源人工神经网络库，可以作为TensorFlow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras完全模块化并具有可扩展性，并试图简化复杂算法的实现难度。

随着大数据技术的广泛深入，大数据应用已经形成了庞大的生态系统，很难用一种架构或处理技术覆盖所有应用场景。下文介绍几种当前主流的大数据分布式计算架构。

Apache Hadoop是用于开发可靠、可伸缩、分布式计算的开源软件，是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。包含的模块有：Hadoop分布式文件系统（HDFS），提供对应用程序数据的高吞吐量访问的分布式文件系统；Hadoop YARN，作业调度和集群资源管理的框架；Hadoop MapReduc，一个用于大型数据集并行处理的基于YARN的系统；Hadoop Ozone，Hadoop的对象存储；Hadoop Submarine，Hadoop的机器学习引擎。

Apache Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。Spark是一个分布式的内存计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。Spark的计算过程保持在内存中，不需要读写HDFS，减少了硬盘读写，提升了计算速度。除了Map和Reduce操作外，Spark还延伸出如filter、flatMap、count、distinct等更丰富的操作。同时通过Spark Streaming支持处理数据流。

Apache Storm是一个免费的开源分布式实时计算系统，可以可靠地处理无边界的数据流变，可以实现实时处理。Apache Storm速度很快，它是可扩展的，容错的，并且易于设置和操作。Apache Storm应用于实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm的核心是拓扑（Topology），拓扑被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

自动化

简而言之，就是将我们日常手动进行的一些工作通过工具，系统自动来完成，解放我们的双手，例如：没有工具前，我们安装系统需要一台一台裸机安装，如2000台，可能需要10人/10天，而现在通过自动化工具，只需几个简单命令就能解决这个问题。还有如机器人类程序，自动完成以往每天人工干预的工作，使其自动完成、汇报结果，并具备一定的专家系统能力，能做一些简单的是／非判断、优化选择等。应该说，自动化运维是运维工程师职业化的一个追求，利己利公，虽然这是一个异常艰巨的任务，不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素，都可能会对现有自动化系统产生影响，所以需要模块化、接口化等工作。自动化相关工作，是运维工程师的核心重点工作之一，也是价值的体现。

总结一下运维中关键技术：大量高并发网站的设计方案；高可靠、高可伸缩性网络架构设计；网站安全问题，如何避免被黑？南北互联问题，动态CDN解决方案；海量数据存储架构。

题号导航 2017年上半年系统分析师上午试卷综合知识

本试卷我的完整做题情况



	第53题在手机中做本题