目前主要用来进行数据分析的语言是()。<br />

免费智能真题库 > 历年试卷 > 信息系统管理工程师 > 2021年下半年信息系统管理工程师上午试卷综合知识

第8题

知识点：程序设计语言基本概念数据分析

关键词：数据分析语言数据章/节：计算机软件知识

目前主要用来进行数据分析的语言是()。

A. C#

B. HTML

C. Python

D. BASIC

相关试题：计算机软件知识

更多>

第3题 2013年上半年

20%

操作系统的主要功能是（3）。

第9题 2022年下半年

67%

编译器在对高级程序设计语言源程序进行翻译时，需要依次进行(9)处理

第18题 2016年上半年

17%

在Windows操作系统中，用户A可以共享存储在计算机、网络和Web上的文件和文件夹，但当用户A共享文件或文件夹时，（18）这是因为访..


知识点讲解
· 程序设计语言基本概念 · 数据分析

程序设计语言基本概念

程序设计语言是为了书写计算机程序而人为设计的符号语言，用于对计算过程进行描述、组织和推导。程序设计语言的广泛使用始于1957年，经过四十多年的发展，目前世界上流行的程序设计语言有上百种之多，程序设计语言的演化速度已经超越了运行它们的机器。

下面即是程序设计语言的演进过程，同时也表明其分为低级语言和高级语言两大类。低级语言包括机器语言和汇编语言，它们都是面向机器的语言，用这种语言编制的程序只适用于某种特定类型的计算机。高级语言又包括面向过程的语言和面向问题的语言。

机器语言

机器语言是用二进制代码表示的计算机能直接识别和执行的一种机器指令的集合。它是计算机的设计者通过计算机的硬件结构赋予计算机的操作功能。机器语言具有灵活、直接执行和速度快等特点。

用机器语言编写程序，编程人员要首先熟记所用计算机的全部指令代码和代码的涵义。手编程序时，程序员需要自己处理每条指令和每一数据的存储分配和输入输出，还得记住编程过程中每步所使用的工作单元处在何种状态。现在，除了计算机生产厂家的专业人员外，绝大多数程序员已经不再去学习机器语言了。

汇编语言

为了克服机器语言难读、难编、难记和易出错的缺点，人们就用与代码指令实际含义相近的英文缩写词、字母和数字等符号来取代指令代码（如用ADD表示运算符号“+”的机器代码），于是就产生了汇编语言。所以说，汇编语言是一种用助记符表示的仍然面向机器的计算机语言，汇编语言亦称符号语言。汇编语言由于是采用了助记符号来编写程序，比用机器语言的二进制代码编程要方便些，在一定程度上简化了编程过程。汇编语言的特点是用符号代替了机器指令代码，而且助记符与指令代码一一对应，基本保留了机器语言的灵活性。使用汇编语言能面向机器并较好地发挥机器的特性，得到质量较高的程序。

汇编语言中由于使用了助记符号，用汇编语言编制的程序送入计算机，计算机不能像用机器语言编写的程序一样直接识别和执行，必须通过预先放入计算机的“汇编程序”的加工和翻译，才能变成能够被计算机识别和处理的二进制代码程序。用汇编语言等非机器语言书写好的符号程序称源程序，运行时汇编程序要将源程序翻译成目标程序。目标程序是机器语言程序，它一经被安置在内存的预定位置上，就能被计算机的CPU处理和执行。

汇编语言像机器指令一样，是硬件操作的控制信息，因而仍然是面向机器的语言，使用起来还是比较繁琐费时，通用性也差。汇编语言是低级语言。但是，汇编语言用来编制系统软件和过程控制软件，其目标程序占用内存空间少，运行速度快，有着高级语言不可替代的用途。

高级语言

不论是机器语言还是汇编语言都是面向硬件的具体操作的，语言对机器的过分依赖，要求使用者必须对硬件结构及其工作原理都十分熟悉，非计算机专业人员是难以做到的，对于计算机的推广应用是不利的。计算机事业的发展，促使人们去寻求一些与人类自然语言相接近且能为计算机所接受的语意确定、规则明确、自然直观和通用易学的计算机语言。这种与自然语言相近并为计算机所接受和执行的计算机语言称高级语言。高级语言是面向用户的语言，每一种高级（程序设计）语言，都有自己人为规定的专用符号、英文单词、语法规则和语句结构（书写格式）。高级语言与自然语言（英语）更接近，而与硬件功能相分离（彻底脱离了具体的指令系统），便于广大用户掌握和使用。高级语言的通用性强，兼容性好，便于移植。

高级语言主要是相对于汇编语言而言，它并不是特指某一种具体的语言，而是包括了很多编程语言。它又可分为面向过程的语言和面向问题的语言，前者在编程时不仅要告诉计算机“做什么”，而且要告诉计算机“怎么做”，如Basic，Pascal, Fortran, C等高级语言。后者只要告诉计算机做什么，如Lisp，Prolog等高级语言，也常称为人工智能语言。

数据分析

数据分析是大数据处理过程中的重要组成部分，是大数据价值体现的核心环节。经典的机器学习方法是最常见的数据智能分析方法，近年来迅速发展的深度学习在某些领域取得了惊人的效果。在应用开发上，也形成了几种主流的大数据处理框架。

机器学习中算法很多，也有很多不同种类的分类方法，一般分为监督学习和非监督学习（或无监督学习）。其中，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练，是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的，可以将监督学习分为两类：回归和分类。

回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题，而其本质是线性回归模型，只是在回归的连续值结果上加了一层函数映射。

分类是机器学习中的一个重要问题，其过程也是从训练集中建立因变量和自变量的映射过程，与回归问题不同的是，分类问题中因变量的取值是离散的，根据因变量的取值范围，可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同，分类算法大致包括：基于示例的分类方法，如K最近邻（K-Nearest Neighbor，KNN）方法；基于概率模型的分类方法，如朴素贝叶斯、最大期望算法EM等；基于线性模型的分类方法，如SVM；基于决策模型的分类方法，如C4.5、AdaBoost、随机森林等。

在实际应用中，缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高，学习模型是为了推断出数据的一些内在结构。因此，根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称为无监督学习。常见的算法有：关联规则挖掘，是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法，基本思想是两个对象的距离越近，其相似度越大；相似度接近的若干对象组成一个簇；算法的目标是从给定数据集中找到紧凑且独立的簇。

近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的，包括BP神经网络、深度神经网络。

BP神经网络是一种反向传播的前馈神经网络，所谓前馈神经网络就是指各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层。所谓反向传播是指从输出层开始沿着相反的方向来逐层调整参数的过程。BP神经网络由输入层、隐含层和输出层组成。

深度神经网络主要包括卷积神经网络、循环神经网络等，也包括它们的各种改进模型。

（1）卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，其结构包括输入层、卷积层、池化层、全连接层以及输出层等。该算法在图像处理、模式识别等领域取得了非常好的效果。在CNN的发展过程中，最经典的模型是AlexNet，针对不同的应用需要，又产生了全卷积模型（FCN）、残差神经网络模型（ResNet）、DeepFace等模型结构。

（2）循环神经网络（Recurrent Neural Network，RNN）是一种人工神经网络，在该网络中，除了层间的连接以外，同层各单元之间连接构成了一个有向图序列，允许它显示一个时间序列的动态时间行为。RNN可以使用它们的内部状态来处理输入序列，这使得它们适用于诸如未分割的、连续的手写识别或语音识别等任务。传统的RNN是很难训练的，往往会出现梯度消失或梯度爆炸等情况，因此又出现了多个扩展版本，如BiRNN、LSTM等。

随着深度学习的快速发展和应用的普及，开始出现了一些深度学习框架。深度学习框架是一种界面、库或工具，可以使用户在无需深入了解底层算法的细节的情况下，能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型，为模型的实现提供了一种清晰而简洁的方法。常见的深度学习框架有：Caffe，是一个广泛使用的开源深度学习框架，支持常用的网络模型，比如Lenet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等；TensorFlow，是一个使用数据流图进行数值计算的开源软件库，图中的节点表示数学运算，而图边表示节点之间传递的多维数据阵列（又称张量），其为大多数复杂的深度学习模型预先编写好了代码，比如递归神经网络和卷积神经网络，灵活架构使我们能够在一个或多个CPU（以及GPU）上部署深度学习模型；Keras，是一个由Python编写的开源人工神经网络库，可以作为TensorFlow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras完全模块化并具有可扩展性，并试图简化复杂算法的实现难度。

随着大数据技术的广泛深入，大数据应用已经形成了庞大的生态系统，很难用一种架构或处理技术覆盖所有应用场景。下文介绍几种当前主流的大数据分布式计算架构。

Apache Hadoop是用于开发可靠、可伸缩、分布式计算的开源软件，是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。包含的模块有：Hadoop分布式文件系统（HDFS），提供对应用程序数据的高吞吐量访问的分布式文件系统；Hadoop YARN，作业调度和集群资源管理的框架；Hadoop MapReduc，一个用于大型数据集并行处理的基于YARN的系统；Hadoop Ozone，Hadoop的对象存储；Hadoop Submarine，Hadoop的机器学习引擎。

Apache Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。Spark是一个分布式的内存计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。Spark的计算过程保持在内存中，不需要读写HDFS，减少了硬盘读写，提升了计算速度。除了Map和Reduce操作外，Spark还延伸出如filter、flatMap、count、distinct等更丰富的操作。同时通过Spark Streaming支持处理数据流。

Apache Storm是一个免费的开源分布式实时计算系统，可以可靠地处理无边界的数据流变，可以实现实时处理。Apache Storm速度很快，它是可扩展的，容错的，并且易于设置和操作。Apache Storm应用于实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm的核心是拓扑（Topology），拓扑被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

题号导航 2021年下半年信息系统管理工程师上午试卷综合知识

本试卷我的完整做题情况



	第8题在手机中做本题