数据分析经常需要把复杂的数据分组，并选取代表，将大量数据压缩或合并得到一个较小的..

免费智能真题库 > 历年试卷 > 信息处理技术员 > 2019年上半年信息处理技术员上午试卷综合知识

第12题

知识点：数据压缩数据分析

关键词：数据分析数据压缩数据章/节：数据处理方法

数据分析经常需要把复杂的数据分组，并选取代表，将大量数据压缩或合并得到一个较小的数据集。这个过程称为（）。

A. 数据清洗

B. 数据精简

C. 数据探索

D. 数据治理

相关试题：数据的整理、清洗和筛选

更多>

第9题 2013年上半年

44%

在数据处理过程中，删除多余的重复数据、补充缺失的数据、纠正或删除错误的数据，这些工作属于(9)。

第9题 2017年下半年

48%

获取数据后，为顺利分析数据，需要先进行数据清洗。数据清洗工作一般不包括（）。

第8题 2016年上半年

24%

在数据处理中，“重复数据删除”的功能很重要，但其作用不包括（8）。


知识点讲解
· 数据压缩 · 数据分析

数据压缩

多媒体数据特别是音频、视频数据量很大，需要很大的存储空间。特别是在现代通信中，基于因特网上的各种应用，图像传输速度是一项非常重要的指标。例如，以使用拨号接入因特网的家庭用户为例，若数据传输速度为56 Kb/s，则理想情况下，传输一幅分辨率为640×480的6.5万色的未经压缩的图像大约需要1～2分钟。因此，需要采用压缩编码技术，减少音频、视频数据量，提高网络传输速度。

目前常用的数据压缩编码方法分为两种类型：一种是冗余压缩法，也称为无损压缩法；另一种是有损压缩法。

无损压缩利用数据的统计冗余进行压缩，可以保证在数据压缩和还原过程中，图像信息没有损耗或失真，图像还原（解压缩）时可完全恢复，即重建后的图像与原始图像完全相同。一个常见的例子是磁盘文件的压缩存储，它要求解压缩后能保证百分之百地恢复原始数据。根据目前的技术水平，无损压缩可以将数据压缩到原来的1/2到1/4，压缩比较低。一些常用的无损压缩算法有哈夫曼（Huffman）算法和LZW压缩算法。

有损压缩适用于重构信号不一定非要与原始信号完全相同的场合。例如，对于图像、视频影像和音频数据的压缩就可以采用有损压缩，这样可以大大提高压缩比（可达10:1甚至100:1），而人的感官仍不至于对原始信号产生误解。这种方法会减少信息量，而损失的信息是不能再恢复的，因此这种压缩是不可逆的。

计算机中使用的图像压缩编码方法有多种国际标准和工业标准，目前使用广泛的编码及压缩标准有JPEG、MPEG和H.261。

JPEG（Joint Photographic Experts Group）是制定静态和数字图像数据压缩编码标准，既可用于灰度图像，又可用于彩色图像。JPEG标准是由ISO和IEC两个组织机构联合组成的一个专家组负责制定的，目前已成为国际上通用的标准。

MPEG（Moving Pictures Experts Group，动态图像压缩标准）是由ISO和IEC两个组织机构联合组成的一个活动图像专家组制定的标准草案，MPEG标准分成MPEG视频、MPEG音频和视频音频同步三个部分。MPEG-1是针对传输率为1～1.5Mb/s的普通电视质量的视频信号的压缩。MPEG-2是对每秒30帧的720×572分辨率的视频信号进行压缩，在扩展模式下，可以对分辨率达1440×1152的高清晰度电视（HDTV）信号进行压缩。MPEG-4是多媒体应用标准。MPEG-7是多媒体内容描述接口标准等。

H.261视频通信编码标准也称为PX64K标准，是由国际电话电报咨询委员会（ITTCC）于1998年提出的电话／会议电视的建议标准。其中P是取值为1～30的可变参数，P=1或2时支持1/4通用中间格式（Quarter Common Intermediate Format，QCIF）的帧率较低的视频电话传输；P≤6时支持通用中间格式（Common Intermediate Format，CIF）的帧率较高的电视会议数据传输。PX64K视频压缩算法也是一种混合编码方案，即基于DCT的变换编码和带有运动预测差分脉冲编码调制（DPCM）的预测编码方法的混合。

数据分析

数据分析是大数据处理过程中的重要组成部分，是大数据价值体现的核心环节。经典的机器学习方法是最常见的数据智能分析方法，近年来迅速发展的深度学习在某些领域取得了惊人的效果。在应用开发上，也形成了几种主流的大数据处理框架。

机器学习中算法很多，也有很多不同种类的分类方法，一般分为监督学习和非监督学习（或无监督学习）。其中，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练，是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的，可以将监督学习分为两类：回归和分类。

回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题，而其本质是线性回归模型，只是在回归的连续值结果上加了一层函数映射。

分类是机器学习中的一个重要问题，其过程也是从训练集中建立因变量和自变量的映射过程，与回归问题不同的是，分类问题中因变量的取值是离散的，根据因变量的取值范围，可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同，分类算法大致包括：基于示例的分类方法，如K最近邻（K-Nearest Neighbor，KNN）方法；基于概率模型的分类方法，如朴素贝叶斯、最大期望算法EM等；基于线性模型的分类方法，如SVM；基于决策模型的分类方法，如C4.5、AdaBoost、随机森林等。

在实际应用中，缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高，学习模型是为了推断出数据的一些内在结构。因此，根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称为无监督学习。常见的算法有：关联规则挖掘，是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法，基本思想是两个对象的距离越近，其相似度越大；相似度接近的若干对象组成一个簇；算法的目标是从给定数据集中找到紧凑且独立的簇。

近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的，包括BP神经网络、深度神经网络。

BP神经网络是一种反向传播的前馈神经网络，所谓前馈神经网络就是指各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层。所谓反向传播是指从输出层开始沿着相反的方向来逐层调整参数的过程。BP神经网络由输入层、隐含层和输出层组成。

深度神经网络主要包括卷积神经网络、循环神经网络等，也包括它们的各种改进模型。

（1）卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，其结构包括输入层、卷积层、池化层、全连接层以及输出层等。该算法在图像处理、模式识别等领域取得了非常好的效果。在CNN的发展过程中，最经典的模型是AlexNet，针对不同的应用需要，又产生了全卷积模型（FCN）、残差神经网络模型（ResNet）、DeepFace等模型结构。

（2）循环神经网络（Recurrent Neural Network，RNN）是一种人工神经网络，在该网络中，除了层间的连接以外，同层各单元之间连接构成了一个有向图序列，允许它显示一个时间序列的动态时间行为。RNN可以使用它们的内部状态来处理输入序列，这使得它们适用于诸如未分割的、连续的手写识别或语音识别等任务。传统的RNN是很难训练的，往往会出现梯度消失或梯度爆炸等情况，因此又出现了多个扩展版本，如BiRNN、LSTM等。

随着深度学习的快速发展和应用的普及，开始出现了一些深度学习框架。深度学习框架是一种界面、库或工具，可以使用户在无需深入了解底层算法的细节的情况下，能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型，为模型的实现提供了一种清晰而简洁的方法。常见的深度学习框架有：Caffe，是一个广泛使用的开源深度学习框架，支持常用的网络模型，比如Lenet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等；TensorFlow，是一个使用数据流图进行数值计算的开源软件库，图中的节点表示数学运算，而图边表示节点之间传递的多维数据阵列（又称张量），其为大多数复杂的深度学习模型预先编写好了代码，比如递归神经网络和卷积神经网络，灵活架构使我们能够在一个或多个CPU（以及GPU）上部署深度学习模型；Keras，是一个由Python编写的开源人工神经网络库，可以作为TensorFlow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras完全模块化并具有可扩展性，并试图简化复杂算法的实现难度。

随着大数据技术的广泛深入，大数据应用已经形成了庞大的生态系统，很难用一种架构或处理技术覆盖所有应用场景。下文介绍几种当前主流的大数据分布式计算架构。

Apache Hadoop是用于开发可靠、可伸缩、分布式计算的开源软件，是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。包含的模块有：Hadoop分布式文件系统（HDFS），提供对应用程序数据的高吞吐量访问的分布式文件系统；Hadoop YARN，作业调度和集群资源管理的框架；Hadoop MapReduc，一个用于大型数据集并行处理的基于YARN的系统；Hadoop Ozone，Hadoop的对象存储；Hadoop Submarine，Hadoop的机器学习引擎。

Apache Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。Spark是一个分布式的内存计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。Spark的计算过程保持在内存中，不需要读写HDFS，减少了硬盘读写，提升了计算速度。除了Map和Reduce操作外，Spark还延伸出如filter、flatMap、count、distinct等更丰富的操作。同时通过Spark Streaming支持处理数据流。

Apache Storm是一个免费的开源分布式实时计算系统，可以可靠地处理无边界的数据流变，可以实现实时处理。Apache Storm速度很快，它是可扩展的，容错的，并且易于设置和操作。Apache Storm应用于实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm的核心是拓扑（Topology），拓扑被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

题号导航 2019年上半年信息处理技术员上午试卷综合知识

本试卷我的完整做题情况



	第12题在手机中做本题