免费智能真题库 > 历年试卷 > 系统集成项目管理工程师 > 2017年上半年 系统集成项目管理工程师 上午试卷 综合知识
  第24题      
  知识点:   大数据   大数据关键技术   量化   数据存储   文件系统
  关键词:   存储技术   大数据   文件系统   需求   数据        章/节:   新一代信息技术       

 
大数据存储技术首先需要解决的是数据海量化和快速增长需求,其次是处理格式多样化的数据。谷歌文件系统(GFS)和Hadoop的( )奠定了大数据存储技术的基础。
 
 
  A.  分布式文件系统
 
  B.  分布式数据库系统
 
  C.  关系型数据库系统
 
  D.  非结构化数据分析系统
 
 
 

 
  第23题    2017年下半年  
   86%
在将数据源经过分析挖掘到最终获得价值的大数据处理过程中,MapReduce是在 ( )阶段应用分布式并行处理关键技术的常用工具。
  第23题    2019年下半年  
   50%
在大数据相关技术中,( )是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储的数据库。
  第22题    2018年上半年  
   48%
在大数据关键技术中,Hadoop的分布式文件系统HDFS属于大数据( )。
   知识点讲解    
   · 大数据    · 大数据关键技术    · 量化    · 数据存储    · 文件系统
 
       大数据
               大数据的概念
               大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据的来源包括网站浏览轨迹、各种文档和媒体、社交媒体信息、物联网传感信息、各种程序和APP的日志文件等。
               大数据关键技术
               大数据所涉及的技术很多,主要包括:
               .数据采集:使用数据抽取工具ETL。
               .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
               .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
               .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
               开源大数据框架Hadoop的关键技术包括:
               .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
               .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
               .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
               .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
               大数据应用
               大数据受到越来越多行业巨头们的关注,除了在电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。
               .互联网和电子商务行业:应用最多的是用户行为分析,主要研究对象为用户在互联网、移动互联网上的访问日志、用户主体信息和外界环境信息,从而挖掘潜在客户,进行精准广告或营销。
               .电信/金融:通过对用户的通信、流量、消费等信息进行分析,判断用户的消费习惯和信用能力,可以给用户设计更贴合的产品,以提升产品竞争力。
               .政府:通过对大数据的挖掘和实时分析,可有效提高政府决策的科学性和时效性,并能帮助政府有效削减预算开支;借助大数据可使政府变得更加开放、透明和智慧;可以使政府更清楚地了解公民的意愿和想法,可提升公民的价值,还可以通过引导社会舆论,为社会公众提供更好的服务,树立更好的政府形象。
               .医疗:有了大数据的海量支持,可以使各医院资源充分发挥优势,有效弥补医疗资源及力量的不足,有利于疑难病症的治疗。通过对医疗数据的挖掘分析,也可以加快新药开发。
               .制造:通过对海量数据的获取、挖掘和分析,把握客户的需求,从而交付客户喜欢的产品。
               大数据发展目标
               大数据发展和应用的目标如下:
               .打造精准治理、多方协作的社会治理新模式。
               .建立运行平稳、安全高效的经济运行新机制。
               .构建以人为本、惠及全民的民生服务新体系。
               .开启大众创业、万众创新的创新驱动新格局。
               .培育高端智能、新兴繁荣的产业发展新生态。
 
       大数据关键技术
        大数据所涉及的技术很多,主要包括:
        .数据采集:使用数据抽取工具ETL。
        .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
        .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
        .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
        开源大数据框架Hadoop的关键技术包括:
        .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
        .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
        .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
        .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
 
       量化
        经过FDCT变换后的系数,其数值变化较多,不利于编码。为了将系数数值映射到更小的取值范围,可以使用量化(quantisation)实现。通过量化可以减小非0系数的幅度和增加0值系数的数目。当然,量化也是导致图像质量下降的主要原因。
        JPEG的有损压缩算法使用均匀标量量化器进行量化,量化步距是按照系数所在的位置和每种颜色分量的色调值确定的。
        由于人眼对亮度信号比对色差信号更敏感,因此JPEG编码中使用了亮度量化表和色差量化表两种标准的量化表,参见下1表和下2表。此外,由于人眼对低频分量的图像比对高频分量的图像更敏感,因此表中的左上角的量化步距要比右下角的量化步距小。
        
        亮度量化值表
        
        色差量化值表
        量化的具体计算公式如下。
        
        其中,Squ,v)为量化后的结果,Fuv)为FDCT系数,Quv)为量化表中的数值,round为舍入取整函数。
 
       数据存储
        数据存储用来表示存储数据。通常,一个流入加工的数据流经过加工处理后就消失了,而它的某些数据(或全部数据)可能被加工成输出数据流,流向其他加工或外部实体。除此之外,在软件系统中还常常要把某些信息保存下来以供以后使用,这时可以使用数据存储。每个数据存储都有一个定义明确的名字标识。可以有数据流流入数据存储,表示数据的写入操作;也可以有数据流从数据存储流出,表示数据的读操作;还可以用双向箭头的数据流指向数据存储,表示对数据的修改。
 
       文件系统
        由于计算机系统处理的信息量越来越大,所以不可能将所有的信息保存到主存中。特别是在多用户系统中,既要保证各用户文件存放的位置不冲突,又要防止任一用户对外存储器(简称外存)空间占而不用;既要保证各用户文件在未经许可的情况下不被窃取和破坏,又要允许在特定的条件下多个用户共享某些文件。因此,需要设立一个公共的信息管理机制来负责统一管理外存和外存上的文件。
        所谓文件管理系统,就是操作系统中实现文件统一管理的一组软件和相关数据的集合,专门负责管理和存取文件信息的软件机构,简称文件系统。文件系统的功能包括按名存取,即用户可以“按名存取”,而不是“按地址存取”;统一的用户接口,在不同设备上提供同样的接口,方便用户操作和编程;并发访问和控制,在多道程序系统中支持对文件的并发访问和控制;安全性控制,在多用户系统中的不同用户对同一文件可有不同的访问权限;优化性能,采用相关技术提高系统对文件的存储效率、检索和读/写性能;差错恢复,能够验证文件的正确性,并具有一定的差错恢复能力。
   题号导航      2017年上半年 系统集成项目管理工程师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第24题    在手机中做本题