免费智能真题库 > 历年试卷 > 系统集成项目管理工程师 > 2019年下半年 系统集成项目管理工程师 上午试卷 综合知识
  第23题      
  知识点:   大数据   大数据关键技术   数据存储   数据库
  关键词:   大数据   非结构化数据   开源   数据库   结构化数据   数据        章/节:   新一代信息技术       

 
大数据相关技术中,( )是一个分布式的、面向列的开源数据库,是一个适合于非结构化数据存储数据库
 
 
  A.  HBase
 
  B.  MapReduce
 
  C.  Chukva
 
  D.  HDFS
 
 
 

 
  第23题    2017年下半年  
   86%
在将数据源经过分析挖掘到最终获得价值的大数据处理过程中,MapReduce是在 ( )阶段应用分布式并行处理关键技术的常用工具。
  第22题    2018年下半年  
   43%
大数据关键技术中, Hbase主要被应用于()。
  第22题    2018年上半年  
   48%
在大数据关键技术中,Hadoop的分布式文件系统HDFS属于大数据( )。
   知识点讲解    
   · 大数据    · 大数据关键技术    · 数据存储    · 数据库
 
       大数据
               大数据的概念
               大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据的来源包括网站浏览轨迹、各种文档和媒体、社交媒体信息、物联网传感信息、各种程序和APP的日志文件等。
               大数据关键技术
               大数据所涉及的技术很多,主要包括:
               .数据采集:使用数据抽取工具ETL。
               .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
               .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
               .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
               开源大数据框架Hadoop的关键技术包括:
               .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
               .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
               .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
               .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
               大数据应用
               大数据受到越来越多行业巨头们的关注,除了在电商、电信、金融这些传统数据丰富、信息系统发达的行业之外,在政府、医疗、制造和零售行业都有其巨大的社会价值和产业空间。
               .互联网和电子商务行业:应用最多的是用户行为分析,主要研究对象为用户在互联网、移动互联网上的访问日志、用户主体信息和外界环境信息,从而挖掘潜在客户,进行精准广告或营销。
               .电信/金融:通过对用户的通信、流量、消费等信息进行分析,判断用户的消费习惯和信用能力,可以给用户设计更贴合的产品,以提升产品竞争力。
               .政府:通过对大数据的挖掘和实时分析,可有效提高政府决策的科学性和时效性,并能帮助政府有效削减预算开支;借助大数据可使政府变得更加开放、透明和智慧;可以使政府更清楚地了解公民的意愿和想法,可提升公民的价值,还可以通过引导社会舆论,为社会公众提供更好的服务,树立更好的政府形象。
               .医疗:有了大数据的海量支持,可以使各医院资源充分发挥优势,有效弥补医疗资源及力量的不足,有利于疑难病症的治疗。通过对医疗数据的挖掘分析,也可以加快新药开发。
               .制造:通过对海量数据的获取、挖掘和分析,把握客户的需求,从而交付客户喜欢的产品。
               大数据发展目标
               大数据发展和应用的目标如下:
               .打造精准治理、多方协作的社会治理新模式。
               .建立运行平稳、安全高效的经济运行新机制。
               .构建以人为本、惠及全民的民生服务新体系。
               .开启大众创业、万众创新的创新驱动新格局。
               .培育高端智能、新兴繁荣的产业发展新生态。
 
       大数据关键技术
        大数据所涉及的技术很多,主要包括:
        .数据采集:使用数据抽取工具ETL。
        .数据存储:包括结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库中,通过SQL来访问;非结构化(如图片、视频、文件等)和半结构化数据一般通过分布式文件系统的NoSQL进行存储。
        .数据管理:主要使用分布式并行处理技术,比较常用的有MapReduce。
        .数据分析与挖掘:根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示。
        开源大数据框架Hadoop的关键技术包括:
        .HDFS(Hadoop分布式文件系统):是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大数据应用。
        .HBase:一个分布式的、面向列的开源数据库。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,并且采用基于列而不是基于行的模式。
        .MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
        .Chukwa:一个开源的用于监控大型分布式系统的数据收集系统。Chukwa构建在Hadoop的HDFS和MapReduce框架之上,继承了Hadoop的可升缩性和健壮性,它包含了一个强大而灵活的工具集,可用于展示、监控和分析已收集的数据。
 
       数据存储
        数据存储用来表示存储数据。通常,一个流入加工的数据流经过加工处理后就消失了,而它的某些数据(或全部数据)可能被加工成输出数据流,流向其他加工或外部实体。除此之外,在软件系统中还常常要把某些信息保存下来以供以后使用,这时可以使用数据存储。每个数据存储都有一个定义明确的名字标识。可以有数据流流入数据存储,表示数据的写入操作;也可以有数据流从数据存储流出,表示数据的读操作;还可以用双向箭头的数据流指向数据存储,表示对数据的修改。
 
       数据库
        数据库(DataBase,DB)是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。
        系统使用的所有数据存储在一个或几个数据库中。
   题号导航      2019年下半年 系统集成项目管理工程师 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第23题    在手机中做本题