首页 > 知识点讲解
       大数据概念及关键技术
知识路径: > 信息技术知识 > 新一代信息技术 > 大数据 > 大数据 > 
被考次数:1次     被考频率:低频率     总体答错率:47%     知识难度系数:     
相关知识点:2个      
        (1)大数据的概念。早在20世纪的1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将“大数据”热情地赞颂为“第三次浪潮的华彩乐章”。2008年9月《科学》(Science)杂志发表了一篇文章“BigData:Science in the Petabyte Era”。“大数据”这个词开始被广泛传播。目前国内外的专家学者对大数据只是在数据规模上达成共识:“超大规模”表示的是GB级别的数据,“海量”表示的是TB级的数据,而“大数据”则是PB级别及其以上的数据。
        2011年5月,在“云计算相遇大数据”为主题的EMC World 2011会议中,EMC抛出了大数据(Big Data)概念。
        大数据的来源包括网站浏览轨迹、各种文档和媒体、社交媒体信息、物联网传感信息、各种程序和App的日志文件等。大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合,其具有4V特性:体量大(Volume)、多样性(Variety)、价值密度低(Value)、快速化(Velocity)的显著特征。
        .体量大(Volume)。体量大指数据量巨大,而且非结构化数据的超大规模和增长快速,非结构化数据占总数据量的80%~90%,其增长比结构化数据快10倍到50倍。大数据处理的数据量是传统数据仓库的10倍到50倍。
        .多样性(Variety)。多样性指数据类型包括结构化数据、半结构化数据和非结构化数据,具有很多不同形式(文本、图像、视频、机器数据),这些数据无模式或者模式不明显,并且属于不连贯的语法或句义。
        .价值密度低(Value)。价值密度低指类似沙里淘金,从海量的数据里面获得对自己有用的数据,要处理大量的不相关信息。大数据同时也意味深度复杂分析,比如机器学习和人工智能,甚至可以对未来趋势与模式进行预测分析。
        .快速化(Velocity)。大数据处理的数据通常指实时获取需要的信息,进行实时分析而非批量式分析,数据处理通常立竿见影而非事后见效。
        (2)大数据关键技术。大数据所涉及的技术很多,主要包括数据采集、数据存储、数据管理、数据分析与挖掘4个环节。在数据采集阶段主要使用的技术是数据抽取工具ETL。在数据存储环节主要有结构化数据、非结构化数据和半结构化数据的存储与访问。结构化数据一般存放在关系数据库,通过数据查询语言(SQL)来访问;非结构化(如图片、视频、doc文件等)和半结构化数据一般通过分布式文件系统的NoSQL(Not Only SQL)进行存储。大数据管理主要使用了分布式并行处理技术,比较常用的有MapReduce,借助MapReduce编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。数据分析与挖掘是根据业务需求对大数据进行关联、聚类、分类等钻取和分析,并利用图形、表格加以展示,与ETL一样,数据分析和挖掘是以前数据仓库的范畴,只是在大数据中得以更好的利用。
        .HDFS。Hadoop分布式文件系统(HDFS)是适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
        .HBase。 HBase是一个分布式的、面向列的开源数据库,该技术来源于论文“Bigtable:一个结构化数据的分布式存储系统”,HBase在Hadoop之上提供了类似于Bigtable的能力。利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hbase是基于列的而不是基于行的模式。
        .MapReduce。 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”,以及它们的主要思想,都是从函数式编程语言里借来的。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上,从而实现对HDFS和HBase上的海量数据分析。
        .Chukwa。 Chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在hadoop的hdfs和map/reduce框架之上的,继承了hadoop的可伸缩性和鲁棒性。Chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。
 
本知识点历年真题:
隶属试卷 题号/题型 题干 难度系数/错误率
   2020年下半年
   系统规划与管理..
   上午试卷 综合知识
第12题
选择题
(12)应用于大数据的数据采集阶段。

47%
 
 相关知识点:
 
软考在线指南
优惠劵及余额
在线支付
修改密码
下载及使用
购买流程
取消订单
联系我们
关于我们
联系我们
商务合作
旗下网站群
高级资格科目
信息系统项目管理师 系统分析师
系统架构设计师 网络规划设计师
系统规划与管理师
初级资格科目
程序员 网络管理员
信息处理技术员 信息系统运行管理员
中级资格科目
系统集成项目管理工程师 网络工程师
软件设计师 信息系统监理师
信息系统管理工程师 数据库系统工程师
多媒体应用设计师 软件评测师
嵌入式系统设计师 电子商务设计师
信息安全工程师
 

本网站所有产品设计(包括造型,颜色,图案,观感,文字,产品,内容),功能及其展示形式,均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部,违者将依法追究责任,特此声明。
本站部分内容来自互联网或由会员上传,版权归原作者所有。如有问题,请及时联系我们。


工作时间:9:00-20:00

客服

点击这里给我发消息 点击这里给我发消息 点击这里给我发消息

商务合作

点击这里给我发消息

客服邮箱service@rkpass.cn


京B2-20210865 | 京ICP备2020040059号-5 |京公网安备 11010502032051号 | 营业执照 | Copyright ©2000-2023 All Rights Reserved 软考在线版权所有