基本概念
被考次数: 2次
被考频率: 低频率
答错率:    48%
知识难度:
考试要求: 掌握     
知识路径:  > 网络与信息安全知识  > 网络与信息安全知识  > 大数据  > 大数据处理基础知识


本知识点历年真题试卷分布
>> 试题列表    
 

 
       大数据本身是一个宽泛的概念,业界尚未给出一个统一的定义。不同的研究机构、公司从不同的角度给出了大数据不同的定义。
       2011年,美国著名的咨询公司麦肯锡在研究报告《大数据的下一个前沿:创新、竞争和生产力》中给出了大数据的定义:大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
       美国国家标准技术研究所的大数据工作组在《大数据:定义和分类》中指出:大数据是指那些传统数据架构无法有效地处理的新数据集,需要采用新的架构来高效率完成数据处理。
       维基百科给出的定义是:大数据又称为巨量资料,指的是用传统数据处理应用软件不足以处理的大或复杂的数据集的术语,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。
       国内普遍的理解:大数据是具有数量巨大、来源多样、生成极快且多变等特征且难以使用传统数据体系结构有效处理的包含大量数据集的数据。
       因此,从以上定义可以看出,大数据的定义,不仅仅是数据本身,也包括了大数据技术和应用。从数据本身而言,大数据是指超出典型数据管理系统能力的大规模海量数据集,而这些数据之间存在着直接或间接的联系,通过大数据技术可以从中挖掘出模式与知识,实现数据增值,进而实现数据变现。
       大数据技术是使得大数据中蕴含的价值得以挖掘和展现的一系列技术与方法,包括数据采集、预处理、存储、分析挖掘、可视化等相关技术。
       大数据应用是对特定的大数据集、集成应用大数据系列技术与方法,获得有价值信息的过程。
       大数据的特征一般采用5V来描述:
       .Variety,多样性。数据类型繁多,除了结构化数据外,还包括种类繁多的非结构化数据,例如文本、音频、视频、文件记录等,也包括半结构化数据,例如Email、word、ppt文档等;
       .Velocity,速度。一方面是数据的增长速度快,另一方面是要求数据访问、处理、交付的速度快,通常要求具有时效性。
       .Volume,数量。聚合在一起供分析的数据规模非常庞大。各种业务系统产生的数据量急剧增长。
       .Value,价值。从海量低价值密度的数据中挖掘出具有高价值的数据。大数据的本质是获取数据价值,关键在于商业价值,即如何有效利用好数据。
       .Veracity,真实性。一方面,对于虚拟网络环境下如此大量的数据需要采取措施确保其真实性、客观性,这是大数据技术与业务发展的迫切需求;另一方面,通过大数据分析,真实地还原和预测事物的本来面目也是大数据未来发展的趋势。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有