数据分析技术-软考在线

数据分析技术


知识路径： > 电子商务新技术与新应用 > 大数据 > 大数据技术 > 大数据技术 > 大数据技术创新
考试要求：了解相关知识点：3个

从数据在信息系统中的生命周期看，数据分析技术生态主要有5个发展方向，包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术，兼顾离线和实时数据的采集和传输。在存储层，HDFS已经成为了大数据磁盘存储的事实标准，针对关系型以外的数据模型，开源社区形成了K-V（key-value）、列式、文档、图这四类NoSQL数据库体系，Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面，Spark已经取代MapReduce成为了大数据平台统一的计算平台，在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案，Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理（Massively Parallel Processor，MPP）数据库竞争激烈，Hive还是这个领域当之无愧的王者。在数据可视化领域，敏捷商业智能（Business Intelligence，BI）分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示，是目前最受欢迎的可视化展现方式。

相比传统的数据库和MPP数据库，Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持，但失去了传统数据库对数据精细化的操作，包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展，数据分析的技术体系渐渐在完善自己的不足，也融合了很多传统数据库和MPP数据库的优点，从技术的演进来看，大数据技术正在发生以下变化：

（1）更快。Spark已经替代MapReduce成为了大数据生态的计算框架，以内存计算带来计算性能的大幅提高，尤其是Spark 2.0增加了更多了优化器，计算性能进一步增强。

（2）流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力，但其本质还是小批的架构，在流处理要求越来越高的现在，Spark Streaming受到Flink激烈的竞争。

（3）硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种，受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘，NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化，充分兼容和利用这些硬件的特性。

（4）SQL的支持。从Hive诞生起，Hadoop生态就在积极向SQL靠拢，主要从兼容标准SQL语法和性能等角度来不断优化，层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来，在支持SQL和数据精细化操作方面有很大的优势。

（5）深度学习的支持。深度学习框架出现后，和大数据的计算平台形成了新的竞争局面，以Spark为首的计算平台开始积极探索如何支持深度学习能力，TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接，更好地解决了两者数据传递的问题。


	相关知识点：
	事务处理技术数据流通技术大数据技术创新

	软考在线指南
	优惠劵及余额
	在线支付
	修改密码
	下载及使用
	购买流程
	取消订单

	联系我们
	关于我们
	联系我们
	商务合作

旗下网站群

高级资格科目
信息系统项目管理师	系统分析师
系统架构设计师	网络规划设计师
系统规划与管理师
初级资格科目
程序员	网络管理员
信息处理技术员	信息系统运行管理员

中级资格科目
系统集成项目管理工程师	网络工程师
软件设计师	信息系统监理师
信息系统管理工程师	数据库系统工程师
多媒体应用设计师	软件评测师
嵌入式系统设计师	电子商务设计师
信息安全工程师

本网站所有产品设计（包括造型，颜色，图案，观感，文字，产品，内容），功能及其展示形式，均已受版权或产权保护。
任何公司及个人不得以任何方式复制部分或全部，违者将依法追究责任，特此声明。
本站部分内容来自互联网或由会员上传，版权归原作者所有。如有问题，请及时联系我们。

工作时间：9:00-20:00

客服

QQ 486577830

商务合作

QQ 486577830

客服邮箱service@rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5 |