|
知识路径: > 网络与信息安全知识 > 网络与信息安全知识 > 云计算 > 云计算基础知识 > 云关键技术 >
|
考试要求:掌握
相关知识点:9个
|
|
|
|
分布式数据存储技术包含非结构化数据存储和结构化数据存储。其中,非结构化数据存储主要采用文件存储和对象存储技术,而结构化数据存储主要采用分布式数据库技术,特别是NoSQL数据库。
|
|
|
|
为了存储和管理云计算中的海量数据,Google提出分布式文件系统GFS(Google File System),Apache Hadoop项目的HDFS实现了GFS的开源版本。
|
|
|
Google GFS是一个大规模分布式文件存储系统,其设计的特点如下:
|
|
|
.利用多副本自动复制技术,用软件的可靠性来弥补硬件可靠性的不足。
|
|
|
.将元数据和用户数据分开,用单点或少量的元数据服务器进行元数据管理,大量的用户数据结点存储分块的用户数据,规模可以达到PB级。
|
|
|
.面向一次写多次读的数据处理应用,将存储与计算结合在一起,利用分布式文件系统中数据的位置相关性进行高效的并行计算。
|
|
|
GFS/HDFS非常适于进行以大文件形式存储的海量数据的并行处理。
|
|
|
|
对象存储系统是传统的块设备的延伸,具有更高的“智能”:上层通过对象ID来访问对象,而不需要了解对象的具体空间分布情况。相对于分布式文件系统,在支撑互联网服务时,对象存储系统具有如下优势:
|
|
|
.相对于文件系统的复杂API,分布式对象存储系统仅提供基于对象的创建、读取、更新、删除的简单接口,在使用时更方便而且语义没有歧义。
|
|
|
.对象分布在一个平坦的空间中,而非文件系统那样的名称空间之中,这提供了很大的管理灵活性:既可以在所有对象之上构建树状逻辑结构;也可以直接用平坦的空间;还可以只在部分对象之上构建树状逻辑结构;甚至可以在同一组对象之上构建多个名称空间。
|
|
|
Amazon的S3就属于对象存储服务。S3通过基于Http REST的接口进行数据访问,按照用量和流量进行计费,其他的云服务商也都提供了类似的接口服务。很多互联网服务商,如Facebook等也都构建了对象存储系统,用于存储图片、照片等小型文件。
|
|
|
|
云计算环境下,大部分应用不需要支持完整的SQL语义,而只需要Key-Value形式或略复杂的查询语义。在这样的背景下,进一步简化的各种NoSQL数据库成为云计算中的结构化数据存储的重要技术。
|
|
|
Google的BigTable是一个典型的分布式结构化数据存储系统。在表中,数据是以“列族”为单位组织的,列族用一个单一的键值作为索引,通过这个键值,数据和对数据的操作都可以被分布到多个结点上进行。
|
|
|
在开源社区中,Apache HBase使用了和BigTable类似的结构,基于Hadoop平台提供BigTable的数据模型,而Cassandra则采用了亚马逊Dynamo的基于DHT的完全分布式结构,实现更好的可扩展性。
|
|
|