分布式数据库的 CAP理论指的是：对于一个分布式数据库系统，一致性、可用性和分区容错..

免费智能真题库 > 历年试卷 > 数据库系统工程师 > 2020年下半年数据库系统工程师上午试卷综合知识

第69题

知识点：分布式数据库系统分区一致性可用性容错容错性数据库数据库系统

关键词：分布式数据库可用性容错性数据库系统容错数据数据库章/节：数据库技术基础

分布式数据库的 CAP理论指的是：对于一个分布式数据库系统，一致性、可用性和分区容错性这三个特点，最多只能满足（）个。

A. 0

B. 1

C. 2

D. 3

相关试题：数据库技术基础

更多>

第52题 2009年上半年

31%

在数据库系统中，拥有最髙权限的用户是（52) 。

第37题 2011年上半年

30%

某医院管理系统部分关系模式为：科室（科室号，科室名，负责人，电话）、病患（病历号，姓名，住址，联系电话）和职工（职工号，..

第70题 2023年上半年

38%

NoSql数据库的存储模型有()。


知识点讲解
· 分布式数据库系统 · 分区 · 一致性 · 可用性 · 容错 · 容错性 · 数据库 · 数据库系统

分布式数据库系统

分布式DBMS包括物理上分布、逻辑上集中的分布式结构和物理上分布、逻辑上分布的分布式数据库结构两种。前者的指导思想是把单位的数据模式（称为全局数据模式）按数据来源和用途，合理地分布在系统的多个节点上，使大部分数据可以就地或就近存取。数据在物理上分布后，由系统统一管理，使用户不感到数据的分布。后者一般由两部分组成：一是本节点的数据模式；二是本节点共享的其他节点上有关的数据模式。节点间的数据共享由双方协商确定。这种数据库结构有利于数据库的集成、扩展和重新配置。

分区

现在，数据量的增加已经使得数据不可以仅在单一的计算机系统中存储（分布式的应用），尤其是为了保证数据的可靠性，有时需要复制备份。同时，为了一些规模性的操作（比如负载平衡）或者考虑到一些动态因素的影响（存储结点的改变），在设计中就要考虑“分区”的概念。

分区的一些主要方法如下：

（1）内存缓存：缓存技术可以看成一种分区。内存中的数据库系统将使用频率最高的数据复制到缓存中，加快了数据给用户传递的速度，同时也大大减轻了数据库服务器的负担。在分布式缓存中，缓存由很多带有分配好一定内存的进程组成，它们能够放置到不同的机器上并且可以通过配置进行应用。它的协议可以在不同的编程语言中实现，同时在用户的应用中提供了简单的键值存储API。它通过将键值哈希散列到缓存中来存储对象。

（2）集群：数据库服务器集群在为用户提供服务时的透明性（用户感觉数据像是在同一个地方），是另外一个对数据进行分区的方法。然而，这种方法虽然能在某种程度上扩展系统数据持久层，可是集群本身的特性却仅仅应用在了数据库管理系统的顶层，而并未在分布式最初的设计中得到应用。

（3）读写分离：指定一台或多台主服务器，所有或部分的写操作被送至此，同时再设一定数量的副本服务器用以满足读请求。如果主服务器向至少一个用户异步复制数据，这是没有写延迟的，可如果主服务器在向最后一个用户写数据还没完成的时候就崩溃了，那么写操作将是无效的；如果主服务器向用户同步复制数据，这是有延迟的，这种更新不会丢失，但读请求却不能送达副本服务器。如果对一致性要求很高的话，无法避免进一步的写延迟。在这种情况下，如果主服务器崩溃了，那么有最新的数据的副本服务器将会成为新的主服务器。这种模型（主／从模型）在读写率很高的时候工作得很好。

（4）范围分割技术／分片（sharding）：指对数据按照如下方式进行分区操作，即对数据的请求和更新在同一个结点上，并且对于分布在不同服务器上的数据存储和下载的量大致相同。从可靠性和负载平衡的观点看，数据的碎片也是需要被复制的，并且允许它们被写入主服务器的副本中和所有需要维护数据分区的副本服务器中。而为了做到这一点，需要在分区和存储结点之间做一个映射。这个映射是动态还是静态取决于用户的应用、主服务器的“映射服务／组件”以及网络中用户应用于网络结点之间的基础结构。在分区场景中，关键在于如何将数据库中的对象映射到服务器上。通常的方法是哈希散列法。

一致性

在讨论一致性之前，先看一下CAP理论。它作为一种理论依据，使得在不同应用中，对一致性也有了不同的要求。CAP理论：简单地说，就是对于一个分布式系统，一致性（Consistency）、可用性（Availablity）和分区容忍性（Partition tolerance）三个特点最多只能三选二。

一致性意味着系统在执行了某些操作后仍处在一个一致的状态，这点在分布式的系统中尤其明显。比如某用户在一处对共享的数据进行了修改，那么所有有权使用这些数据的用户都可以看到这一改变。简言之，就是所有的结点在同一时刻有相同的数据。

可用性指对数据的所有操作都应有成功的返回。高可用性则是在系统升级（软件或硬件）或在网络系统中的某些结点发生故障的时候，仍可以正常返回。简言之，就是任何请求不管成功或失败都有响应。

分区容忍性这一概念的前提是在网络发生故障的时候。在网络连接上，一些结点出现故障，使得原本连通的网络变成了一块一块的分区，若允许系统继续工作，那么就是分区可容忍的。

在数据库系统中，事务的ACID属性保证了数据库的一致性。比如银行系统中，转账就是一个事务，从原账户扣除金额，以及向目标账户添加金额，这两个数据库操作的总和构成一个完整的逻辑过程，具有原子的不可拆分特性，从而保证了整个系统中的总金额没有变化。

然而，这些ACID特性对于大型的分布式系统来说，是和高性能不兼容的。比如，你在网上书店买书，任何一个人买书这个过程都会锁住数据库直到买书行为彻底完成（否则书本库存数可能不一致），买书完成的那一瞬间，世界上所有的人都可以看到书的库存减少了一本（这也意味着两个人不能同时买书）。这在小的网上书城也许可以运行得很好，可是对Amazon这种网上书城却并不是很好。

而对于Amazon这种系统，它也许会用Cache系统，剩余的库存数也许是几秒甚至几个小时前的快照，而不是实时的库存数，这就舍弃了一致性。并且，Amazon可能也舍弃了独立性，当只剩下最后一本书时，也许它会允许两个人同时下单，宁愿最后给那个下单成功却没货的人道歉，而不是整个系统性能的下降。

由于CAP理论的存在，为了提高性能，出现了ACID的一种变种BASE（这四个字母分别是Basically Available，Soft—state，Eventual consistency的开头字母，是一个弱一致性的理论，只要求最终一致性）：

.Basically Available：基本可用。

.Soft state：软状态，可以理解为“无连接”的，而与之相对应的Hard state就是“面向连接”的。

.Eventual consistency：最终一致性，最终整个系统（时间和系统的要求有关）看到的数据是一致的。

在BASE中，强调可用性的同时，引入了最终一致性这个概念，不像ACID，其并不需要每个事务都是一致的，只需要整个系统经过一定时间后最终达到一致。比如Amazon的卖书系统，也许在卖的过程中，每个用户看到的库存数是不一样的，但最终卖完后，库存数都为0。再比如SNS网络中，C更新状态，A也许可以1分钟就看到，而B甚至5分钟后才看到，但最终大家都可以看到这个更新。

具体地说，如果选择了CP（一致性和分区容忍性），那么就要考虑ACID理论（传统关系型数据库的基石，事务的四个特点）。如果选择了AP（可用性和分区容忍性），那么就要考虑BASE系统。如果选择了CA（一致性和可用性），如Google的bigtable，那么在网络发生分区的时候，将不能进行完整的操作。

ACID理论和BASE的具体对比如下表所示。

ACID和BASE的对比表

可用性

可用性（Availability）是指合法许可的用户能够及时获取网络信息或服务的特性。例如，网站能够给用户提供正常的网页访问服务，防止拒绝服务攻击。可用性是常受关注的网络信息系统CIA三性之一，其中A代表可用性（Availability）。对于国家关键信息基础设施而言，可用性至关重要，如电力信息系统、电信信息系统等，要求保持业务连续性运行，尽可能避免中断服务。

容错

提高计算机可靠性的技术可以分为避错技术和容错技术。避错是指预防和避免系统在运行中出错。容错是指系统在其某一组件故障存在的情况下不失效，仍然能够正常工作的特性。简单地说，容错就是当计算机由于种种原因在系统中出现了数据、文件损坏或丢失时，系统能够自动将这些损坏或丢失的文件和数据恢复到发生事故以前的状态，使系统能够连续正常运行。容错功能一般通过冗余组件设计来实现。计算机系统的容错性通常可以从系统的可靠性、可用性和可测性等方面来衡量。

冗余技术是计算机容错技术的基础，一般可分为下列几种类型。

（1）硬件冗余。以检测或屏蔽故障为目的而增加一定硬件设备的方法。

（2）软件冗余。为了检测或屏蔽软件中的差错而增加一些在正常运行时所不需要的软件。

（3）信息冗余。除实现正常功能所需要的信息外，再添加一些信息，以保证运行结果正确性的方法。纠错码就是信息冗余的例子。

（4）时间冗余。使用附加一定时间的方法完成系统功能。这些附加的时间主要用在故障检测、故障屏蔽等方面。

在20世纪60年代，主要利用双处理机或双机的方法来达到容错的目的。例如把关键的元件（处理机、存储器等）或整个计算机设置两套：一套在系统运行时使用，另一套用做备份。根据系统的工作情况又可分为热备份和冷备份两种。

（1）热备份（双重系统）：两套系统同时同步运行，当联机子系统检测到错误时，退出服务进行检修，而由热备份子系统接替工作。

（2）冷备份（双工系统）：处于冷备份的子系统平时停机，或者运行与联机系统无关的运算，当联机子系统产生故障时，人工或自动进行切换，使冷备份系统成为联机系统。在冷备份时，不能保证从程序端点处精确地连续工作，因为备份机不能取得原来机器上当前运行的全部数据。

20世纪70年代中期出现了软件和硬件结构的容错方法。该方法在操作系统的层次上支持联机维修，即故障部分退出后运行、进行维修并重新投入运行都不影响正在运行的应用程序。该结构的特点是系统内包括双处理器、双存储器、双输入输出控制器、不间断工作的电源，以及与之适应的操作系统等。因此上述硬件的任何一部分发生故障都不会影响系统的继续工作。系统容错是在操作系统控制下进行的，在每个处理机上都保持了反映所有系统资源状态的表格，以及本机和其他处理机的工作进程。

容错性

容错性是指在软件发生故障或者违反指定接口的情况下，软件产品维持规定的性能级别的能力。

数据库

数据库（DataBase，DB）是指长期存储在计算机内的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储，具有较小的冗余度、较高的数据独立性和易扩展性，并可为各种用户共享。

系统使用的所有数据存储在一个或几个数据库中。

数据库系统

简单地说，数据库系统就是基于数据库的计算机应用系统。这样一个系统包括以下内容。

①以数据为主体的数据库。

②管理数据库的系统（DBMS）。

③支持数据库系统的计算机硬件环境和操作系统环境。

④管理和使用数据库系统的人——数据库管理员。

1）数据库的定义和特征

数据库，顾名思义就是存放数据的仓库，这种想当然的理解是不准确的。数据库对应的英文单词是DataBase，如果直译则是数据基地；而数据仓库则另有其词DataWarehouse。所以数据库和数据仓库不是同义词，数据仓库是在数据库技术的基础上发展起来的又一新的应用领域。

数据库技术发展到今天已经是一门成熟的技术，但却没有一个被普遍接受的、严格的定义。数据库是相互关联数据的集合，这是大家公认的数据库的基本特征之一。下面一段话概括了数据库应该具备的一些特征，也可以把它作为数据库的定义。

数据库是相互关联数据的集合，它用综合的方法组织数据，具有较小的数据冗余，可供多个用户共享，具有较高的数据独立性，具有安全控制机制，能够保证数据的安全、可靠，允许并发地使用数据库，能有效、及时地处理数据，并能保证数据的一致性和完整性。

（1）相互关联的数据集合。数据库中的数据不是孤立的，数据与数据之间是相互关联的。也就是说，在数据库中不仅要能够表示数据本身，还要能够表示数据与数据之间的联系。比如在学籍管理中，有学生和课程两类数据，在数据库中除了要存放这两类数据之外，还要存放哪些学生选修了哪些课程或哪些课程由哪些学生选修这样的信息，这就反映了学生数据和课程数据之间的联系。

（2）用综合的方法组织数据。数据库能够根据不同的需要按不同的方法组织数据，如可以用顺序组织方法、索引组织方法、聚集（Cluster）组织方法等。

（3）低冗余与数据共享。由于在数据库技术之前，数据文件都是独立的，所以任何数据文件都必须含有满足某应用的全部数据。比如，人事部门有一个职工文件，教育部门也有一个职工文件，两个部门的职工文件中都有"职工基本情况"的数据，也就是说这一部分数据是重复存储的，如果还有第三、第四个部门也有类似的职工文件，那么重复存储所造成的空间浪费是很大的。在数据库中，可以共享类似"职工基本情况"这样的共用数据，从而降低数据的冗余度。

（4）数据具有较高的独立性。数据独立性是指数据的组织和存储方式与应用程序互不依赖、彼此独立的特性。在数据库技术之前，数据文件的组织方式和应用程序是密切相关的，当改变数据结构时，相应的应用程序也必须随之修改，这样就大大增加了应用程序的开发代价和维护代价。而数据库技术却可以使数据的组织和存储方法与应用程序互不依赖，从而大大降低应用程序的开发代价和维护代价。

（5）保证数据的安全、可靠。数据库技术要能够保证数据库中的数据是安全、可靠的。数据库要有一套安全机制，以便可以有效地防止数据库中的数据被非法使用或非法修改；数据库还要有一套完整的备份和恢复机制，以便保证当数据遭到破坏时（软件或硬件故障引起的），能立刻将数据完全恢复，从而保证系统能够连续、可靠地运行。

（6）最大限度地保证数据的正确性。保证数据正确的特性在数据库中称为数据完整性。在数据库中可以通过建立一些约束条件保证数据库中的数据是正确的。比如输入年龄小于0或者大于200时，数据库能够主动拒绝这类错误。

（7）数据可以并发使用并能同时保证数据的一致性。数据库中的数据是共享的，并且允许多个用户同时使用同一数据，这就要求数据库能够协调一致，保证各个用户之间对数据的操作不发生矛盾和冲突，即在多个用户同时使用数据库的情况下，能够保证数据的一致性和正确性。

2）数据库管理系统

数据库的各种功能和特性，并不是数据库中的数据所固有的，而是靠管理或支持数据库的系统软件——数据库管理系统（DataBase Management System, DBMS）提供的。一个完备的数据库管理系统应该具备上一节提到的各种功能，其任务就是对数据资源进行管理，并且使之能为多个用户共享，同时还能保证数据的安全性、可靠性、完整性、一致性，并要保证数据的高度独立性。一个数据库管理系统应该具备以下功能。

（1）数据库定义功能。可以定义数据库的结构和数据库的存储结构，可以定义数据库中数据之间的联系，可以定义数据的完整性约束条件和保证完整性的触发机制等。

（2）数据库操纵功能。可以完成对数据库中数据的操纵，可以装入、删除、修改数据，可以重新组织数据库的存储结构，可以完成数据库的备份和恢复等操作。

（3）数据库查询功能。可以以各种方式提供灵活的查询功能，可以使用户方便地使用数据库中的数据。

（4）数据库控制功能。可以完成对数据库的安全性控制、完整性控制、多用户环境下的并发控制等各方面的控制。

（5）数据库通信功能。在分布式数据库或提供网络操作功能的数据库中还必须提供数据库的通信功能。

3）数据库管理员

从事数据库管理工作的人员称为数据库管理员（DataBase Administrator, DBA）。DBA有大量的工作要做，既有技术方面的工作，又有管理方面的工作，要参加数据库开发和使用的全部工作。总体来说，DBA的工作可以概括如下。

（1）在数据库规划阶段要参与选择和评价与数据库有关的计算机软件和硬件，要与数据库用户共同确定数据库系统的目标和数据库应用需求，要确定数据库的开发计划。

（2）在数据库设计阶段要负责数据库标准的制定和共用数据字典的研制，要负责各级数据库模式的设计，要负责数据库安全、可靠方面的设计。

（3）在数据库运行阶段首先要负责对用户进行数据库方面的培训；要负责数据库的转储和恢复；要负责对数据库中的数据进行维护；要负责监视数据库的性能，并调整、改善数据库的性能，提高系统的效率；要继续负责数据库安全系统的管理；要在运行过程中发现问题、解决问题。

4）数据库的发展

数据库的核心任务是数据管理，它包括数据的分类、组织、编码、存储、检索和维护等。数据管理经历了以下3个阶段。

（1）人工管理阶段。人工管理阶段是指计算机诞生的初期（20世纪50年代中期以前）。这个时期的计算机技术，从硬件看还没有磁盘这样的可直接存取的存储设备，从软件看没有操作系统，更没有管理数据的软件。这个时期数据管理的特点如下。

①数据不保存。因为计算机主要用于科学计算，一般也不需要长期保存数据，只是在完成某一个计算或课题时才将数据输入，然后不仅原始数据不保存，计算结果也不保存。

②没有文件的概念。这个时期的数据组织必须由每个程序的程序员自行组织和安排。

③一组数据对应一个程序。每组数据只对应一个应用，即使两个程序用到相同的数据，也必须各自定义、各自组织，数据无法共享、无法相互利用和互相参照。因此，程序和程序之间有大量的数据重复。

④没有形成完整的数据管理的概念。由于以上几个特点及没有对数据进行管理的软件系统，所以这个时期的每个程序都要包括数据存取方法、输入输出方法和数据组织方法等。因为程序是直接面向存储结构的，所以存储结构的任何一点修改，都会导致程序的修改，程序与数据不具有独立性。

（2）文件系统阶段。文件系统阶段是指20世纪50年代后期到60年代中期这一阶段。从那时起，计算机不仅大量用于科学计算，也开始大量用于信息管理。像磁盘这样的直接存取存储设备也已经出现，在软件方面也有了操作系统和高级语言，还有了专门用于数据管理的软件，即文件系统（或操作系统的文件管理部分）。这个阶段的数据管理具有以下特点。

①数据可以长期保存在磁盘上，也可以反复使用，即可以经常对文件进行查询、修改、插入和删除等操作。

②操作系统提供了文件管理功能和访问文件的存取方法，程序和数据之间有了数据存取的接口，程序开始通过文件名和数据打交道，可以不再关心数据的物理存放位置。因此，这时也有了数据的物理结构和数据的逻辑结构的区别。程序和数据之间有了一定的独立性。

③文件的形式已经多样化。由于有了磁盘这样的直接存取存储设备，文件也就不再局限于顺序文件，也有了索引文件、链表文件等。因而，对文件的访问可以是顺序访问，也可以是直接访问。但文件之间是独立的，它们之间的联系要通过程序去构造，文件的共享性还比较差。

④有了存储文件以后，数据就不再仅仅属于某个特定的程序，而是可以由多个程序反复使用。但文件结构的设计仍然是基于特定的用途，程序仍然是基于特定的物理结构和存取方法编制的。因此，数据的存储结构和程序之间的依赖关系并未根本改变。

⑤数据的存取基本上以记录为单位。

（3）数据库系统阶段。数据库系统阶段从20世纪60年代后期开始，数据库技术的诞生既有计算机技术的发展做依托，又有数据管理的需求做动力。数据库的数据不再是面向某个应用或某个程序，而是面向整个企业（组织）或整个应用。

题号导航 2020年下半年数据库系统工程师上午试卷综合知识

本试卷我的完整做题情况



	第69题在手机中做本题