阅读以下关于某嵌入式系统多路数据采集的说明，回答问题1至问题3。<br />【说明】<br ..

免费智能真题库 > 历年试卷 > 嵌入式系统设计师 > 2015年下半年嵌入式系统设计师下午试卷案例

第3题

知识点：嵌入式系统数据结构数组异常代码实现监控可靠性数据采集

阅读以下关于某嵌入式系统多路数据采集的说明，回答问题1至问题3。
【说明】
某嵌入式系统中，存在16路数据采集通道，为了提高数据采集的可靠性，对16路采集通道均采用双余度设计，为了监控采集通道是否发生故障，对各路双余度通道采集值进行比较，只有当该通道两个余度设备采集值均不小于45时，才表示该路通道正常。设计人员设计函数nUm_0f_paSSer用于统计无故障通道数目，在该函数的设计中考虑了如下因素：
(1) 采用如下数据结构存储通道号及采集值：

(2) 当输入参数异常时，函数返回-1;
(3) 若正确统计了无故障通道数目，则返回该数目；
(4) 该函数需要两个输入参数，第一个参数是用于存储通道号及余度采集值的数组，第二个参数为通道总数目。
汗发人员根据上述要求使用ANSIC对代码实现如下(代码中第一个数字代表行号)：

问题：3.1 嵌入式软件中通常使用圈复杂度来衡量程序的可维护性(一般要求圈复杂度不大于10)，请计算函数num_of_passer的圈复杂度。

问题：3.2 作为测试人员，请参照表3-1序号1的方式使用代码审查的方法找出该程序中所包含的至少3处错误。

问题：3.3 覆盖率是度量测试完整性的一个手段，也是度量测试有效性的一个手段。在嵌入式软件白盒测试过程中，通常以语句覆盖率、分支覆盖率和MC/DC覆盖率作为度量指标，请指出对函数num_of_passer达到100%语句覆盖、100%分支(DC)覆盖和100%MC/DC覆盖所需的最少测试用例数目。


知识点讲解
· 嵌入式系统 · 数据结构 · 数组 · 异常 · 代码实现 · 监控 · 可靠性 · 数据采集

嵌入式系统

嵌入式计算机系统是与特定功能的设备集成在一起、且隐藏在这个功能系统内部为预定任务而设计的计算机系统。该计算机可对设备的状态进行采集，包括操作者的命令和受控对象的状态，按照设备所要求的、预先设定的特定规律进行计算，计算结果作为命令输出到设备的某些部件，控制某些操作，同时将人所关心的信息显示给操作者。一个典型的嵌入式系统如下图所示。

嵌入式系统组成

上述嵌入式系统的输入、处理、输出的各个部分，一般情况下都是通过软件运行完成的。因此嵌入式软件是嵌入式系统的重要组成部分，而且体现了系统的思想、方法和规律。

在当今社会中，嵌入式系统已经和我们的生活息息相关，人们每时每刻都离不了嵌入式系统，如下图所示。

嵌入式系统基本分类

嵌入式系统一般是实时系统，《牛津计算机字典》对实时系统解释是：“系统的输入对应于一个外部物理世界的运动，而系统输出对应着另外一个物理世界的运动，而这两个运动的时间差必须在可接受的足够小的范围内，实时性就体现在从输入到形成输出所需的时间。”实时系统又进一步定义为硬实时系统和软实时系统两种，如下表所示。

实时系统分类及其特性

一般认为，嵌入式计算机相对于个人计算机或超级计算机，在软件或硬件上的资源是有限的，硬件资源体现在处理速度、功耗、存储空间等方面，软件资源指有限的应用、有限的操作系统支持、应用代码量少等方面。

第一款大批量生产的嵌入式系统是美国1961年发布的民兵Ⅰ型导弹内嵌的D-17自动制导计算机。

随着20世纪60年代早期应用开始，嵌入式系统的价格迅速降低，同时处理功能和能力获得快速提高。以第一款单片机Intel 4004为例，在存储器和外围芯片的配套使用下，实现了计算器和其他小型系统。1978年，美国国家工程制造商协会发布了可编程单片机的“标准”，涵盖了几乎所有以计算机为基础的控制器，如单板计算机、数控设备以及基于事件的控制器，使得微处理器得到了快速发展。

无一例外，不断发展中的嵌入式计算功能的实现都通过用户需求驱动、顶层定义、硬件定义开始，但核心是软件的算法处理，实际上类似硬件功能通过不同软件的控制就可以实现不同用户所需要的嵌入式功能，如下图所示。

嵌入式计算机的层次化架构

当基础硬件接口、计算和存储资源、总线与网络乃至各种传感器、作动器、液压等以模块化、通用化、组合化等变得越来越成熟，他们就可以方便地组合成硬件平台。而软件却恰恰相反，基本是为满足人类某种新的设想或应用要求开始进行新的设计。这些设计从诸如领域、实现功能、性能、可靠性、安全性等方面，可以是全新理念设备、或是适应性修改升级等途径，都会导致软件有不同程度的差异。

嵌入式系统具有以下特征：

（1）嵌入式系统的时间敏感性。嵌入式实时系统对时间响应都是有要求的。例如对于一个设备的运动控制系统，从操作指令发出，嵌入式计算机根据指令和外部条件计算并输出到动作器的动作，要保证在所有的条件下、在确定的时间内产生所需的输出。这对于设计者来说，一般的实时系统都会围绕这个关键需求进行系统设计。另外为了满足时间敏感性要求，确保在最复杂行为和最大延时情况下，系统操作不发生延迟，要求处理器的利用率要有40%左右的余量。有时为满足某些强实时嵌入式系统的应答时间限定在毫秒级或更低，需要在高级语言中嵌入低级语言编程实现。

（2）嵌入式系统的可靠性和安全性。嵌入式计算机系统的失效带来的可能是个人娱乐系统故障的微小损失，可能是铁路信号失效的巨额经济损失，也可能是战略武器控制等经济损失以及重大的社会政治影响等。所以在某种设计缺陷被诱发后，对于不同的系统需要采取不同的策略，例如对具有重大影响的系统，要求计算机或计算机软件对设计缺陷、制造缺陷等失效采取“永不放弃”的安全性设计技术，将损失控制在可接受的范围内。在有人为输入情况下，嵌入式系统还需考虑最大可能地减少人为失误所引起的系统失效。这些算法或机制可以是输入有效性合理性检查、硬件容错、软件容错、错误后的系统缓慢降级、系统进入安全模式等。

（3）嵌入式软件的复杂性。软件复杂度取决于问题规模和复杂度。简单问题的软件可由个人完成，甚至可以进行软件正确性证明；即使过程中更换人员，花费少许时间就可掌握和维护。但如汽车控制、飞机控制等大型复杂软件，其需要根据复杂的外部输入、按照多变量物理规律和人们的预期，实现预定的功能。软件需要根据系统的外部事件及其组合，考虑各种处理、逻辑、时序、边界、超出边界的鲁棒性等进行详细算法和策略研究。还需要考虑如安全性、可靠性、维护性等质量要求。更困难的是大规模软件需要团队联合定义、并行开发、持续维护，同时考虑处理平台限制条件。

数据结构

在页式存储管理中，最主要的数据结构有两个。

.页表：页表给出了任务的逻辑页面号与内存中的物理页面号之间的对应关系。

.物理页面表：用来描述内存空间中各个物理页面的使用分配状况。在具体实现上，可以采用位示图或空闲页面链表等方法。

下图是页表的一个例子。在任务的逻辑地址空间当中，总共有4个页面，即页面0、页面1、页面2和页面3。页表描述的是逻辑页面号与物理页面号之间的对应关系，即每一个逻辑页面存放在哪一个物理页面中。页表的下标是逻辑页面号，从0到3。相应的页表项存放的就是该逻辑页面所对应的物理页面号。在本例中，任务的4个逻辑页面分别存放在第1、第4、第3和第7个物理页面中。

页表示例

数组

数组是一种集合数据类型，它由多个元素组成，每个元素都有相同的数据类型，占有相同大小的存储单元，且在内存中连续存放。每个数组有一个名字，数组中的每个元素有一个序号（称为下标），表示元素在数组中的位序（位置），数组的维数和大小在定义数组时确定，程序运行时不能改变。

一维数组的定义形式为：

其中，“类型说明符”指定数组元素的类型；“数组名”的命名规则与变量相同；“常量表达式”的值表示数组元素的个数，必须是一个正整数。例如：

在C程序中，数组元素的下标总是从0开始的，如果一个数组有n个元素，则第一个元素的下标是0，最后一个元素的下标是n-1。例如，在上面定义的temp数组中，第一个元素是temp[0]，第二个元素是temp[1]，以此类推，最后一个元素是temp[99]。访问数组元素的方法是通过数组名及数组名后的方括号中的下标。例如：

程序员需确保访问数组元素时下标的有效性，访问一个不存在的数组元素（例如temp[100]），可能会导致严重的错误。

定义数组时就给出数组元素的初值，称之为初始化，数组的初始化与简单变量的初始化类似。初值放在一对花括号中，各初值之间用逗号隔开，称为初始化表。例如：

对于没有给出数组元素个数而给出了初始化表的数组定义，编译器会根据初值的个数和类型，为数组分配相应大小的内存空间。初始化表中值的个数必须小于或等于数组元素的个数。

对于“int primes[10]={1，2，3，5，7}；”，前5个数组元素的初值分别为1，2，3，5，7，后5个元素的初值都为0。

二维数组可视为是一个矩阵，定义形式为：

其中，“类型说明符”指定数组元素的类型，“常量表达式1”指定行数，“常量表达式2”指定列数。例如，可以定义一个二维数组：

这个数组在内存中占用能存放12个double型数据且地址连续的存储单元。

C语言中二维数组在内存中按行顺序存放。

可以用sizeof计算数组空间的大小，即字节数。例如，

二维数组可以看作元素是一维数组的一维数组，三维数组可看作元素是二维数组的一维数组，以此类推。

异常

异常是一种形式的异常控制流，它一部分是由硬件实现的，一部分是由操作系统实现的。因为它们有一部分是由硬件实现的，所以具体细节将随系统的不同而有所不同。然而，对于每个系统而言，基本的思想都是相同的。

异常（exception）就是控制流中的突变，用来响应处理器状态中的某些变化。异常可以分为四类：中断（interrupt）、陷阱（trap）、故障（fault）和中止（abort）。下表对这些类别的属性做了小结。

异常的类别

（1）陷阱。陷阱是有意的异常，是执行一条指令的结果。就像中断处理程序一样，陷阱处理程序将控制返回到下一条指令。陷阱最重要的用途是在用户程序和内核之间提供一个像过程一样的接口，叫做系统调用。

用户程序经常需要向内核请求服务，例如读一个文件、创建一个新的进程、加载一个新的程序或者中止当前进程。为了允许对这些内核服务的受控的访问，处理器提供了一条特殊的syscall指令，当用户程序想要请求服务n时，可以执行这条指令。执行syscall指令会导致一个到异常处理程序的陷阱，这个处理程序对参数解码，并调用适当的内核程序。

（2）故障。故障由错误情况引起，它可能被故障处理程序修正。当一个故障发生时，处理器将控制转移给故障处理程序。如果处理程序能够修正这个错误情况，它就将控制返回到故障指令，从而重新执行它。否则，处理程序返回到内核中的abort例程，abort例程会中止引起故障的应用程序。

（3）中止。中止是不可恢复的致命错误造成的结果，典型的是一些硬件错误，例如DRAM或者SRAM位被损坏时发生的奇偶错误。中止处理程序从不将控制返回给应用程序。处理程序将控制返回给一个abort例程，该例程会中止这个应用程序。

代码实现

移动端界面的代码实现由于采用的编程方式各不相同，实现的过程差异很大，这里通过HTML、CSS和JSP+MySQL数据库设计一个简单的手机验证登录界面，如下图所示。当用户单击“获取验证码”按钮时，获取验证码设置点击事件，并将值发送到send()方法，然后判断是否传输成功。如果成功，为数据库中添加字段，由前端控制器方法实现添加成功后，服务器端JSON返回信息，随后前台进行登录验证。

一个简单的手机注册登录界面

主要代码如下：

监控

主要包括故障监控和性能、流量、负载等状态监控，这些监控关系到集群的健康运行及潜在问题的及时发现与干预。

（1）服务故障、状态监控：主要是对服务器自身、上层应用、关联服务数据交互监控；例如针对前端Web Server，就可以有很多种类型的监控，包括应用端口状态监控，便于及时发现服务器或应用本身是否崩溃、通过ICMP包探测服务器健康状态，更上层可能还包括应用各频道业务的监控，这些只是一部分，还有多种监控方式，依应用特点而定。还有一些问题需解决，如集群过大，如何高性能地进行监控也是一个现实问题。

（2）集群状态类的监控或统计，为合理管理调优集群提供数据参考，包括服务瓶颈、性能问题、异常流量、攻击等问题。

可靠性

（1）完备性。完备性评价指标及测量，如下表所示。

完备性评价指标及测量

（2）连续性。连续性评价指标及测量，如下表所示。

连续性评价指标及测量

（3）稳定性。稳定性评价指标及测量，如下表所示。

稳定性评价指标及测量

（4）有效性。有效性评价指标及测量，如下表所示。

有效性评价指标及测量

（5）可追溯性。可追溯性评价指标及测量，如下表所示。

可追溯性评价指标及测量

数据采集

数据采集阶段的主要任务就是获取各个不同数据源的各类数据，按照统一的标准进行数据的转换、清洗等工作，以形成后续数据处理的符合标准要求的数据集。

原始数据往往形式多样，包括：结构化数据，例如业务系统中的交易明细、操作日志等；非结构化数据，例如企业中的各种文档数据，视频、音频等数据；半结构化数据，例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。

当前的大数据处理中，数据的种类一般包括：

.传感数据：传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多，如人身体的传感数据，网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展，传感数据越来越丰富，人们也逐渐发现了其数据价值。

.业务数据：企业业务系统在执行日常业务活动时产生的大量数据，包括设备工况、操作记录、交易流水，以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好，在推荐或预测系统中有很大的利用价值。

.人工输入数据：用户通过软件人机交互等主动输入的数据，典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入，手机APP应用的不断发展，这种用户产生的数据也越来越多，越来越丰富。

.科学数据：通过科学研究和科学实验不断搜集和汇聚的数据，一般是以电子记录或文本的形式存在。

从大数据的来源进行划分，其种类包括：

.企业数据：企业自建的各种业务系统，如ERP、在线交易系统、招聘系统等，也会产生各种数据集。

.政府数据：政府信息化已发展多年，构建了很多业务数据。近年来政府也在不断地建设大数据中心，发布各种数据，包括人社、医疗、税务、工商、财务等。

.互联网数据：互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据，包括门户网站、社交信息、电商网站等等。

其中，企业数据一般属于内部数据，而政府数据、互联网数据往往属于外部数据。

从上面大数据的分类可以看出，数据来源渠道众多，差异非常大。因此，数据采集的主要任务就是进行数据的汇聚，为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术，针对外部数据，尤其是互联网数据的爬虫技术。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。在企业数据集成领域，已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统，这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

ETL（Extract Transform Load）用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

基本的ETL体系结构示意图如下图所示。

ETL体系结构示意图

ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中，围绕上述三个核心环节进行了功能上的扩充，例如工作流、调度引擎、规则引擎、脚本支持和统计信息等，尽量降低ETL阶段的工作强度，减少工作量。

数据转换和加工是三个环节的重点，因为抽取的数据中往往存在各种问题，例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等，并以工作流的形式进行各种方式的组合，以满足数据转换的需求。有的ETL工具也提供脚本支持，满足用户定制化的数据转换需求。

常用的ETL工具有三种：DataStage、Informatica PowerCenter和Kettle。

.DataStage：IBM公司的DataStage是一种数据集成软件平台，专门针对多种数据源的ETL过程进行了简化和自动化，同时提供图形框架，用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。

.Informatica PowerCenter：Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源，包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。

.Kettle：Kettle是一款国外开源的ETL工具，纯Java编写，可以在Windows、Linux、UNIX上运行，数据抽取高效稳定。管理来自不同数据库的数据，提供图形化的操作界面，提供工作流支持。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。Kettle包括4个产品：Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程（Transformation）。Pan批量运行由Spoon设计的ETL转换（例如使用一个时间调度器），是一个后台执行的程序，没有图形界面。Chef创建任务（Job），任务通过允许每个转换、任务、脚本等等，更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务（例如使用一个时间调度器）。

由于很多大数据应用都需要来自互联网的外部数据，因此，爬虫技术也称为数据采集阶段的一个主要基础性的技术。

网络爬虫（又称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。

爬虫框架示意图

爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页，并从中解析出新的URL链接交给URL管理器，解析出有效数据交给数据存储器。

网络爬虫大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、深层网络（Deep Web）爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标，其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。

通用网络爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略。

聚焦网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性，常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。

深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写，包含两种类型：基于领域知识的表单填写，此方法一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单；基于网页结构分析的表单填写，此方法一般无领域知识或仅有有限的领域知识，将网页表单表示成DOM树，从中提取表单各字段值。常见的爬虫工具有如下三种：

.Nutch：一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持，可以进行分布式抓取、存储和索引。Nutch采用插件结构设计，高度模块化，容易扩展。

.Scrapy：是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫、Web2.0爬虫等。

.Larbin：Larbin是一种开源的网络爬虫／网络蜘蛛，用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。

当数据采集到以后，需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍，此处不再详述。

题号导航 2015年下半年嵌入式系统设计师下午试卷案例

本试卷我的完整做题情况



	第3题在手机中做本题