通常用户采用评价程序来评价系统的性能，评测准确度最高的评价程序是 <u> （..

免费智能真题库 > 历年试卷 > 系统架构设计师 > 2019年下半年系统架构设计师上午试卷综合知识

第16题

知识点：基准测试程序评估

章/节：系统配置与性能评价

通常用户采用评价程序来评价系统的性能，评测准确度最高的评价程序是（16) 。在计算机性能评估中，通常将评价程序中用得最多、最频繁的（17) 作为评价计算机性能的标准程序，称其为基准测试程序。

A. 真实程序

B. 核心程序

C. 小型基准程序

D. 核心基准程序

相关试题：性能评估

更多>

第16题 2020年下半年

13%

进行系统监视通常有三种方式：一是通过（16），如UNIX/Lmux系统中的ps、last等；二是通过系统记录文件查阅系统在特定时间内的运行..

第16题 2014年下半年

42%

在实际应用中，用户通常依靠评价程序来测试系统的性能。以下评价程序中，（16）的评测准确程度最低。事务处理性能委员会(Transac..

第17题 2019年下半年

65%

通常用户采用评价程序来评价系统的性能，评测准确度最高的评价程序是（16) 。在计算机性能评估..


知识点讲解
· 基准测试程序 · 评估

基准测试程序

基准程序法（Benchmark）是目前被用户一致承认的测试性能的较好方法，有多种多样的基准程序，例如主要测试整数性能的基准程序、测试浮点性能的基准程序等。

（1）整数测试程序。Dhrystone是一个综合性的基准测试程序，它是为了测试编译器及CPU处理整数指令和控制功能的有效性，人为地选择一些“典型指令”综合起来形成的测试程序。

Dhrystone程序测试的结果由每秒多少个Dhrystones来表示机器的性能，这个数值越大，性能越好。VAX11/780的测试结果为每秒1757Dhrystones。为便于比较，人们假设1VAX MIPS=每秒1757Dhrystones，将被测机器的结果除以1757，就得到被测机器相对VAX11/780的MIPS值。有些厂家在宣布机器性能时就用Dhrystone MIPS值作为机器的MIPS值。

不过不同的厂家在测试MIPS值时，使用的基准程序一般是不一样的，因此不同厂家机器的MIPS值有时虽然是相同的，但其性能却可能差别很大，那是因为各厂家在设计计算机时针对不同的应用领域，如科学和工程应用、商业管理应用、图形处理应用等，而采用了不同的体系结构和实现方法。同一厂家的机器，采用相同的体系结构，用相同的基准程序测试，得到的MIPS值越大，一般说明机器速度越快。

（2）浮点测试程序。在科学计算和工程应用领域内，浮点计算工作量占很大比例，因此机器的浮点性能对系统的应用有很大的影响。有些机器只标出单个浮点操作性能，如浮点加法、浮点乘法时间，而大部分工作站则标出用Linpack和Whetstone基准程序测得的浮点性能。Linpack主要测试向量性能和高速缓存性能。Whetstone是一个综合性测试程序，除测试浮点操作外，还测试整数计算和功能调用等性能。

①理论峰值浮点速度。巨型机和小巨型机在说明书中经常给出“理论峰值速度”的MFLOPS值，它不是机器实际执行程序时的速度，而是机器在理论上最大能完成的浮点处理速度。它不仅与处理机时钟周期有关，而且还与一个处理机里能并行执行操作的流水线功能部件数目和处理机的数目有关。多个CPU机器的峰值速度是单个CPU的峰值速度与CPU个数的乘积。

②Linpack基准测试程序。Linpack基准程序是一个用FORTRAN语言写成的子程序软件包，称为基本线性代数子程序包，此程序完成的主要操作是浮点加法和浮点乘法操作。在测量计算机系统的Linpack性能时，让机器运行Linpack程序，测量运行时间，将结果用MFLOPS表示。

当解n阶线性代数方程组时，n越大，向量化程度越高。其关系如下表所示。

矩阵的向量化程度

向量化百分比指含向量成分的计算量占整个程序计算量的百分比。在同一台机器中，向量化程度越高，机器的运算速度越快，因为不管n的大小，求解方程时花在非向量操作上的时间差不多是相等的。

③Whetstone基准测试程序。Whetstone是用FORTRAN语言编写的综合性测试程序，主要由执行浮点运算、整数算术运算、功能调用、数组变址、条件转移和超越函数的程序组成。Whetstone的测试结果用Kwips表示，1Kwips表示机器每秒钟能执行1000条Whetstone指令。

（3）SPEC基准程序（SPEC Benchmark）。SPEC（System Performance Evaluation Cooperation）是由几十家世界知名的计算机厂商所支持的非盈利的合作组织，旨在开发共同认可的标准基准程序，目前已更名为Standard Performance Evaluation Cooperation。

SPEC最初于1989年建立了重点面向处理器性能的基准程序集（现在称为SPEC89），主要版本有SPEC CPU89、SPEC CPU92、SPEC CPU95、SPEC CPU2000、SPEC CPU2006等，SPEC CPU2006包括12个整数基准程序集（CINT2006）和17个浮点基准程序集（CFP2006）。CINT2006包括C编译程序、量子计算机仿真、下象棋程序等，CFP2006包括有限元模型结构化网格法、分子动力学质点法、流体动力学稀疏线性代数法等。

为了简化测试结果，SPEC决定使用单一的数字来归纳12种整数基准程序。具体方法是将被测计算机的执行时间标准化，即将被测计算机的执行时间除以一个参考处理器的执行时间，结果称为SPECratio。SPECratio值越大，表示性能越快（因为SPECratio是执行时间的倒数）。CINT2006或CFP2006的综合测试结果是取SPECratio的几何平均值。

SPEC原来主要测试CPU性能，现在则强调开发能反映真实应用的基准测试程序集，并已推广至测试高性能计算机系统、网络服务器上商业应用服务器等。

（4）TPC基准程序。事务处理委员会（Transaction Processing Council，TPC）基准程序是由TPC开发的评价计算机事务处理性能的测试程序，用于评测计算机在事务处理、数据库处理、企业管理与决策支持系统等方面的性能。其中，TPC-C是在线事务处理（On line Transaction Processing，OLTP）的基准程序，TPC-D是决策支持的基准程序。TPC-E作为大型企业信息服务的基准程序。与TPC-C一样，TPC-E的测试结果也主要有两个指标：性能指标（tpsE，transactions per second E）和性价比（美元／tpsE）。其中，前者是指系统在执行多种交易时，每秒钟可以处理多少交易，其指标值越大越好；后者则是指系统价格与前一指标的比值，数值越小越好。

TPC基准测试程序在商业界范围内建立了用于衡量机器性能以及性能价格比的标准。但是，任何一种测试程序都有一定的适用范围，TPC也不例外。

评估

评估测试不只针对物理设备，更重要的是要评估、比较各种网络技术。通常使用模拟测试配置和模拟负载进行子系统（如路由器）和网络技术（如ATM或FDDI等）的评估。评估测试不适用于全局网络，因为全局网络拓扑负载、网络设备太多，不好准确定位引起问题的原因和位置，不能进行有效的比较。多数评估测试在专用的子网测试环境中进行。

很多公司都有其固定合作的网络设备供应商，如路由器、集线器或交换机的供应商，通常很少再做设备比较测试，但网络技术的比较测试需要经常进行。企业经常面对选择哪种技术以及怎样比较不同技术的问题，所以技术评估是评估测试中很重要的一项。

在比较设备与技术时，除了使用专用于待测设备或技术的工程负载外，有经验的程序员也使用真实负载，使用真实负载可以了解待测设备或技术在特定环境下的运行性能。通过两种负载模式检测结果的比较，可以获知待测设备还有多少多余容量。

评估测试与设备或技术的功能／特征测试一样，用于比较待测设备或技术的性能、稳定性、特性、易用性配置和管理等方面的功能。

评估测试实质是衰减测试的基础，评估测试中对几种设备或技术进行比较；衰减测试中对同一设备的不同版本进行比较。测试中选择设备的标准也完全可作为验证升级版本工作正常与否的标准。尽可能多地集成在计划／设计阶段进行测试是非常好的方法，最初的产品评估测试可以被开发阶段的可接受性测试和升级阶段的衰减性测试所借鉴。

评估测试是最常进行的测试，在设备选型、技术选型，以及网络系统升级过程中都要进行或多或少的评估测试。

用于评估测试的负载模式和测试脚本要能有效覆盖被检测的设备和技术。常使用最好情形（工程负载）和真实负载模式进行测试，两种方式都提供了唯一的、重要的检测结果，测试人员要能够理解、解释测试结果间的不同。

工程检测结果是被测设备和技术在最理想的情形下测试得到的结果，因此不能在真实运行环境里显示它们的运行性能；真实检测结果能很好地显示待测设备或技术在运行网络环境中的性能，但无法预测设备的总容量。如果时间允许，两种测试都要做。通常测试人员只有时间进行一种测试，一般进行最好情形的测试。许多公开发行的测试报告都是基于最好情形（工程负载）下的测试结果。

所有的测试配置都是模拟的。用于设备比较的测试配置不一定要代表运行网络的典型配置，任何有效、公正的测试配置都能对被测产品进行很好的比较。然而，测试配置和负载越接近运行网络的配置和负载，测试的结果越能反映被测设备在运行网络中的运行情况。

在安装和配置测试网络时必须注意：要确保配置中所有测试组件都是最新版本，使测试尽可能地公正和统一，以取得最好的测试结果。在测试非正式版时一定要小心，因为发布日期经常有错误。测试配置中安装了非正式版后，它还可能会变，所以非正式版的测试结果和正式版的测试结果经常不一致，分析非正式版的设备经常会延误项目的进行。

进行评估测试时，除了被测设备，测试配置中的所有网络组件都要保持不变。这一点非常重要，只有这样才能保证被测设备可以进行公平比较。对于子网，这一点很容易做到（一个网络设备很容易被另一个设备所替代）。

网络技术评估要比较各种网络技术，因而测试配置中的几个网络组件都需要更换。重要的是不要改变源或目标配置。在配置中不仅通信线路需要更换，路由器也需要更换。传输负载和端点的配置要保持不变。

需要评估测试计划中的各个测试任务，逐步完成测试、数据收集和数据解释。在评估测试中，各测试进行的先后次序没有关系，因为它们不是线性关系，而是多次重复进行的。当在测试中发现了新的信息时，以前所做的测试可能要重新进行以确定它的测试结果，或要对以前的测试稍作改变以检验网络运行的其他方面。此外，在评估期间设备提供商经常发布新的版本或非正式的版本，所以各种基于这种设备的测试都要重新进行。

制定网络设备、技术比较或取舍标准时，不仅要参考评估测试所得的测试结果数据，还要综合考虑其他一些信息，如各设备的性能价格比，但由于没有运行网络的持续和峰值负载要求，所以缺少比较基准，往往将产品评估测试引入歧途。

最后要根据评估测试所得的数据和图表对网络系统作出总结性评估，并撰写网络系统评估报告。

题号导航 2019年下半年系统架构设计师上午试卷综合知识

本试卷我的完整做题情况



	第16题在手机中做本题