论大数据处理技术及其应用<br />近年来，互联网、云计算、移动计算和物联网技术迅速发..

免费智能真题库 > 历年试卷 > 系统分析师 > 2012年上半年系统分析师下午试卷论文

第4题

知识点：云计算 RFID 背景大数据大数据处理技术物联网业务需求有效性

论大数据处理技术及其应用
近年来，互联网、云计算、移动计算和物联网技术迅速发展，数以亿计的网络用户、无所不在的移动设备、RFID和无线传感器时时刻刻都在产生海量的数据，并且需要处理的数据呈几何级数增长。另一方面，企业业务需求和竞争压力对海量数据处理的实时性、有效性提出了更高的要求，传统的数据处理方法往往无法适应这种变化。在这种背景下，企业需要针对“大数据”的应用特征，选取更加合适的数据处理方法与技术。

问题：4.1 请围绕“大数据处理技术及其应用”论题，依次从以下三个方面进行论述。
1.概要叙述你参与实施的、与大数据处理相关的开发项目及你所担任的主要工作。
2请从数据量、数据分析需求和硬件平台三个方面阐述大数据处理系统与传统数据处理系统的差异；列举并解释大数据处理系统应该具有的重要特征（至少列举四个）。
3.阐述你参与实施的项目在进行大数据处理时遇到了哪些问题，是如何解决的。


知识点讲解
· 云计算 · RFID · 背景 · 大数据 · 大数据处理技术 · 物联网 · 业务需求 · 有效性

云计算

云计算（Cloud Computing）是分布式处理、并行处理和网格计算的发展，或者说是这些概念的商业实现。云计算的基本原理是，通过使计算分布在大量的分布式计算机上，而非本地计算机或远程服务器中，企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上，根据需求访问计算机和存储系统。

云计算的应用包含这样的一种思想，把力量联合起来，给其中的每一个成员使用。从最根本的意义来说，云计算就是利用互联网上的软件和数据的能力。

云计算的形式

云计算的形式如下：

（1）SaaS。这种类型的云计算通过浏览器把程序传给成千上万的用户。在用户眼中看来，这样会省去在服务器和软件授权上的开支；从供应商角度来看，这样只需要维持一个程序就够了，这样能够减少成本。

（2）实用计算（Utility Computing）。这种云计算是为IT行业创造虚拟的数据中心使得其能够把内存、I/O设备、存储和计算能力集中起来成为一个虚拟的资源池来为整个网络提供服务。

（3）网络服务。同SaaS关系密切，网络服务提供者们能够提供API让开发者能够开发更多基于互联网的应用，而不是提供单机程序。

（4）平台即服务（Platform as a Service）。这种形式的云计算把开发环境作为一种服务来提供。开发商可以使用中间商的设备来开发自己的程序，并通过互联网和其服务器传到用户手中。

（5）管理服务提供商（Management Service Provider, MSP）。这种应用更多的是面向IT行业而不是终端用户，常用于邮件病毒扫描、程序监控等等。

（6）商业服务平台。SaaS和MSP的混合应用，该类云计算为用户和提供商之间的互动提供了一个平台。

（7）互联网整合。将互联网上提供类似服务的公司整合起来，以便用户能够更方便的比较和选择自己的服务供应商。

云计算的特点

（1）云计算提供了最可靠、最安全的数据存储中心，用户不用再担心数据丢失、病毒入侵等麻烦。

（2）云计算对用户端的设备要求最低，使用起来也最方便。

（3）云计算可以轻松实现不同设备间的数据与应用共享。

（4）云计算为我们使用网络提供了几乎无限多的可能，为存储和管理数据提供了几乎无限多的空间，也为我们完成各类应用提供了几乎无限强大的计算能力。

（5）云计算为系统安全带来了诸多好处，主要体现在以下几个方面：数据集中存储、事件快速反应、密码可靠性测试、日志、提升安全软件的性能、可靠的构造、安全性测试。

RFID

射频识别技术（Radio Frequency Identification，RFID）又称电子标签，是一种通信技术，可通过无线电讯号识别特定目标并读写相关数据，而无须识别系统与特定目标之间建立机械或光学接触。该技术是物联网的一项核心技术，很多物联网应用都离不开它。

背景

.项目的承担者。

.用户。

.本项目和其他系统或机构的关系和联系。

大数据

大数据相关概念

大数据概念

大数据的应用和技术是在互联网快速发展中诞生的，起点可追溯到2000年前后。当时互联网网页爆发式增长，每天新增约700万个网页，到2000年底全球网页数达到40亿，用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库，开始提供较为精确的搜索服务，大大提升了人们使用互联网的效率，这是大数据应用的起点。当时搜索引擎要存储和处理的数据，不仅数量之大前所未有，而且以非结构化数据为主，传统技术无法应对。为此，谷歌提出了一套以分布式为特征的全新技术体系，即后来陆续公开的分布式文件系统（Google File System，GFS）、分布式并行计算（MapReduce）和分布式数据库（BigTable）等技术，以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础，可以认为是大数据技术的源头。

伴随着互联网产业的崛起，这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用，取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值，于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术，取得初步成效。与此同时，业界也在不断对谷歌提出的技术体系进行扩展，使之能在更多的场景下使用。2011年，麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结，随即在全世界兴起了一股大数据热潮。

虽然大数据已经成为全社会热议的话题，但至今“大数据”尚无公认的统一定义。我们认为，认识大数据要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据；处理大数据需采用新型计算架构和智能算法等新技术；大数据的应用强调以新的理念应用于辅助决策、发现新的知识，更强调在线闭环的业务流程优化。因此可以说，大数据不仅“大”，而且“新”，是新资源、新工具和新应用的综合体。

大数据特点

业界通常用Volume、Variety、Value、Velocity这4个V来概括大数据的特点：

（1）数据体量巨大（Volume）。IDC研究表明，数字领域存在着1.8万亿吉字节的数据。企业数据正在以55%的速度逐年增长。实体世界中，数以百万计的数据采集传感器被嵌入到各种设备中，在数字化世界中，消费者每天的生活（通信、上网浏览、购物、分享、搜索）都在产生着数量庞大的数据。

（2）数据类型繁多（Variety）。数据可分为结构化数据、半结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，音频、视频、图片、地理位置信息等类型的非结构化数据量占比达到了80%，并在逐步提升，有用信息的提取难度不断增大。

（3）价值密度低（Value）。价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒。

（4）时效性高（Velocity）。这是大数据区分于传统数据挖掘最显著的特征。数据的价值除了与数据规模相关，还与数据处理周期成正比关系。也就是，数据处理的速度越快、越及时，其价值越大，发挥的效能越大。

大数据技术

大数据技术体系

大数据来源于互联网、企业系统和物联网等信息系统，经过大数据处理系统的分析挖掘，产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看，大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节，包括数据准备、数据存储与管理、计算处理、数据分析和知识展现，技术体系如下图所示。每个环节都面临不同程度的技术上的挑战。

大数据技术框架

（1）数据准备环节。在进行存储和处理之前，需要对数据进行清洗、整理，传统数据处理体系中称为ETL（Extracting，Transforming，Loading）过程。与以往数据分析相比，大数据的来源多种多样，包括企业内部数据库、互联网数据和物联网数据，不仅数量庞大、格式不一，质量也良莠不齐。这就要求数据准备环节一方面要规范格式，便于后续存储管理，另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。

（2）数据存储与管理环节。当前全球数据量正以每年超过50%的速度增长，存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据，还要适应多样化的非结构化数据管理需求，具备数据格式上的可扩展性。

（3）计算处理环节。需要根据处理的数据类型和分析目标，采用适当的算法模型，快速处理数据。海量数据处理要消耗大量的计算资源，对于传统单机或并行计算技术来说，速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构，但在一些特定场景下的实时性还需要大幅提升。

（4）数据分析环节。数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识，是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集，挖掘更侧重根据先验知识预先人工建立模型，然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析，往往缺乏先验知识，很难建立显式的数学模型，这就需要发展更加智能的数据挖掘技术。

（5）知识展现环节。在大数据服务于决策支撑场景下，以直观的方式将分析结果呈现给用户，是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中，一般是由机器根据算法直接应用分析结果而无需人工干预，这种场景下知识展现环节则不是必需的。

总的来看，大数据对数据准备环节和知识展现环节来说只是量的变化，并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大，需要对技术架构和算法进行重构，是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3个环节面临的挑战及发展趋势。

大数据技术创新

大数据技术体系纷繁复杂，其中一些技术创新格外受到关注。随着社交网络的流行导致大量非结构化数据出现，传统处理方法难以应对，数据处理系统和分析技术开始不断发展。从2005年Hadoop的诞生开始，形成了数据分析技术体系这一热点。伴随着量急剧增长和核心系统对吞吐量以及时效性的要求提升，传统数据库需向分布式转型，形成了事务处理技术体系这一热点。然而时代的发展使得单个企业甚至行业的数据都难以满足要求，融合价值更加显现，形成了数据流通技术体系这一热点。

数据分析技术

从数据在信息系统中的生命周期看，数据分析技术生态主要有5个发展方向，包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术，兼顾离线和实时数据的采集和传输。在存储层，HDFS已经成为了大数据磁盘存储的事实标准，针对关系型以外的数据模型，开源社区形成了K-V（key-value）、列式、文档、图这四类NoSQL数据库体系，Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面，Spark已经取代MapReduce成为了大数据平台统一的计算平台，在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案，Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理（Massively Parallel Processor，MPP）数据库竞争激烈，Hive还是这个领域当之无愧的王者。在数据可视化领域，敏捷商业智能（Business Intelligence，BI）分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示，是目前最受欢迎的可视化展现方式。

相比传统的数据库和MPP数据库，Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持，但失去了传统数据库对数据精细化的操作，包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展，数据分析的技术体系渐渐在完善自己的不足，也融合了很多传统数据库和MPP数据库的优点，从技术的演进来看，大数据技术正在发生以下变化：

（1）更快。Spark已经替代MapReduce成为了大数据生态的计算框架，以内存计算带来计算性能的大幅提高，尤其是Spark 2.0增加了更多了优化器，计算性能进一步增强。

（2）流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力，但其本质还是小批的架构，在流处理要求越来越高的现在，Spark Streaming受到Flink激烈的竞争。

（3）硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种，受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘，NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化，充分兼容和利用这些硬件的特性。

（4）SQL的支持。从Hive诞生起，Hadoop生态就在积极向SQL靠拢，主要从兼容标准SQL语法和性能等角度来不断优化，层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来，在支持SQL和数据精细化操作方面有很大的优势。

（5）深度学习的支持。深度学习框架出现后，和大数据的计算平台形成了新的竞争局面，以Spark为首的计算平台开始积极探索如何支持深度学习能力，TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接，更好地解决了两者数据传递的问题。

事务处理技术

随着移动互联网的快速发展，智能终端数量呈现爆炸式增长，银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例，移动支付以及普惠金融的快速发展，为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为，生产业务系统面临大规模并发事务处理要求的挑战。

传统事务技术模式以集中式数据库的单点架构为主，通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效（底层硬件的变化），单机性能扩展的模式走到了尽头，而数据交易规模的急速增长（上层应用的变化）要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过10多年的实践，积累了丰富的分布式架构的经验，Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。

如下图所示，经过多年发展，当前分布式事务架构正处在快速演进的阶段，综合学术界以及产业界工作成果，目前主要分为三类：

事务型数据库架构演进图

（1）基于原有单机事务处理关系数据库的分布式架构改造：利用原有单机事务处理数据库的成熟度优势，通过在独立应用层面建立起数据分片和数据路由的规则，建立起一套复合型的分布式事务处理数据库的架构。

（2）基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层，将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中，提供对业务透明和非侵入式的数据管理和操作／处理能力。

（3）基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型，从数据组织和管理的最核心理论层面，构造出完全不同于传统单机事务数据库的架构，从数据库的数据模型的根源上解决分布式关系数据库的架构。

分布式事务数据库进入到各行各业面临诸多挑战，其一是多种技术路线，目前没有统一的定义和认识；其二是除了互联网公司有大规模使用外，其他行业的实践刚刚开始，需求较为模糊，采购、使用、运维的过程缺少可供参考的经验，需要较长时间的摸索；其三是缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品，规范市场，促进产品的进步。故应用上述技术进行交易类业务进行服务时，应充分考虑“可持续发展”“透明开放”“代价可控”三原则，遵循“知识传递先行”“测试评估体系建立”“实施阶段规划”三步骤，并认识到“应用过度适配和改造”“可用性管理策略不更新”“外围设施不匹配”三个误区。

大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷，未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。

数据流通技术

数据流通是释放数据价值的关键环节。然而，数据流通也伴随着权属、质量、合规性、安全性等诸多问题，这些问题成为了制约数据流通的瓶颈。为了解决这些问题，大数据从业者从诸多方面进行了探索。目前来看，从技术角度的探索是卓有成效和富有潜力的。

从概念上讲，基础的数据流通只存在数据供方和数据需方这两类角色，数据从供方通过一定手段传递给需方。然而，由于数据权属和安全的需要，不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造，形成闭合环路。

安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身，因此对数据需方来说，本身不触碰数据、但可以完成对数据的加工分析操作，也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算，通过独特的分布式计算技术和密码技术，有区分地、定制化地提供安全性服务，使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算，解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录，相互验证信息有效性，既进行了数据信息防伪，又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。

大数据产业体系

随着大数据技术不断演进和应用持续深化，以数据为核心的大数据产业体系正在加速构建。大数据产业体系中主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色，分别向大数据的应用者提供大数据服务、解决方案和数据资源，如下图所示。

大数据产业体系

大数据解决方案提供商

大数据解决方案提供商面向企业用户提供大数据一站式部署方案，覆盖数据中心和服务器等硬件、数据存储和数据库等基础软件、大数据分析应用软件以及技术运维支持等方面内容。其中，大数据基础软件和应用软件是大数据解决方案中的重点内容。当前，企业提供的大数据解决方案大多基于Hadoop开源项目，例如，IBM基于Hadoop开发的大数据分析产品BigInsights、甲骨文融合了Hadoop开源技术的大数据一体机、Cloudera的Hadoop商业版等。大数据解决方案提供商中，主要包括传统IT厂商和新兴的大数据创业公司。传统IT厂商主要有IBM、HP等解决方案提供商以及甲骨文、Teradata等数据分析软件商。它们大多以原有IT解决方案为基础，融合Hadoop，形成融合了结构化和非结构化两条体系的“双栈”方案。通过一系列收购来提升大数据解决方案服务能力，成为这些IT巨头的主要策略。

国际上也诞生了一批专门提供非结构化数据处理方案的新兴创业公司。这些公司包括Cloudera、Hortonworks、MapR等，它们主要基于Hadoop开源项目，开发Hadoop商业版本和基于Hadoop的大数据分析工具，单独或者与传统IT厂商合作提供企业级大数据解决方案。这些新兴大数据企业成为资本市场的热点。国内华为、联想、浪潮、曙光等一批IT厂商也都纷纷推出大数据解决方案。但总体上，国内大数据解决方案提供商实力较弱，产品一些关键行业还未形成影响力，新兴大数据解决方案初创企业也凤毛麟角。

大数据处理服务提供商

大数据处理服务提供商主要以服务的方式为企业和个人用户提供大数据海量数据分析能力和大数据价值挖掘服务。按照服务模式进行划分，大数据处理服务提供商可以分为以下四类。

第一类是在线纯分析服务提供商。此类服务商主要是互联网企业、大数据分析软件商和新创企业等，通过SaaS或PaaS云服务形式为用户提供服务。典型的服务如谷歌提供的大数据分析工具Big Query、亚马逊提供的云数据仓库服务RedShift、微软的Azure HDInsigh1010data提供的商业智能服务等。国内一些云服务商也逐步开始提供大数据相关云服务，如阿里云的开放数据处理服务（ODPS）、百度的大数据引擎、腾讯的数据云等。

第二类是既提供数据又提供分析服务的在线提供商。此类服务商主要是拥有海量用户数据的大型互联网企业，主要以SaaS形式为用户提供大数据服务，服务背后以自有大数据资源为支撑。典型的服务如谷歌Facebook的自助式广告下单服务系统、Twitter基于实时搜索数据的产品满意度分析等。国内百度推出的大数据营销服务“司南”就属于此类。

第三类是单纯提供离线分析服务的提供商。此类服务商主要为企业提供专业、定制化的大数据咨询服务和技术支持，主要集中为大数据咨询公司、软件商等，例如专注于大数据分析的奥浦诺管理咨询公司（Opera Solutions）、数据分析服务提供商美优管理顾问公司（Mu Sigma）等。

第四类是既提供数据又提供离线分析服务的提供商。此类服务商主要集中在信息化水平较高、数据较为丰富的传统行业。例如日本日立集团（Hitachi）于2013年6月初成立的日立创新分析全球中心，其广泛收集汽车行驶记录、零售业购买动向、患者医疗数据、矿山维护数据和资源价格动向等庞大数据信息，并基于收集的海量信息开展大数据分析业务。又如美国征信机构Equifax基于全球8000亿条企业和消费者行为数据，提供70余项面向金融的大数据分析离线服务。

大数据资源提供商

既然数据成为了重要的资源和生产要素，必然会产生供应与流通需求。数据资源提供商因此应运而生，它是大数据产业的特有环节，也是大数据资源化的必然产物。数据资源提供商，包括数据拥有者和数据流通平台两个主要类型。数据拥有者可以是企业、公共机构或者个人。数据拥有者通常直接以免费或有偿的方式为其他有需求的企业和用户提供原数据或者处理过的数据。例如美国电信运营商Verizon推出的大数据应用精准营销洞察（Precision Market Insights），将向第三方企业和机构出售其匿名化和整合处理后的用户数据。国内阿里巴巴公司推出的淘宝量子恒道、数据魔方和阿里数据超市等，属于此种类型。

数据数据流通平台是多家数据拥有者和数据需求方进行数据交换流通的场所。按平台服务目的不同，可分为政府数据开放平台和数据交易市场。

（1）政府数据开放平台。主要提供政府和公共机构的非涉密数据开放服务，属于公益性质。全球不少国家已经加入到开放政府数据行动，推出公共数据库开放网站，例如美国数据开放网站Data.gov已有超过37万个数据集、1209个数据工具、309个网页应用和137个移动应用，数据源来自171个机构。国内地方政府数据开放平台开始出现，如国家统计局的国家数据网站、北京市政府和上海市政府的信息资源平台等数据开放平台正在建设过程中。

（2）数据交易市场。商业化的数据交易活动催生了多方参与的第三方数据交易市场。国际上比较有影响力的有微软的AzureData Marketplace、被甲骨文收购的BlueKai、DataMarket、Factual、Infochimps、DataSift等等，主要提供地理空间、营销数据和社交数据的交易服务。大数据交易市场发展刚刚起步，在市场机制、交易规则、定价机制、转售控制和隐私保护等方面还有很多工作要做。国内，2014年2月，在北京市和中关村管委会指导下，中关村大数据交易产业联盟成立，将在国内推动国内大数据交易相关规范化方面开展工作。

大数据对电子商务的发展影响

大数据更好地支撑了电子商务营销精准化和实时化

电子商务发展到今天，其营销平台、营销方式都发生了很大的改变。电子商务平台、移动终端、社交网络以及物联网等设备的使用大大增加了消费者数据，而云计算、复杂分析系统等大数据处理手段，为人们整合各个渠道消费者数据、形成有用的营销信息提供了可能。与传统的电子商务数据处理方式相比，大数据处理方式更快捷、更精细，它给我们科学分析消费者偏好及其消费行为轨迹提供巨大帮助。特别是在移动设备进入电子商务领域后，地理位置服务信息处理使电子商务一对一精准营销成为可能，极大程度提升了电子商务营销的准确性，有力地支撑了电子商务营销的精准化与实时化。

大数据更好地支撑了电子商务高度差异化和个性化

在传统电子商务营销背景下，企业与消费者总是处于双向信息不对称状态。一方面企业很难掌握消费者的消费行为和消费习惯，另一方面消费者了解企业产品的信息渠道相对较窄。进入大数据时代后，企业可以通过科学分析海量数据来获得更加丰富的消费者信息，从而针对不同消费者消费需求，提供特定的产品和服务，以最大限度地提高其满意度。消费者可以通过移动终端等渠道及时向电子商务企业传递信息，为企业进行个性化服务提供依据。由此可以推断，未来电子商务价值创造将会围绕消费者个性化需求展开，并将消费者纳入到企业产品设计与生产过程，实现共同的价值创造。

大数据进一步推进了价值链、供应链一体化

大数据等新型信息技术可以促进各个渠道的跨界数据整合，使所有围绕消费者消费行为的价值链、供应链企业成为一个整体。如大数据可以将地理位置不同、从事行业不同的研发、生产、加工、营销、仓储、配送、服务等各环节企业在满足消费者消费需求这一共同目的下组成动态联盟，通过彼此协作和创造，真正为消费者提供个性化产品和服务。相对于传统意义上的供应链，通过大数据连接起来的动态联盟反应速度更快、智能化程度更高，这既有利于联盟内企业的信息、资源共享，也有利于联盟内企业的分工协作，从而创造新的价值。

大数据推动了新型增值服务模式发展

电子商务中应用众多的新型信息技术产生了生产、消费、金融、物流等一系列大数据，这些本属于不同领域的大数据在被综合运用的过程中会产生新的融合，从而形成新的增值服务。如电子商务中产生的买卖双方信息、物流信息、金融信息，如果加以整合肯定能够使企业在市场竞争中处于比较有利的位置。在此基础上，企业还可以积极开展类似金融信用服务、供应链整合等增值服务。随着大数据的广泛应用，加之大数据分析手段创新，已经产生了互联网金融等多个增值服务，给包括电子商务企业在内的众多中小企业提供了新的发展空间。假以时日，大数据还会催生更多新型增值服务模式、产生众多的产业。

大数据处理技术

大数据生命周期涉及众多技术，当前大数据发展迅速，在大数据处理的各个环节上涌现出众多技术，本小节做简要介绍。

从大数据生命周期的角度看，大数据处理的基本流程包括：数据采集、数据分析和数据解释。大数据处理流程图如下图所示。

大数据处理基本流程

数据采集

数据采集阶段的主要任务就是获取各个不同数据源的各类数据，按照统一的标准进行数据的转换、清洗等工作，以形成后续数据处理的符合标准要求的数据集。

原始数据往往形式多样，包括：结构化数据，例如业务系统中的交易明细、操作日志等；非结构化数据，例如企业中的各种文档数据，视频、音频等数据；半结构化数据，例如Web页面的HTML文档等。而且其来源和种类也存在很大差距。

当前的大数据处理中，数据的种类一般包括：

.传感数据：传感数据是由感知设备或传感设备感受、测量及传输的数据。这些感知设备或传感设备实时和动态地收集大量的时序传感数据资源。传感数据种类有很多，如人身体的传感数据，网络信号的传感数据和气象的传感数据等。近年来随着物联网、工业互联网的日益发展，传感数据越来越丰富，人们也逐渐发现了其数据价值。

.业务数据：企业业务系统在执行日常业务活动时产生的大量数据，包括设备工况、操作记录、交易流水，以及用户在使用系统时遗留下来的大量行为数据。这些数据反映了人或者物的属性、偏好，在推荐或预测系统中有很大的利用价值。

.人工输入数据：用户通过软件人机交互等主动输入的数据，典型代表是微博、微信、抖音等系统的用户输入数据。随着互联网的不断深入，手机APP应用的不断发展，这种用户产生的数据也越来越多，越来越丰富。

.科学数据：通过科学研究和科学实验不断搜集和汇聚的数据，一般是以电子记录或文本的形式存在。

从大数据的来源进行划分，其种类包括：

.企业数据：企业自建的各种业务系统，如ERP、在线交易系统、招聘系统等，也会产生各种数据集。

.政府数据：政府信息化已发展多年，构建了很多业务数据。近年来政府也在不断地建设大数据中心，发布各种数据，包括人社、医疗、税务、工商、财务等。

.互联网数据：互联网数据是当前大数据应用的一个重要的数据来源。互联网上存在各种应用沉淀下来的大量数据，包括门户网站、社交信息、电商网站等等。

其中，企业数据一般属于内部数据，而政府数据、互联网数据往往属于外部数据。

从上面大数据的分类可以看出，数据来源渠道众多，差异非常大。因此，数据采集的主要任务就是进行数据的汇聚，为后续的数据处理做好准备。这个阶段工作中主要涉及的技术包括针对内部数据的数据集成和ETL技术，针对外部数据，尤其是互联网数据的爬虫技术。

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。在企业数据集成领域，已经有很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统，这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

ETL（Extract Transform Load）用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

基本的ETL体系结构示意图如下图所示。

ETL体系结构示意图

ETL过程中的主要环节是数据抽取、数据转换和加工、数据加载。一般ETL工具中，围绕上述三个核心环节进行了功能上的扩充，例如工作流、调度引擎、规则引擎、脚本支持和统计信息等，尽量降低ETL阶段的工作强度，减少工作量。

数据转换和加工是三个环节的重点，因为抽取的数据中往往存在各种问题，例如数据格式不一致、数据输入错误、字段不匹配、字段类型不符、数据不完整等。ETL一般以组件化的方式实现数据转换和加工。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等，并以工作流的形式进行各种方式的组合，以满足数据转换的需求。有的ETL工具也提供脚本支持，满足用户定制化的数据转换需求。

常用的ETL工具有三种：DataStage、Informatica PowerCenter和Kettle。

.DataStage：IBM公司的DataStage是一种数据集成软件平台，专门针对多种数据源的ETL过程进行了简化和自动化，同时提供图形框架，用户可以使用该框架来设计和运行用于变换和清理、加载数据的作业。它能够处理的数据源有主机系统的大型数据库、开发系统上的关系数据库和普通的文件系统。

.Informatica PowerCenter：Informatica公司开发的为满足企业级需求而设计的企业数据集成平台。可以支持各类数据源，包括结构化、半结构化和非结构化数据。提供丰富的数据转换组件和工作流支持。

.Kettle：Kettle是一款国外开源的ETL工具，纯Java编写，可以在Windows、Linux、UNIX上运行，数据抽取高效稳定。管理来自不同数据库的数据，提供图形化的操作界面，提供工作流支持。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。Kettle包括4个产品：Spoon、Pan、Chef、Kitchen。Spoon通过图形界面来设计ETL转换过程（Transformation）。Pan批量运行由Spoon设计的ETL转换（例如使用一个时间调度器），是一个后台执行的程序，没有图形界面。Chef创建任务（Job），任务通过允许每个转换、任务、脚本等等，更有利于自动化更新数据仓库的复杂工作。Kitchen批量使用由Chef设计的任务（例如使用一个时间调度器）。

由于很多大数据应用都需要来自互联网的外部数据，因此，爬虫技术也称为数据采集阶段的一个主要基础性的技术。

网络爬虫（又称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。网络爬虫基本的体系结构如下图所示。

爬虫框架示意图

爬虫调度器主要负责统筹其他四个模块的协调工作。URL管理器负责管理URL链接，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的接口。HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。HTML解析器用于从HTML下载器中获取已经下载的HTML网页，并从中解析出新的URL链接交给URL管理器，解析出有效数据交给数据存储器。

网络爬虫大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、深层网络（Deep Web）爬虫。实际的大数据应用由于往往聚焦于某个特定的应用目标，其采用的网络爬虫系统通常是聚焦网络爬虫、深层网络爬虫技术相结合实现的。

通用网络爬虫，爬行对象从一些种子URL扩充到整个Web，主要为门户站点搜索引擎和大型Web服务提供商采集数据。通用网络爬虫的结构大致可以分为页面爬行模块、页面分析模块、链接过滤模块、页面数据库、URL队列、初始URL集合几个部分。为提高工作效率，通用网络爬虫会采取一定的爬行策略。常用的爬行策略有：深度优先策略、广度优先策略。

聚焦网络爬虫，是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，可以很好地满足一些特定人群对特定领域信息的需求。聚焦网络爬虫和通用网络爬虫相比，增加了链接评价模块以及内容评价模块。聚焦爬虫爬行策略实现的关键是评价页面内容和链接的重要性，常见的爬行策略有基于内容评价的爬行策略、基于链接结构评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略等。

深层网络爬虫用于专门爬取那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。Deep Web爬虫爬行过程中最重要的部分就是表单填写，包含两种类型：基于领域知识的表单填写，此方法一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单；基于网页结构分析的表单填写，此方法一般无领域知识或仅有有限的领域知识，将网页表单表示成DOM树，从中提取表单各字段值。常见的爬虫工具有如下三种：

.Nutch：一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch有Hadoop支持，可以进行分布式抓取、存储和索引。Nutch采用插件结构设计，高度模块化，容易扩展。

.Scrapy：是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便地修改。它提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫、Web2.0爬虫等。

.Larbin：Larbin是一种开源的网络爬虫／网络蜘蛛，用C++语言实现。Larbin目的是能够跟踪页面的URL进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。

当数据采集到以后，需要对采集并清洗后的数据进行存储。具体的存储技术在13.1.3云关键技术中的分布式数据存储中介绍，此处不再详述。

数据分析

数据分析是大数据处理过程中的重要组成部分，是大数据价值体现的核心环节。经典的机器学习方法是最常见的数据智能分析方法，近年来迅速发展的深度学习在某些领域取得了惊人的效果。在应用开发上，也形成了几种主流的大数据处理框架。

机器学习中算法很多，也有很多不同种类的分类方法，一般分为监督学习和非监督学习（或无监督学习）。其中，监督学习是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练，是从标记的训练数据来推断一个功能的机器学习任务。根据训练集中的标识是连续的还是离散的，可以将监督学习分为两类：回归和分类。

回归是研究一个或一组随机变量对一个或一组属性变量的相依关系的统计分析方法。线性回归模型是假设自变量和因变量满足线性关系。Logistic回归一般用于分类问题，而其本质是线性回归模型，只是在回归的连续值结果上加了一层函数映射。

分类是机器学习中的一个重要问题，其过程也是从训练集中建立因变量和自变量的映射过程，与回归问题不同的是，分类问题中因变量的取值是离散的，根据因变量的取值范围，可将分类问题分为二分类问题、三分类问题和多分类问题。根据分类采用的策略和思路的不同，分类算法大致包括：基于示例的分类方法，如K最近邻（K-Nearest Neighbor，KNN）方法；基于概率模型的分类方法，如朴素贝叶斯、最大期望算法EM等；基于线性模型的分类方法，如SVM；基于决策模型的分类方法，如C4.5、AdaBoost、随机森林等。

在实际应用中，缺乏足够的先验知识，因此难以人工标注类别或进行人工类别标注的成本太高，学习模型是为了推断出数据的一些内在结构。因此，根据类别未知（没有被标记）的训练样本解决模式识别中的各种问题，称为无监督学习。常见的算法有：关联规则挖掘，是从数据背后发现事物之间可能存在的关联或联系。比如数据挖掘领域著名的“啤酒-尿不湿”的故事。K-means算法，基本思想是两个对象的距离越近，其相似度越大；相似度接近的若干对象组成一个簇；算法的目标是从给定数据集中找到紧凑且独立的簇。

近年来发展起来的深度学习算法是基于原有的神经网络算法发展起来的，包括BP神经网络、深度神经网络。

BP神经网络是一种反向传播的前馈神经网络，所谓前馈神经网络就是指各神经元分层排列，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层。所谓反向传播是指从输出层开始沿着相反的方向来逐层调整参数的过程。BP神经网络由输入层、隐含层和输出层组成。

深度神经网络主要包括卷积神经网络、循环神经网络等，也包括它们的各种改进模型。

（1）卷积神经网络（Convolutional Neural Network，CNN）是一种前馈神经网络，其结构包括输入层、卷积层、池化层、全连接层以及输出层等。该算法在图像处理、模式识别等领域取得了非常好的效果。在CNN的发展过程中，最经典的模型是AlexNet，针对不同的应用需要，又产生了全卷积模型（FCN）、残差神经网络模型（ResNet）、DeepFace等模型结构。

（2）循环神经网络（Recurrent Neural Network，RNN）是一种人工神经网络，在该网络中，除了层间的连接以外，同层各单元之间连接构成了一个有向图序列，允许它显示一个时间序列的动态时间行为。RNN可以使用它们的内部状态来处理输入序列，这使得它们适用于诸如未分割的、连续的手写识别或语音识别等任务。传统的RNN是很难训练的，往往会出现梯度消失或梯度爆炸等情况，因此又出现了多个扩展版本，如BiRNN、LSTM等。

随着深度学习的快速发展和应用的普及，开始出现了一些深度学习框架。深度学习框架是一种界面、库或工具，可以使用户在无需深入了解底层算法的细节的情况下，能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型，为模型的实现提供了一种清晰而简洁的方法。常见的深度学习框架有：Caffe，是一个广泛使用的开源深度学习框架，支持常用的网络模型，比如Lenet、AlexNet、ZFNet、VGGNet、GoogleNet、ResNet等；TensorFlow，是一个使用数据流图进行数值计算的开源软件库，图中的节点表示数学运算，而图边表示节点之间传递的多维数据阵列（又称张量），其为大多数复杂的深度学习模型预先编写好了代码，比如递归神经网络和卷积神经网络，灵活架构使我们能够在一个或多个CPU（以及GPU）上部署深度学习模型；Keras，是一个由Python编写的开源人工神经网络库，可以作为TensorFlow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras完全模块化并具有可扩展性，并试图简化复杂算法的实现难度。

随着大数据技术的广泛深入，大数据应用已经形成了庞大的生态系统，很难用一种架构或处理技术覆盖所有应用场景。下文介绍几种当前主流的大数据分布式计算架构。

Apache Hadoop是用于开发可靠、可伸缩、分布式计算的开源软件，是一套用于在由通用硬件构建的大型集群上运行应用程序的框架。包含的模块有：Hadoop分布式文件系统（HDFS），提供对应用程序数据的高吞吐量访问的分布式文件系统；Hadoop YARN，作业调度和集群资源管理的框架；Hadoop MapReduc，一个用于大型数据集并行处理的基于YARN的系统；Hadoop Ozone，Hadoop的对象存储；Hadoop Submarine，Hadoop的机器学习引擎。

Apache Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。Spark是一个分布式的内存计算框架，是专为大规模数据处理而设计的快速通用的计算引擎。Spark的计算过程保持在内存中，不需要读写HDFS，减少了硬盘读写，提升了计算速度。除了Map和Reduce操作外，Spark还延伸出如filter、flatMap、count、distinct等更丰富的操作。同时通过Spark Streaming支持处理数据流。

Apache Storm是一个免费的开源分布式实时计算系统，可以可靠地处理无边界的数据流变，可以实现实时处理。Apache Storm速度很快，它是可扩展的，容错的，并且易于设置和操作。Apache Storm应用于实时分析、在线机器学习、连续计算、分布式RPC、ETL等等。Storm的核心是拓扑（Topology），拓扑被提交给集群，由集群中的主控节点分发代码，将任务分配给工作节点执行。

数据解释

数据解释的主要工作是对大数据处理后产生的输出数据进行处理，采用合理合适的人机交互方式将结果展现给用户，帮助用户做出相应的决策。

在传统的数据挖掘、商业智能和大数据处理领域，可视化一直是重要的方法和手段。信息可视化是指对抽象数据使用计算机支持的、交互的、可视化的表示形式以增强认知能力。为了清晰有效地传递信息，数据可视化使用统计图形、图表、信息图表和其他工具。可以使用点、线或条对数字数据进行编码，以便在视觉上传达定量信息。有效的可视化可以帮助用户分析和推理数据和证据。它使复杂的数据更容易理解和使用。用户可能有特定的分析任务（如进行比较或理解因果关系），以及该任务要遵循的图形设计原则。表格通常用于用户查找特定的度量，而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

关于数据可视化的适用范围，当前存在着不同的划分方法。一个常见的关注焦点就是信息的呈现。例如，迈克尔·弗兰德利（2008）提出了数据可视化的两个主要的组成部分：统计图形和主题图。另外，《Data Visualization：Modern Approaches》一文则概括阐述了数据可视化的下列主题：思维导图、新闻的显示、数据的显示、连接的显示、网站的显示、文章与资源、工具与服务。所有这些主题全都与图形设计和信息表达密切相关。从应用领域来讲，又可分为文本数据可视化，如标签云；网络数据可视化，如H状树、气球图、放射图等；时空数据可视化，如流式地图、堆积图等；多维数据可视化，如散点图等。

常见的大数据可视化工具主要分为三类：底层程序框架，如OpenGL、Java2D等；第三方库，如D3、ECharts、HighCharts、Google Chart API等；软件工具，如Tableau、Gephi等。

物联网

物联网概念及关键技术

（1）物联网概念。物联网（IoT: Internet of Things）即“物物相联之网”，指通过射频识别（RFID）、红外感应器、全球定位系统、激光扫描器等信息传感设备，按约定的协议，把物与物、人与物进行智能化连接，进行信息交换和通信，以实现智能化识别、定位、跟踪、监控和管理的一种新兴网络。从计算机的协同处理来划分，可分为独立计算、互联网和物联网时代，如下图所示。

物联网时代的划分图

物联网不是一种物理上独立存在的完整网络，而是架构在现有互联网或下一代公网或专网基础上的联网应用和通信能力，是具有整合感知识别、传输互联和计算处理等能力的智能型应用。

物联网概念的3个方面：

.物：客观世界的物品，主要包括人、商品、地理环境等。

.联：通过互联网、通信网、电视网以及传感网等实现网络互联。

.网：首先，应和通信介质无关，有线无线都可。其次，应和通信拓扑结构无关，总线、星型均可。最后，只要能达到数据传输的目的即可。

（2）物联网架构。物联网从架构上面可以分为感知层、网络层和应用层，如下图所示。

物联网架构

感知层：负责信息采集和物物之间的信息传输，信息采集的技术包括传感器、条码和二维码、RFID射频技术、音视频等多媒体信息，信息传输包括远近距离数据传输技术、自组织组网技术、协同信息处理技术、信息采集中间件技术等传感器网络。是实现物联网全面感知的核心能力，是物联网中包括关键技术、标准化方面、产业化方面亟待突破的部分，关键在于具备更精确、更全面的感知能力，并解决低功耗、小型化和低成本的问题。

网络层：是利用无线和有线网络对采集的数据进行编码、认证和传输，广泛覆盖的移动通信网络是实现物联网的基础设施，是物联网三层中标准化程度最高、产业化能力最强、最成熟的部分，关键在于为物联网应用特征进行优化和改进，形成协同感知的网络。

应用层：提供丰富的基于物联网的应用，是物联网发展的根本目标，将物联网技术与行业信息化需求相结合，实现广泛智能化应用的解决方案集，关键在于行业融合、信息资源的开发利用、低成本高质量的解决方案、信息安全的保障以及有效的商业模式的开发。

各个层次所用的公共技术包括编码技术、标识技术、解析技术、安全技术和中间件技术。

（3）物联网关键技术。感知层作为物联网架构的基础层面，主要是达到信息采集并将采集到的数据上传的目的，感知层主要包括：自动识别技术产品和传感器（条码、RFID、传感器等），无线传输技术（WLAN、Bluetooth、ZigBee、UWB），自组织组网技术和中间件技术，如下图所示。

物联网关键技术设备

物联网应用

物联网的产业链（如下图所示）包括传感器和芯片、设备、网络运营及服务、软件与应用开发和系统集成。作为物联网“金字塔”的塔座，传感器将是整个链条需求总量最大和最基础的环节。将整体产业链按价值分类，硬件厂商的价值较小，占产业价值大头的公司通常都集多种角色为一体，以系统集成商的角色出现。

物联网产业链

（1）智能微尘：智能微尘（smart dust）（2001，美国国防部计划）是指具有电脑功能的一种超微型传感器，它可以探测周围诸多环境参数，能够收集大量数据，进行适当计算处理，然后利用双向无线通信装置将这些信息在相距1000英尺的微尘器件间往来传送。智能微尘的应用范围很广，除了主要应用于军事领域外，还可用于健康监控、环境监控、医疗等许多方面。

（2）智能电网：物联网技术在传感技术、电网通信整合、安全技术和先进控制方法等关键技术领域助力美国新一代智能电网的建设，使配电系统进入计算机智能化控制的时代，以美国的可再生能源为基础，实现美国发电、输电、配电和用电体系的优化管理。

（3）智慧物流：大型零售企业沃尔玛，拥有全美最大的送货车队，车辆全部安装了综合了GPS卫星定位、移动通信网络等功能的车载终端，调度中心可实时掌握车辆及货物的情况高效利用物流资源设施，使沃尔玛的配送成本仅占销售额的2%，远低于同行高达10%甚至20%的物流成本。提高物流效率，实现物流的全供应链流程管理支持。

（4）智能家居：提供基于网络的通信，进行家居和建筑的自动化控制和外部共享信息，应用包括家庭安防类、信息服务类和家电设备管理等应用。

（5）智能交通：瑞典在解决交通拥挤问题时，通过使用RFID技术、激光扫描、自动拍照和自由车流路边系统，自动检测标识车辆，向工作进出市中心的车辆收取费用。提供汽车信息服务，支持交通管理，车辆控制和安全系统，公共交通管理，商用车运营管理，交通应急管理以及出行和交通需求管理等领域。

（6）智慧农业：荷兰阿姆斯特丹对城市建筑有另一个层面的应用，即利用城市内废弃建筑的多层结构提高种植面积，并利用物联网的感知与智能技术就地改造建筑内的LED照明设备与供水排水管道，形成自动根据天气条件补充光照与水分的城市农业。整合新型传感器技术，全流程的牧业管理和支持精细农业，应用涉及食品安全溯源，环境检测等应用。

（7）环境保护：环境监测、河流区域监控、森林防火、动物监测等应用。

（8）医疗健康：基于RFID技术的医疗健康服务管理，应用涉及医疗健康服务管理，药品和医疗器械管理以及生物制品管理等应用。

（9）城市管理：应用物联网支撑城市综合管理，实现智慧城市。

（10）金融服务保险业：依靠物联网支撑金融和保险行业体系，实现便捷和健壮的服务，应用涉及安全监控，手机钱包等。

（11）公共安全：主要应用于机场防入侵，安全防范，城市轨道防控，城市公共安全等方面。

业务需求

网络系统是为一个集体提供服务的，对于该集体内的不同用户，需要收集特定的业务信息，包括以下内容。

（1）确定结构组织。业务需求的第一步就是获取组织结构图，了解集体中的岗位设置及岗位职责。

（2）确定关键时间点。对于大型项目，必须制订严格的项目实施计划，确定各个阶段关键的时间点。

（3）确定网络投资规模。在整个网络的设计和实施中，费用是一个主要考虑的因素。

（4）确定业务活动。主要通过对业务的分析，形成各类业务的网络需求，主要包括最大用户数、并发用户数、峰值带宽和正常带宽等。

（5）预测增长率。通过对网络发展趋势的分析，明确网络的伸缩性需求。

（6）确定网络的可靠性和可用性。网络设计人员在进行需求分析的过程中，首先应获取行业的网络可靠性和可用性标准，并根据标准与用户进行交流，确定特殊的要求。

（7）确定Web站点和Internet连接。

（8）确定网络的安全性。

（9）确定远程接入方式。

有效性

有效性是指软件产品在指定的使用环境下，使用户获得满足准确度和完整性要求的规定目标的能力。

题号导航 2012年上半年系统分析师下午试卷论文

本试卷我的完整做题情况



	第4题在手机中做本题