论数据湖技术及其应用<br /> 近年来，随着移动互联网、物联网、工业互联网等技术的不..

免费智能真题库 > 历年试卷 > 系统架构设计师 > 2019年下半年系统架构设计师下午试卷论文

第3题

知识点：大数据工业机器学习数据管理数据类型物联网移动互联网异常

论数据湖技术及其应用
近年来，随着移动互联网、物联网、工业互联网等技术的不断发展，企业级应用面临的数据规模不断增大，数据类型异常复杂。针对这一问题，业界提出“数据湖（Data Lake)”这一新型的企业数据管理技术。数据湖是一个存储企业各种原始数据的大型仓库，支持对任意规模的结构化、半结构化和非结构化数据进行集中式存储，数据按照原有结构进行存储，无须进行结构化处理；数据湖中的数据可供存取、处理、分析及传输，支撑大数据处理、实时分析、机器学习、数据可视化等多种应用，最终支持企业的智能决策过程。

问题：3.1 请围绕“数据湖技术及其应用”论题，依次从以下三个方面进行论述。
1.概要叙述你所参与管理或开发的软件项目，以及你在其中所承担的主要工作。
2.详细阐述数据湖技术，并从主要数据来源、数据模式（Schema）转换时机、数据存储成本、数据质量、面对用户和主要支撑应用类型等5个方面详细论述数据湖技术与数据仓库技术的差异。
3.详细说明你所参与的软件开发项目中，如何采用数据湖技术进行企业数据管理，并说明具体实施过程及应用效果。


知识点讲解
· 大数据 · 工业 · 机器学习 · 数据管理 · 数据类型 · 物联网 · 移动互联网 · 异常

大数据

大数据相关概念

大数据概念

大数据的应用和技术是在互联网快速发展中诞生的，起点可追溯到2000年前后。当时互联网网页爆发式增长，每天新增约700万个网页，到2000年底全球网页数达到40亿，用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库，开始提供较为精确的搜索服务，大大提升了人们使用互联网的效率，这是大数据应用的起点。当时搜索引擎要存储和处理的数据，不仅数量之大前所未有，而且以非结构化数据为主，传统技术无法应对。为此，谷歌提出了一套以分布式为特征的全新技术体系，即后来陆续公开的分布式文件系统（Google File System，GFS）、分布式并行计算（MapReduce）和分布式数据库（BigTable）等技术，以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础，可以认为是大数据技术的源头。

伴随着互联网产业的崛起，这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用，取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值，于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术，取得初步成效。与此同时，业界也在不断对谷歌提出的技术体系进行扩展，使之能在更多的场景下使用。2011年，麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结，随即在全世界兴起了一股大数据热潮。

虽然大数据已经成为全社会热议的话题，但至今“大数据”尚无公认的统一定义。我们认为，认识大数据要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据；处理大数据需采用新型计算架构和智能算法等新技术；大数据的应用强调以新的理念应用于辅助决策、发现新的知识，更强调在线闭环的业务流程优化。因此可以说，大数据不仅“大”，而且“新”，是新资源、新工具和新应用的综合体。

大数据特点

业界通常用Volume、Variety、Value、Velocity这4个V来概括大数据的特点：

（1）数据体量巨大（Volume）。IDC研究表明，数字领域存在着1.8万亿吉字节的数据。企业数据正在以55%的速度逐年增长。实体世界中，数以百万计的数据采集传感器被嵌入到各种设备中，在数字化世界中，消费者每天的生活（通信、上网浏览、购物、分享、搜索）都在产生着数量庞大的数据。

（2）数据类型繁多（Variety）。数据可分为结构化数据、半结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，音频、视频、图片、地理位置信息等类型的非结构化数据量占比达到了80%，并在逐步提升，有用信息的提取难度不断增大。

（3）价值密度低（Value）。价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断监控过程中，可能有用的数据仅仅只有一两秒。

（4）时效性高（Velocity）。这是大数据区分于传统数据挖掘最显著的特征。数据的价值除了与数据规模相关，还与数据处理周期成正比关系。也就是，数据处理的速度越快、越及时，其价值越大，发挥的效能越大。

大数据技术

大数据技术体系

大数据来源于互联网、企业系统和物联网等信息系统，经过大数据处理系统的分析挖掘，产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看，大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节，包括数据准备、数据存储与管理、计算处理、数据分析和知识展现，技术体系如下图所示。每个环节都面临不同程度的技术上的挑战。

大数据技术框架

（1）数据准备环节。在进行存储和处理之前，需要对数据进行清洗、整理，传统数据处理体系中称为ETL（Extracting，Transforming，Loading）过程。与以往数据分析相比，大数据的来源多种多样，包括企业内部数据库、互联网数据和物联网数据，不仅数量庞大、格式不一，质量也良莠不齐。这就要求数据准备环节一方面要规范格式，便于后续存储管理，另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。

（2）数据存储与管理环节。当前全球数据量正以每年超过50%的速度增长，存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据，还要适应多样化的非结构化数据管理需求，具备数据格式上的可扩展性。

（3）计算处理环节。需要根据处理的数据类型和分析目标，采用适当的算法模型，快速处理数据。海量数据处理要消耗大量的计算资源，对于传统单机或并行计算技术来说，速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构，但在一些特定场景下的实时性还需要大幅提升。

（4）数据分析环节。数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识，是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集，挖掘更侧重根据先验知识预先人工建立模型，然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析，往往缺乏先验知识，很难建立显式的数学模型，这就需要发展更加智能的数据挖掘技术。

（5）知识展现环节。在大数据服务于决策支撑场景下，以直观的方式将分析结果呈现给用户，是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中，一般是由机器根据算法直接应用分析结果而无需人工干预，这种场景下知识展现环节则不是必需的。

总的来看，大数据对数据准备环节和知识展现环节来说只是量的变化，并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大，需要对技术架构和算法进行重构，是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3个环节面临的挑战及发展趋势。

大数据技术创新

大数据技术体系纷繁复杂，其中一些技术创新格外受到关注。随着社交网络的流行导致大量非结构化数据出现，传统处理方法难以应对，数据处理系统和分析技术开始不断发展。从2005年Hadoop的诞生开始，形成了数据分析技术体系这一热点。伴随着量急剧增长和核心系统对吞吐量以及时效性的要求提升，传统数据库需向分布式转型，形成了事务处理技术体系这一热点。然而时代的发展使得单个企业甚至行业的数据都难以满足要求，融合价值更加显现，形成了数据流通技术体系这一热点。

数据分析技术

从数据在信息系统中的生命周期看，数据分析技术生态主要有5个发展方向，包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术，兼顾离线和实时数据的采集和传输。在存储层，HDFS已经成为了大数据磁盘存储的事实标准，针对关系型以外的数据模型，开源社区形成了K-V（key-value）、列式、文档、图这四类NoSQL数据库体系，Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面，Spark已经取代MapReduce成为了大数据平台统一的计算平台，在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案，Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理（Massively Parallel Processor，MPP）数据库竞争激烈，Hive还是这个领域当之无愧的王者。在数据可视化领域，敏捷商业智能（Business Intelligence，BI）分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示，是目前最受欢迎的可视化展现方式。

相比传统的数据库和MPP数据库，Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持，但失去了传统数据库对数据精细化的操作，包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展，数据分析的技术体系渐渐在完善自己的不足，也融合了很多传统数据库和MPP数据库的优点，从技术的演进来看，大数据技术正在发生以下变化：

（1）更快。Spark已经替代MapReduce成为了大数据生态的计算框架，以内存计算带来计算性能的大幅提高，尤其是Spark 2.0增加了更多了优化器，计算性能进一步增强。

（2）流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力，但其本质还是小批的架构，在流处理要求越来越高的现在，Spark Streaming受到Flink激烈的竞争。

（3）硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种，受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘，NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化，充分兼容和利用这些硬件的特性。

（4）SQL的支持。从Hive诞生起，Hadoop生态就在积极向SQL靠拢，主要从兼容标准SQL语法和性能等角度来不断优化，层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来，在支持SQL和数据精细化操作方面有很大的优势。

（5）深度学习的支持。深度学习框架出现后，和大数据的计算平台形成了新的竞争局面，以Spark为首的计算平台开始积极探索如何支持深度学习能力，TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接，更好地解决了两者数据传递的问题。

事务处理技术

随着移动互联网的快速发展，智能终端数量呈现爆炸式增长，银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例，移动支付以及普惠金融的快速发展，为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为，生产业务系统面临大规模并发事务处理要求的挑战。

传统事务技术模式以集中式数据库的单点架构为主，通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效（底层硬件的变化），单机性能扩展的模式走到了尽头，而数据交易规模的急速增长（上层应用的变化）要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过10多年的实践，积累了丰富的分布式架构的经验，Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。

如下图所示，经过多年发展，当前分布式事务架构正处在快速演进的阶段，综合学术界以及产业界工作成果，目前主要分为三类：

事务型数据库架构演进图

（1）基于原有单机事务处理关系数据库的分布式架构改造：利用原有单机事务处理数据库的成熟度优势，通过在独立应用层面建立起数据分片和数据路由的规则，建立起一套复合型的分布式事务处理数据库的架构。

（2）基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层，将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中，提供对业务透明和非侵入式的数据管理和操作／处理能力。

（3）基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型，从数据组织和管理的最核心理论层面，构造出完全不同于传统单机事务数据库的架构，从数据库的数据模型的根源上解决分布式关系数据库的架构。

分布式事务数据库进入到各行各业面临诸多挑战，其一是多种技术路线，目前没有统一的定义和认识；其二是除了互联网公司有大规模使用外，其他行业的实践刚刚开始，需求较为模糊，采购、使用、运维的过程缺少可供参考的经验，需要较长时间的摸索；其三是缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品，规范市场，促进产品的进步。故应用上述技术进行交易类业务进行服务时，应充分考虑“可持续发展”“透明开放”“代价可控”三原则，遵循“知识传递先行”“测试评估体系建立”“实施阶段规划”三步骤，并认识到“应用过度适配和改造”“可用性管理策略不更新”“外围设施不匹配”三个误区。

大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷，未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。

数据流通技术

数据流通是释放数据价值的关键环节。然而，数据流通也伴随着权属、质量、合规性、安全性等诸多问题，这些问题成为了制约数据流通的瓶颈。为了解决这些问题，大数据从业者从诸多方面进行了探索。目前来看，从技术角度的探索是卓有成效和富有潜力的。

从概念上讲，基础的数据流通只存在数据供方和数据需方这两类角色，数据从供方通过一定手段传递给需方。然而，由于数据权属和安全的需要，不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造，形成闭合环路。

安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身，因此对数据需方来说，本身不触碰数据、但可以完成对数据的加工分析操作，也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算，通过独特的分布式计算技术和密码技术，有区分地、定制化地提供安全性服务，使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算，解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录，相互验证信息有效性，既进行了数据信息防伪，又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。

大数据产业体系

随着大数据技术不断演进和应用持续深化，以数据为核心的大数据产业体系正在加速构建。大数据产业体系中主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色，分别向大数据的应用者提供大数据服务、解决方案和数据资源，如下图所示。

大数据产业体系

大数据解决方案提供商

大数据解决方案提供商面向企业用户提供大数据一站式部署方案，覆盖数据中心和服务器等硬件、数据存储和数据库等基础软件、大数据分析应用软件以及技术运维支持等方面内容。其中，大数据基础软件和应用软件是大数据解决方案中的重点内容。当前，企业提供的大数据解决方案大多基于Hadoop开源项目，例如，IBM基于Hadoop开发的大数据分析产品BigInsights、甲骨文融合了Hadoop开源技术的大数据一体机、Cloudera的Hadoop商业版等。大数据解决方案提供商中，主要包括传统IT厂商和新兴的大数据创业公司。传统IT厂商主要有IBM、HP等解决方案提供商以及甲骨文、Teradata等数据分析软件商。它们大多以原有IT解决方案为基础，融合Hadoop，形成融合了结构化和非结构化两条体系的“双栈”方案。通过一系列收购来提升大数据解决方案服务能力，成为这些IT巨头的主要策略。

国际上也诞生了一批专门提供非结构化数据处理方案的新兴创业公司。这些公司包括Cloudera、Hortonworks、MapR等，它们主要基于Hadoop开源项目，开发Hadoop商业版本和基于Hadoop的大数据分析工具，单独或者与传统IT厂商合作提供企业级大数据解决方案。这些新兴大数据企业成为资本市场的热点。国内华为、联想、浪潮、曙光等一批IT厂商也都纷纷推出大数据解决方案。但总体上，国内大数据解决方案提供商实力较弱，产品一些关键行业还未形成影响力，新兴大数据解决方案初创企业也凤毛麟角。

大数据处理服务提供商

大数据处理服务提供商主要以服务的方式为企业和个人用户提供大数据海量数据分析能力和大数据价值挖掘服务。按照服务模式进行划分，大数据处理服务提供商可以分为以下四类。

第一类是在线纯分析服务提供商。此类服务商主要是互联网企业、大数据分析软件商和新创企业等，通过SaaS或PaaS云服务形式为用户提供服务。典型的服务如谷歌提供的大数据分析工具Big Query、亚马逊提供的云数据仓库服务RedShift、微软的Azure HDInsigh1010data提供的商业智能服务等。国内一些云服务商也逐步开始提供大数据相关云服务，如阿里云的开放数据处理服务（ODPS）、百度的大数据引擎、腾讯的数据云等。

第二类是既提供数据又提供分析服务的在线提供商。此类服务商主要是拥有海量用户数据的大型互联网企业，主要以SaaS形式为用户提供大数据服务，服务背后以自有大数据资源为支撑。典型的服务如谷歌Facebook的自助式广告下单服务系统、Twitter基于实时搜索数据的产品满意度分析等。国内百度推出的大数据营销服务“司南”就属于此类。

第三类是单纯提供离线分析服务的提供商。此类服务商主要为企业提供专业、定制化的大数据咨询服务和技术支持，主要集中为大数据咨询公司、软件商等，例如专注于大数据分析的奥浦诺管理咨询公司（Opera Solutions）、数据分析服务提供商美优管理顾问公司（Mu Sigma）等。

第四类是既提供数据又提供离线分析服务的提供商。此类服务商主要集中在信息化水平较高、数据较为丰富的传统行业。例如日本日立集团（Hitachi）于2013年6月初成立的日立创新分析全球中心，其广泛收集汽车行驶记录、零售业购买动向、患者医疗数据、矿山维护数据和资源价格动向等庞大数据信息，并基于收集的海量信息开展大数据分析业务。又如美国征信机构Equifax基于全球8000亿条企业和消费者行为数据，提供70余项面向金融的大数据分析离线服务。

大数据资源提供商

既然数据成为了重要的资源和生产要素，必然会产生供应与流通需求。数据资源提供商因此应运而生，它是大数据产业的特有环节，也是大数据资源化的必然产物。数据资源提供商，包括数据拥有者和数据流通平台两个主要类型。数据拥有者可以是企业、公共机构或者个人。数据拥有者通常直接以免费或有偿的方式为其他有需求的企业和用户提供原数据或者处理过的数据。例如美国电信运营商Verizon推出的大数据应用精准营销洞察（Precision Market Insights），将向第三方企业和机构出售其匿名化和整合处理后的用户数据。国内阿里巴巴公司推出的淘宝量子恒道、数据魔方和阿里数据超市等，属于此种类型。

数据数据流通平台是多家数据拥有者和数据需求方进行数据交换流通的场所。按平台服务目的不同，可分为政府数据开放平台和数据交易市场。

（1）政府数据开放平台。主要提供政府和公共机构的非涉密数据开放服务，属于公益性质。全球不少国家已经加入到开放政府数据行动，推出公共数据库开放网站，例如美国数据开放网站Data.gov已有超过37万个数据集、1209个数据工具、309个网页应用和137个移动应用，数据源来自171个机构。国内地方政府数据开放平台开始出现，如国家统计局的国家数据网站、北京市政府和上海市政府的信息资源平台等数据开放平台正在建设过程中。

（2）数据交易市场。商业化的数据交易活动催生了多方参与的第三方数据交易市场。国际上比较有影响力的有微软的AzureData Marketplace、被甲骨文收购的BlueKai、DataMarket、Factual、Infochimps、DataSift等等，主要提供地理空间、营销数据和社交数据的交易服务。大数据交易市场发展刚刚起步，在市场机制、交易规则、定价机制、转售控制和隐私保护等方面还有很多工作要做。国内，2014年2月，在北京市和中关村管委会指导下，中关村大数据交易产业联盟成立，将在国内推动国内大数据交易相关规范化方面开展工作。

大数据对电子商务的发展影响

大数据更好地支撑了电子商务营销精准化和实时化

电子商务发展到今天，其营销平台、营销方式都发生了很大的改变。电子商务平台、移动终端、社交网络以及物联网等设备的使用大大增加了消费者数据，而云计算、复杂分析系统等大数据处理手段，为人们整合各个渠道消费者数据、形成有用的营销信息提供了可能。与传统的电子商务数据处理方式相比，大数据处理方式更快捷、更精细，它给我们科学分析消费者偏好及其消费行为轨迹提供巨大帮助。特别是在移动设备进入电子商务领域后，地理位置服务信息处理使电子商务一对一精准营销成为可能，极大程度提升了电子商务营销的准确性，有力地支撑了电子商务营销的精准化与实时化。

大数据更好地支撑了电子商务高度差异化和个性化

在传统电子商务营销背景下，企业与消费者总是处于双向信息不对称状态。一方面企业很难掌握消费者的消费行为和消费习惯，另一方面消费者了解企业产品的信息渠道相对较窄。进入大数据时代后，企业可以通过科学分析海量数据来获得更加丰富的消费者信息，从而针对不同消费者消费需求，提供特定的产品和服务，以最大限度地提高其满意度。消费者可以通过移动终端等渠道及时向电子商务企业传递信息，为企业进行个性化服务提供依据。由此可以推断，未来电子商务价值创造将会围绕消费者个性化需求展开，并将消费者纳入到企业产品设计与生产过程，实现共同的价值创造。

大数据进一步推进了价值链、供应链一体化

大数据等新型信息技术可以促进各个渠道的跨界数据整合，使所有围绕消费者消费行为的价值链、供应链企业成为一个整体。如大数据可以将地理位置不同、从事行业不同的研发、生产、加工、营销、仓储、配送、服务等各环节企业在满足消费者消费需求这一共同目的下组成动态联盟，通过彼此协作和创造，真正为消费者提供个性化产品和服务。相对于传统意义上的供应链，通过大数据连接起来的动态联盟反应速度更快、智能化程度更高，这既有利于联盟内企业的信息、资源共享，也有利于联盟内企业的分工协作，从而创造新的价值。

大数据推动了新型增值服务模式发展

电子商务中应用众多的新型信息技术产生了生产、消费、金融、物流等一系列大数据，这些本属于不同领域的大数据在被综合运用的过程中会产生新的融合，从而形成新的增值服务。如电子商务中产生的买卖双方信息、物流信息、金融信息，如果加以整合肯定能够使企业在市场竞争中处于比较有利的位置。在此基础上，企业还可以积极开展类似金融信用服务、供应链整合等增值服务。随着大数据的广泛应用，加之大数据分析手段创新，已经产生了互联网金融等多个增值服务，给包括电子商务企业在内的众多中小企业提供了新的发展空间。假以时日，大数据还会催生更多新型增值服务模式、产生众多的产业。

工业

立体显示技术可以应用于过程控制、数值模拟、CAD/CAM（计算机辅助设计／制造）设计、工业检测、远程监视、危险产品生产安装以及远程机器人视觉显示等各个方面，可以带来前所未有的逼真视觉效果。

目前，3D技术在专业行业的应用已经十分成熟，包括汽车设计制造、船舶设计制造、航天航空、能源动力、机械电子、建筑房产、城市规划等行业，3D技术为设计方式和用户界面带来了新的革命。3D技术常用的设计软件包括ProE、AutoCAD、3Dmax、MAYA等，这些工具已经成为行业必备的设计软件。在工业设计领域，ProE和AutoCAD已经具备了丰富的3D设计功能，并被广大工程设计人员所采用；在图形图像领域，3Dmax、MAYA已经被广大艺术和IT工作者熟练使用。

机器学习

机器学习（Machine Learning）是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一，研究从观测数据（样本）出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同，机器学习存在不同的分类方法。

根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。

（1）监督学习。监督学习是利用已标记的有限训练数据集，通过某种学习策略／方法建立一个模型，实现对新数据／实例的标记（分类）／映射，最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知，分类标签精确度越高，样本越具有代表性，学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

（2）无监督学习。无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构／规律，最典型的无监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据，便于压缩数据存储、减少计算量、提升算法速度，还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域，例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。

（3）强化学习。强化学习是智能系统从环境到行为映射的学习，以使强化信号函数值最大。由于外部环境提供的信息很少，强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。

根据学习方法可以将机器学习分为传统机器学习和深度学习。

（1）传统机器学习。传统机器学习从一些观测（训练）样本出发，试图发现不能通过原理分析获得的规律，实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、三层人工神经网络方法、Adaboost算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性，为解决有限样本的学习问题提供了一种框架，主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学，在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。

（2）深度学习。深度学习是建立深层结构模型的学习方法，典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络（指层数超过3层的神经网络）。深度学习作为机器学习研究中的一个新兴领域，由Hinton等人于2006年提出。深度学习源于多层神经网络，其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性，单纯追求学习的有效性。经过多年的摸索尝试和研究，已经产生了诸多深度神经网络的模型，其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据；循环神经网络在神经网络中引入了记忆和反馈，常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架，一般包含主流的神经网络算法模型，提供稳定的深度学习API，支持训练模型在服务器和GPU、TPU间的分布式学习，部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力，从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有TensorFlow、Caffe/Caffe2、CNTK、MXNet、Paddle-paddle、Torch/PyTorch、Theano等。

此外，机器学习的常见算法还包括迁移学习、主动学习和演化学习等。

（1）迁移学习。迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时，利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练，可以更有效地学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用，如基于传感器网络的定位，文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题，如视频分类、社交网络分析、逻辑推理等。

（2）主动学习。主动学习通过一定的算法查询最有用的未标记样本，并交由专家进行标记，然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识，通过较少的训练样本获得高性能的模型，最常用的策略是通过不确定性准则和差异性准则选取有效的样本。

（3）演化学习。演化学习对优化问题性质要求极少，只需能够评估解的好坏即可，适用于求解复杂的优化问题，也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类，以及提供某种自适应机制以确定演化机制的影响等。

数据管理

数据生命周期

在数据的整个生命周期中，不同的数据需要不同水平的性能、可用性、保护、迁移、保留和处理。通常情况下，在其生命周期的初期，数据的生成和使用都需要利用高速存储，并相应地提供高水平的保护措施，以达到高可用性和提供相当等级的服务水准。随着时间的推移，数据的重要性会逐渐降低，使用频率也会随之下降。伴随着这些变化的发生，企业就可以将数据进行不同级别的存储，为其提供适当的可用性、存储空间、成本、性能和保护，并且在整个生命周期的不同阶段都能对数据保留进行管理。

数据的安全性管理是数据生命周期中的一个比较重要的环节。在进行数据输入和存取控制的时候，企业必须首先保证输入数据的数据合法性。要保证数据的安全性，必须保证数据的保密性和完整性，主要表现在以下5个方面：

（1）用户登录时的安全性。从用户登录网络开始，对数据的保密性和完整性的保护就应该开始了。

（2）网络数据的保护。包括在本地网络上的数据或者穿越网络的数据。在本地网络的数据是由验证协议来保证其安全性的。

（3）存储数据以及介质的保护。可以采用数字签名来签署软件产品（防范运行恶意的软件），或者加密文件系统。

（4）通信的安全性。提供多种安全协议和用户模式的、内置的集成支持。

（5）企业和Internet网的单点安全登录。

随着时间的推移，大部分数据将不再会被用到。一般情况下，一些无用的数据将被删除以节省空间，或者将有用的数据无限期地存储，以避免数据损失。

信息资源管理

信息资源管理（Information Resource Management，IRM）是对整个组织信息资源开发利用的全面管理。IRM把经济管理和信息技术结合起来，使信息作为一种资源而得到优化地配置和使用。上次我们在谈企业信息化的任务时，说开发信息资源既是企业信息化的出发点，又是企业信息化的归宿；只有高档次的数据环境才能发挥信息基础设施作用、建立集成化的信息系统、落实信息资源的开发和利用。因此，从IRM的技术侧面看，数据环境建设是信息资源管理的重要工作。

企业信息资源管理不是把资源整合起来就行了，而是需要一个有效的信息资源管理体系，其中最为关键的是从事信息资源管理的人才队伍建设；其次，是架构问题，在信息资源建设阶段，规划是以建设进程为主线的，在信息资源管理阶段，规划应是以架构为主线，主要涉及的是这个信息化运营体系的架构，这个架构要消除以往分散建设所导致的信息孤岛，实现大范围内的信息共享、交换和使用，提升系统效率，达到信息资源的最大增值；技术也是一个要素，要选择与信息资源整合和管理相适应的软件和平台；另外一个就是环境要素，主要是指标准和规范，信息资源管理最核心的基础问题就是信息资源的标准和规范。

数据管理

企业信息资源开发利用做得好坏的关键人物是企业领导和信息系统负责人。IRM工作层上的最重要的角色就是数据管理员（Data Administrator, DA）。数据管理员负责支持整个企业目标的信息资源的规划、控制和管理；协调数据库和其他数据结构的开发，使数据存储的冗余最小而具有最大的相容性；负责建立有效使用数据资源的标准和规程，组织所需要的培训；负责实现和维护支持这些目标的数据字典；审批所有对数据字典做的修改；负责监督数据管理部门中的所有职员的工作。数据管理员应能提出关于有效使用数据资源的整治建议，向主管部门提出不同的数据结构设计的优缺点忠告，监督其他人员进行逻辑数据结构设计和数据管理。

数据管理员还需要有良好的人际关系：善于同中高层管理人员一起制定信息资源的短期和长期计划。在数据结构的研制、建立文档和维护过程中，能与项目领导、数据处理人员和数据库管理员协同工作。能同最终用户管理部门一起工作，为他们提供有关数据资源的信息。

一般来说，由数据管理员对日常数据进行更新和维护。数据库为了保证存储在其中的数据的安全和一致，必须有一组软件来完成相应的管理任务，这组软件就是数据库管理系统，简称DBMS, DBMS随系统的不同而不同，但是一般来说，它应该包括数据库描述功能、数据库管理功能、数据库的查询和操纵功能、数据库维护功能等。为了提高数据库系统的开发效率，现代数据库系统除了DBMS之外，还提供了各种支持应用开发的工具。

目前许多厂商提供了相应的DBMS，便于数据管理员对底层的数据进行维护。例如MySQL、东软的OpenBase、金仓的KingbaseES等。

公司级的数据管理

如何进行信息资源规划？信息资源规划主要可以概括为“建立两种模型和一套标准”。“两种模型”是指信息系统的功能模型和数据模型，“一套标准”是指信息资源管理基础标准。信息系统的功能模型和数据模型，实际上是用户需求的综合反映和规范化表达；信息资源管理基础标准是进行信息资源开发利用的最基本的标准，这些标准都要体现在数据模型之中。

企业信息化的最终目标是实现各种不同业务信息系统间跨地域、跨行业、跨部门的信息共享和业务协同，而信息共享和业务协同则是建立在信息使用者和信息拥有者对共享数据的涵义、表示及标识有着相同的而无歧义的理解基础上。然而，由于各部门、各行业及各应用领域对于相同的数据概念有着不同的功能需求和不同的描述，从而导致了数据的不一致性。数据的不一致性主要表现为：数据名称的不一致性、数据长度的不一致性、数据表示的不一致性以及数据含义的不统一性。

数据标准化是一种按照预定规程对共享数据实施规范化管理的过程。数据标准化的对象是数据元素和元数据。数据元素是通过定义、标识、表示以及允许值等一系列属性描述的数据单元，是数据库中表达实体及其属性的标识符。在特定的语义环境中，数据元素被认为是不可再分的最小数据单元。元数据是描述数据元素属性（即语义内容）的信息，并被存储在数据元素注册系统（又称数据字典）中。数据元素注册系统通过对规范化的数据元素及其属性（即元数据）的管理，可以有效实现用户跨系统和跨环境的数据共享。数据标准化主要包括业务建模阶段、数据规范化阶段、文档规范化阶段等三个阶段。

数据标准化是建立在对现实业务过程全面分析和了解的基础上的，并以业务模型为基础的。业务建模阶段是业务领域专家和业务建模专家按照《业务流程设计指南》，利用业务建模技术对现实业务需求、业务流程及业务信息进行抽象分析的过程，从而形成覆盖整个业务过程的业务模型。该阶段着重对现实业务流程的分析和研究，尤其需要业务领域专家的直接参与和指导。业务模型是某个业务过程的图形表示或一个设计图。

数据规范化阶段是数据标准化的关键和核心，该阶段是针对数据元素进行提取、规范化及管理的过程。数据元素的提取离不开对业务建模阶段成果的分析，通过研究业务模型能够获得业务的各个参与方、确定业务的实施细则、明确数据元素对应的信息实体。该阶段是业务领域专家和数据规范化专家按照《数据元素设计与管理规范》利用数据元素注册系统（或数据字典）对业务模型内的各种业务信息实体进行抽象、规范化和管理的过程，从而形成一套完整的标准数据元素目录。在实现数据元素标准化的同时，还应关注数据元素取值的规范化，以此实现信息表示和信息处理的标准化。

文档规范化阶段是数据规范化成果的实际应用的关键，是实现离散数据有效合成的重要途径。标准数据元素是构造完整信息的基本单元，各类电子文档则是传递各类业务信息的有效载体，并是将分离的标准数据元素信息进行有效合成的手段。该阶段是业务领域专家和电子文档设计专家按照《电子文档设计指南》对各类电子文档格式进行规范化设计和管理的过程，并形成了一批电子文档格式规范。

综上所述，数据标准化所涉及的三个主要阶段缺一不可、彼此密不可分。业务建模是数据标准化的基础和前提；数据规范化及其管理是数据标准化的核心和重点；文档规范化是数据标准化成果的有效应用的关键。

此外，数据标准化也可以采用数据字典、数据指南或信息系统字典等加以统一。数据字典实际上也是以数据表和视图为主要存在形式的，它是关于数据的数据表和视图。管理员可以通过数据字典获得全面的数据库信息。

数据库审计支持

数据安全是大型数据库应用系统中必须仔细考虑的一个重要问题，也是数据库管理人员和系统管理人员日常工作中最为重要的一部分。有效的数据库审计是数据库安全的基本要求。企业应针对自己的应用和数据库活动定义审计策略。智能审计的实现对安全管理的意义重大，不仅能节省时间，而且能减少执行所涉及的范围和对象。通过智能限制日志大小，还能突出更加关键的安全事件。

信息系统审计员可以从数据库系统本身、主体和客体三个方面来进行审计，审计对数据库对象的访问以及与安全相关的事件。数据库审计员可以分析审计信息、跟踪审计事件、追查责任以及使用审计服务器记录审计跟踪，并且可以根据审计信息，对审计结果进行统计、跟踪和分析，进行审计跟踪、入侵检测等。

目前许多数据库供应商都提供了支持数据库审计的功能，例如东软公司的OpenBASE Secure就提供了十分完善的审计功能。

数据类型

基本数据类型是C++内部预先定义的数据类型，非基本数据类型是用户自己定义的数据类型。

1）基本数据类型

基本数据类型包括整型int、字符型char、逻辑型bool、无值型void、实型float、双精度型double，与C语言没什么差别。

2）非基本数据类型

非基本数据类型包括数组type［］、指针type*、结构struct、联合union、枚举enum和类class，比C语言增加了类class数据类型。

3）new和delete

（1）分配内存。

在C语言中：char *name=（char*）malloc（Length+1）;。

使用new: char *name=new char［Length+1］;。

（2）释放内存。

在C语言中：free（name）;。

使用delete: delete［］name;。

物联网

物联网概念及关键技术

（1）物联网概念。物联网（IoT: Internet of Things）即“物物相联之网”，指通过射频识别（RFID）、红外感应器、全球定位系统、激光扫描器等信息传感设备，按约定的协议，把物与物、人与物进行智能化连接，进行信息交换和通信，以实现智能化识别、定位、跟踪、监控和管理的一种新兴网络。从计算机的协同处理来划分，可分为独立计算、互联网和物联网时代，如下图所示。

物联网时代的划分图

物联网不是一种物理上独立存在的完整网络，而是架构在现有互联网或下一代公网或专网基础上的联网应用和通信能力，是具有整合感知识别、传输互联和计算处理等能力的智能型应用。

物联网概念的3个方面：

.物：客观世界的物品，主要包括人、商品、地理环境等。

.联：通过互联网、通信网、电视网以及传感网等实现网络互联。

.网：首先，应和通信介质无关，有线无线都可。其次，应和通信拓扑结构无关，总线、星型均可。最后，只要能达到数据传输的目的即可。

（2）物联网架构。物联网从架构上面可以分为感知层、网络层和应用层，如下图所示。

物联网架构

感知层：负责信息采集和物物之间的信息传输，信息采集的技术包括传感器、条码和二维码、RFID射频技术、音视频等多媒体信息，信息传输包括远近距离数据传输技术、自组织组网技术、协同信息处理技术、信息采集中间件技术等传感器网络。是实现物联网全面感知的核心能力，是物联网中包括关键技术、标准化方面、产业化方面亟待突破的部分，关键在于具备更精确、更全面的感知能力，并解决低功耗、小型化和低成本的问题。

网络层：是利用无线和有线网络对采集的数据进行编码、认证和传输，广泛覆盖的移动通信网络是实现物联网的基础设施，是物联网三层中标准化程度最高、产业化能力最强、最成熟的部分，关键在于为物联网应用特征进行优化和改进，形成协同感知的网络。

应用层：提供丰富的基于物联网的应用，是物联网发展的根本目标，将物联网技术与行业信息化需求相结合，实现广泛智能化应用的解决方案集，关键在于行业融合、信息资源的开发利用、低成本高质量的解决方案、信息安全的保障以及有效的商业模式的开发。

各个层次所用的公共技术包括编码技术、标识技术、解析技术、安全技术和中间件技术。

（3）物联网关键技术。感知层作为物联网架构的基础层面，主要是达到信息采集并将采集到的数据上传的目的，感知层主要包括：自动识别技术产品和传感器（条码、RFID、传感器等），无线传输技术（WLAN、Bluetooth、ZigBee、UWB），自组织组网技术和中间件技术，如下图所示。

物联网关键技术设备

物联网应用

物联网的产业链（如下图所示）包括传感器和芯片、设备、网络运营及服务、软件与应用开发和系统集成。作为物联网“金字塔”的塔座，传感器将是整个链条需求总量最大和最基础的环节。将整体产业链按价值分类，硬件厂商的价值较小，占产业价值大头的公司通常都集多种角色为一体，以系统集成商的角色出现。

物联网产业链

（1）智能微尘：智能微尘（smart dust）（2001，美国国防部计划）是指具有电脑功能的一种超微型传感器，它可以探测周围诸多环境参数，能够收集大量数据，进行适当计算处理，然后利用双向无线通信装置将这些信息在相距1000英尺的微尘器件间往来传送。智能微尘的应用范围很广，除了主要应用于军事领域外，还可用于健康监控、环境监控、医疗等许多方面。

（2）智能电网：物联网技术在传感技术、电网通信整合、安全技术和先进控制方法等关键技术领域助力美国新一代智能电网的建设，使配电系统进入计算机智能化控制的时代，以美国的可再生能源为基础，实现美国发电、输电、配电和用电体系的优化管理。

（3）智慧物流：大型零售企业沃尔玛，拥有全美最大的送货车队，车辆全部安装了综合了GPS卫星定位、移动通信网络等功能的车载终端，调度中心可实时掌握车辆及货物的情况高效利用物流资源设施，使沃尔玛的配送成本仅占销售额的2%，远低于同行高达10%甚至20%的物流成本。提高物流效率，实现物流的全供应链流程管理支持。

（4）智能家居：提供基于网络的通信，进行家居和建筑的自动化控制和外部共享信息，应用包括家庭安防类、信息服务类和家电设备管理等应用。

（5）智能交通：瑞典在解决交通拥挤问题时，通过使用RFID技术、激光扫描、自动拍照和自由车流路边系统，自动检测标识车辆，向工作进出市中心的车辆收取费用。提供汽车信息服务，支持交通管理，车辆控制和安全系统，公共交通管理，商用车运营管理，交通应急管理以及出行和交通需求管理等领域。

（6）智慧农业：荷兰阿姆斯特丹对城市建筑有另一个层面的应用，即利用城市内废弃建筑的多层结构提高种植面积，并利用物联网的感知与智能技术就地改造建筑内的LED照明设备与供水排水管道，形成自动根据天气条件补充光照与水分的城市农业。整合新型传感器技术，全流程的牧业管理和支持精细农业，应用涉及食品安全溯源，环境检测等应用。

（7）环境保护：环境监测、河流区域监控、森林防火、动物监测等应用。

（8）医疗健康：基于RFID技术的医疗健康服务管理，应用涉及医疗健康服务管理，药品和医疗器械管理以及生物制品管理等应用。

（9）城市管理：应用物联网支撑城市综合管理，实现智慧城市。

（10）金融服务保险业：依靠物联网支撑金融和保险行业体系，实现便捷和健壮的服务，应用涉及安全监控，手机钱包等。

（11）公共安全：主要应用于机场防入侵，安全防范，城市轨道防控，城市公共安全等方面。

移动互联网

移动互联网概念及关键技术

移动互联网概念

移动互联网一般是指用户用手机等无线终端，通过3G（WCDMA、CDMA2000或者TD-SCDMA）或者WLAN等速率较高的移动网络接入互联网，可以在移动状态下（如在地铁、公交车上等）使用互联网的网络资源。

从技术层面的定义：以宽带IP为技术核心，可以同时提供语音、数据、多媒体等业务的开放式基础电信网络。从终端的定义：用户使用手机、上网本、笔记本电脑、平板电脑、智能本等移动终端，通过移动网络获取移动通信网络服务和互联网服务。

移动互联网＝移动通信网络＋互联网内容和应用，不仅是互联网的延伸，而且是互联网的发展方向。

移动终端在处理能力、显示效果、开放性等方面则无法和PC相提并论，但在个性化、永远在线、位置性等方面强于PC。移动终端具有的小巧轻便、随身携带的两个特点决定了移动互联网不仅具有传统互联网应用的简单复制和移植，还应具有下列新特征：

.接入移动性：移动终端的便携性使得用户可以在任意场合接入网络，移动互联网的使用场景是动态变化的。

.时间碎片性：用户使用移动互联网的时间往往是上下班途中、工作之余、出差等候间隙等碎片时间，数据传输具有不连续性和突发性。

.生活相关性：移动终端被用户随身携带，具有唯一号码与移动位置关联的特性，使得移动应用可以进入人们的日常生活，满足衣食住行、吃喝玩乐等需求。

.终端多样性：目前各手机厂商分足鼎立，拥有各自不同的操作系统和类型多样的底层硬件终端，尚未形成统一的标准化接口协议。

移动互联网关键技术

移动互联网的关键技术包括架构技术SOA、页面展示技术Web2.0和HTML5、以及主流开发平台Android、iOS和Windows Phone。

SOA

SOA（Service-Oriented Architecture，面向服务的架构）是一种粗粒度、松耦合服务架构，服务之间通过简单、精确定义接口进行通信，不涉及底层编程接口和通信模型。SOA可以看作是B/S模型、XML（标准通用标记语言的子集）／Web Service技术之后的自然延伸。

Web Service是现在实现SOA的主要技术，是一个平台独立的，低耦合的，自包含的、基于可编程的web应用程序，可使用开放的XML（标准通用标记语言下的一个子集）标准来描述、发布、发现、协调和配置这些应用程序，用于开发分布式的互操作的应用程序。Web Service技术，能使得运行在不同机器上的不同应用无须借助附加的、专门的第三方软件或硬件，就可相互交换数据或集成。依据Web Service规范实施的应用之间，无论它们所使用的语言、平台或内部协议是什么，都可以相互交换数据。

SOA支持将业务转换为一组相互链接的服务或可重复业务任务，可以对这些服务进行重新组合，以完成特定的业务任务，从而使业务能够快速适应不断变化的客观条件和需求。

Web 2.0

Web2.0严格来说不是一种技术，而是提倡众人参与的互联网思维模式，是相对于Web1.0的新的时代。Web2.0指的是一个利用Web的平台，由用户主导而生成的内容互联网产品模式，为了区别传统由网站雇员主导生成的内容而定义为第二代互联网，即Web2.0，是一个新的时代。下表显示Web2.0与Web1.0的区别。

Web2.0与Web1.0的区别

HTML 5

HTML5在原有HTML基础之上扩展了API，使WEB应用成为RIA（Rich Internet Applications），具有高度互动性、丰富用户体验以及功能强大的客户端。HTML 5的第一份正式草案已于2008年1月22日公布。HTML5的设计目的是为了在移动设备上支持多媒体，推动浏览器厂商，使Web开发能够跨平台跨设备支持。HTML5仍处于完善之中。然而，大部分现代浏览器已经具备了某些HTML5支持。

HTML5相对于HTML4是一个划时代的改变，新增了很多特性，其中重要的特性包括：

.支持WebGL、拖曳、离线应用和桌面提醒，大大增强了浏览器的用户使用体验。

.支持地理位置定位，更适合移动应用的开发。

.支持浏览器页面端的本地储存与本地数据库，加快了页面的反应。

.使用语义化标签，标签结构更清晰，且利于SEO。

.摆脱对Flash等插件的依赖，使用浏览器的原生接口。

.使用CSS3，减少页面对图片的使用。

.兼容手机、平板电脑等不同尺寸、不同浏览器的浏览。

HTML5手机应用的最大优势就是可以在网页上直接调试和修改。原有应用的开发人员可能需要花费非常大的力气才能达到HTML5的效果，不断地重复编码、调试和运行。因此现在有许多手机杂志客户端是基于HTML5标准，开发人员就可以轻松进行调试修改。

Android

Android一词的本义指“机器人”，是一种基于Linux的自由及开放源代码的操作系统，主要使用于移动设备，如智能手机和平板电脑。很多移动重点厂商在标准Android基础上封装成自有的操作系统。

在移动终端开发方面，Android的市场占有率一枝独秀，据IDC 2014年底预计，2015年Android市场份额将达到45.4%，成为全球最大智能手机操作系统。2015年Windows Phone市场份额将从今年的5.5%增至20.9%，成为继Android之后的第2大系统。

相对其他移动终端操作系统，Android的特点是入门容易，因为Android的中间层多以Java实现，并且采用特殊的Dalvik“暂存器型态”Java虚拟机，变量皆存放于暂存器中，虚拟机的指令相对减少，开发相对简单，而且开发社群活跃，开发资料丰富。

iOS

iOS是一个非开源的操作系统，其SDK本身是可以免费下载的，但为了发布软件，开发人员必须加入某品牌开发者计划，其中有一步需要付款以获得某品牌的批准。加入了之后，开发人员们将会得到一个牌照，他们可以用这个牌照将他们编写的软件发布到某品牌的网上软件商店。

iOS的开发语言是Objective-C、C和C＋＋，加上其对开发人员和程序的认证，开发资源相对较少，所以其开发难度要大于Android。

Windows Phone

简称WP，是一款手机操作系统，Windows Phone的开发技术有C、C＋＋、C#等。Windows Phone的基本控件来自控件Silverlight的.NET Framework类库，而.NET开发具备快捷、高效、低成本的特点。

移动互联网应用

（1）娱乐类：工作之余的休闲及娱乐需求，包括游戏、音乐、旅游、运动、时尚信息等。

（2）交流类：社交需求与情感交流，包括交友、与亲人之间的感情交流。

（3）学习类：提升自身素质需求，包括外语、专业课程、技能培训等。

（4）生活类：包括购物需求（日用品等）和生活需求（健康、热点新闻、理财、饮食等）。

（5）商务类：工作方面的需求，包括求职、行业信息等。

（6）工具类：为了满足以上需求而进行手机优化、搜索等。

异常

异常是一种形式的异常控制流，它一部分是由硬件实现的，一部分是由操作系统实现的。因为它们有一部分是由硬件实现的，所以具体细节将随系统的不同而有所不同。然而，对于每个系统而言，基本的思想都是相同的。

异常（exception）就是控制流中的突变，用来响应处理器状态中的某些变化。异常可以分为四类：中断（interrupt）、陷阱（trap）、故障（fault）和中止（abort）。下表对这些类别的属性做了小结。

异常的类别

（1）陷阱。陷阱是有意的异常，是执行一条指令的结果。就像中断处理程序一样，陷阱处理程序将控制返回到下一条指令。陷阱最重要的用途是在用户程序和内核之间提供一个像过程一样的接口，叫做系统调用。

用户程序经常需要向内核请求服务，例如读一个文件、创建一个新的进程、加载一个新的程序或者中止当前进程。为了允许对这些内核服务的受控的访问，处理器提供了一条特殊的syscall指令，当用户程序想要请求服务n时，可以执行这条指令。执行syscall指令会导致一个到异常处理程序的陷阱，这个处理程序对参数解码，并调用适当的内核程序。

（2）故障。故障由错误情况引起，它可能被故障处理程序修正。当一个故障发生时，处理器将控制转移给故障处理程序。如果处理程序能够修正这个错误情况，它就将控制返回到故障指令，从而重新执行它。否则，处理程序返回到内核中的abort例程，abort例程会中止引起故障的应用程序。

（3）中止。中止是不可恢复的致命错误造成的结果，典型的是一些硬件错误，例如DRAM或者SRAM位被损坏时发生的奇偶错误。中止处理程序从不将控制返回给应用程序。处理程序将控制返回给一个abort例程，该例程会中止这个应用程序。

题号导航 2019年下半年系统架构设计师下午试卷论文

本试卷我的完整做题情况



	第3题在手机中做本题