免费智能真题库 > 历年试卷 > 信息处理技术员 > 2019年上半年 信息处理技术员 上午试卷 综合知识
  第1题      
  知识点:   大数据   典型应用   人工智能   云计算
  关键词:   大数据   人工智能   云计算   数据           章/节:   计算机网络应用基本知识       

 
以下应用除( )外都是ABC技术(人工智能-大数据-云计算)的典型应用
 
 
  A.  公共场合通过人脸识别发现通缉的逃犯
 
  B.  汽车上能选择最优道路的自动驾驶系统
 
  C.  通过条件查询在数据库中查找所需数据
 
  D.  机器人担任客服,回答客户咨询的问题
 
 
 

 
  第8题    2017年下半年  
   43%
( )是以沉浸型、交换性和构想性为基本特征的高级人机界面。
  第29题    2014年下半年  
   56%
智慧城市是(29)相结合的产物。
  第29题    2013年上半年  
   33%
下列关于云计算特征的叙述中,不正确的是(29)。
   知识点讲解    
   · 大数据    · 典型应用    · 人工智能    · 云计算
 
       大数据
               大数据相关概念
                      大数据概念
                      大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯到2000年前后。当时互联网网页爆发式增长,每天新增约700万个网页,到2000年底全球网页数达到40亿,用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前所未有,而且以非结构化数据为主,传统技术无法应对。为此,谷歌提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布式文件系统(Google File System,GFS)、分布式并行计算(MapReduce)和分布式数据库(BigTable)等技术,以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。
                      伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景下使用。2011年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股大数据热潮。
                      虽然大数据已经成为全社会热议的话题,但至今“大数据”尚无公认的统一定义。我们认为,认识大数据要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。因此可以说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。
                      大数据特点
                      业界通常用Volume、Variety、Value、Velocity这4个V来概括大数据的特点:
                      (1)数据体量巨大(Volume)。IDC研究表明,数字领域存在着1.8万亿吉字节的数据。企业数据正在以55%的速度逐年增长。实体世界中,数以百万计的数据采集传感器被嵌入到各种设备中,在数字化世界中,消费者每天的生活(通信、上网浏览、购物、分享、搜索)都在产生着数量庞大的数据。
                      (2)数据类型繁多(Variety)。数据可分为结构化数据、半结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,音频、视频、图片、地理位置信息等类型的非结构化数据量占比达到了80%,并在逐步提升,有用信息的提取难度不断增大。
                      (3)价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。
                      (4)时效性高(Velocity)。这是大数据区分于传统数据挖掘最显著的特征。数据的价值除了与数据规模相关,还与数据处理周期成正比关系。也就是,数据处理的速度越快、越及时,其价值越大,发挥的效能越大。
               大数据技术
                      大数据技术体系
                      大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现,技术体系如下图所示。每个环节都面临不同程度的技术上的挑战。
                      
                      大数据技术框架
                      (1)数据准备环节。在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为ETL(Extracting,Transforming,Loading)过程。与以往数据分析相比,大数据的来源多种多样,包括企业内部数据库、互联网数据和物联网数据,不仅数量庞大、格式不一,质量也良莠不齐。这就要求数据准备环节一方面要规范格式,便于后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。
                      (2)数据存储与管理环节。当前全球数据量正以每年超过50%的速度增长,存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。
                      (3)计算处理环节。需要根据处理的数据类型和分析目标,采用适当的算法模型,快速处理数据。海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。
                      (4)数据分析环节。数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。
                      (5)知识展现环节。在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节则不是必需的。
                      总的来看,大数据对数据准备环节和知识展现环节来说只是量的变化,并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。下面简要分析上述3个环节面临的挑战及发展趋势。
                      大数据技术创新
                      大数据技术体系纷繁复杂,其中一些技术创新格外受到关注。随着社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统和分析技术开始不断发展。从2005年Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着量急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需向分布式转型,形成了事务处理技术体系这一热点。然而时代的发展使得单个企业甚至行业的数据都难以满足要求,融合价值更加显现,形成了数据流通技术体系这一热点。
                             数据分析技术
                             从数据在信息系统中的生命周期看,数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图这四类NoSQL数据库体系,Redis、HBase、Cassandra、MongoDB、Neo4j等数据库是各个领域的领先者。计算处理引擎方面,Spark已经取代MapReduce成为了大数据平台统一的计算平台,在实时计算领域Flink是Spark Streaming强力的竞争者。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Spark SQL等技术与传统的大规模并行处理(Massively Parallel Processor,MPP)数据库竞争激烈,Hive还是这个领域当之无愧的王者。在数据可视化领域,敏捷商业智能(Business Intelligence,BI)分析工具Tableau、QlikView通过简单的拖拽来实现数据的复杂展示,是目前最受欢迎的可视化展现方式。
                             相比传统的数据库和MPP数据库,Hadoop最初的优势来源于良好的扩展性和对大规模数据的支持,但失去了传统数据库对数据精细化的操作,包括压缩、索引、数据的分配裁剪以及对SQL的支持度。经过10多年的发展,数据分析的技术体系渐渐在完善自己的不足,也融合了很多传统数据库和MPP数据库的优点,从技术的演进来看,大数据技术正在发生以下变化:
                             (1)更快。Spark已经替代MapReduce成为了大数据生态的计算框架,以内存计算带来计算性能的大幅提高,尤其是Spark 2.0增加了更多了优化器,计算性能进一步增强。
                             (2)流处理的加强。Spark提供一套底层计算引擎来支持批量、SQL分析、机器学习、实时和图处理等多种能力,但其本质还是小批的架构,在流处理要求越来越高的现在,Spark Streaming受到Flink激烈的竞争。
                             (3)硬件的变化和硬件能力的充分挖掘。大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从CPU的单核到多核演变转化为向GPU、FPGA、ASIC等多种类型芯片共存演变。而存储中大量使用SSD来代替SATA盘,NVRAM有可能替换DRAM成为主存。大数据技术势必需要拥抱这些变化,充分兼容和利用这些硬件的特性。
                             (4)SQL的支持。从Hive诞生起,Hadoop生态就在积极向SQL靠拢,主要从兼容标准SQL语法和性能等角度来不断优化,层出不穷的SQL on Hadoop技术参考了很多传统数据库的技术。而Greenplum等MPP数据库技术本身从数据库继承而来,在支持SQL和数据精细化操作方面有很大的优势。
                             (5)深度学习的支持。深度学习框架出现后,和大数据的计算平台形成了新的竞争局面,以Spark为首的计算平台开始积极探索如何支持深度学习能力,TensorFlow on Spark等解决方案的出现实现了TensorFlow与Spark的无缝连接,更好地解决了两者数据传递的问题。
                             事务处理技术
                             随着移动互联网的快速发展,智能终端数量呈现爆炸式增长,银行和支付机构传统的柜台式交易模式逐渐被终端直接交易模式替代。以金融场景为例,移动支付以及普惠金融的快速发展,为银行业、支付机构和金融监管机构带来了海量高频的线上小额资金支付行为,生产业务系统面临大规模并发事务处理要求的挑战。
                             传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。而随着摩尔定律的失效(底层硬件的变化),单机性能扩展的模式走到了尽头,而数据交易规模的急速增长(上层应用的变化)要求数据库系统具备大规模并发事务处理的能力。大数据分析系统经过10多年的实践,积累了丰富的分布式架构的经验,Paxos、Raft等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。
                             如下图所示,经过多年发展,当前分布式事务架构正处在快速演进的阶段,综合学术界以及产业界工作成果,目前主要分为三类:
                             
                             事务型数据库架构演进图
                             (1)基于原有单机事务处理关系数据库的分布式架构改造:利用原有单机事务处理数据库的成熟度优势,通过在独立应用层面建立起数据分片和数据路由的规则,建立起一套复合型的分布式事务处理数据库的架构。
                             (2)基于新的分布式事务数据库的工程设计思路的突破。通过全新设计关系数据库的核心存储和计算层,将分布式计算和分布式存储的设计思路和架构直接植入数据库的引擎设计中,提供对业务透明和非侵入式的数据管理和操作/处理能力。
                             (3)基于新的分布式关系数据模型理论的突破。通过设计全新的分布式关系数据管理模型,从数据组织和管理的最核心理论层面,构造出完全不同于传统单机事务数据库的架构,从数据库的数据模型的根源上解决分布式关系数据库的架构。
                             分布式事务数据库进入到各行各业面临诸多挑战,其一是多种技术路线,目前没有统一的定义和认识;其二是除了互联网公司有大规模使用外,其他行业的实践刚刚开始,需求较为模糊,采购、使用、运维的过程缺少可供参考的经验,需要较长时间的摸索;其三是缺少可行的评价指标、测试方法和测试工具来全方位比较当前的产品,规范市场,促进产品的进步。故应用上述技术进行交易类业务进行服务时,应充分考虑“可持续发展”“透明开放”“代价可控”三原则,遵循“知识传递先行”“测试评估体系建立”“实施阶段规划”三步骤,并认识到“应用过度适配和改造”“可用性管理策略不更新”“外围设施不匹配”三个误区。
                             大数据事务处理类技术体系的快速演进正在消除日益增长的数字社会需求同旧式的信息架构缺陷,未来人类行为方式、经济格局以及商业模式将会随大数据事务处理类技术体系的成熟而发生重大变革。
                             数据流通技术
                             数据流通是释放数据价值的关键环节。然而,数据流通也伴随着权属、质量、合规性、安全性等诸多问题,这些问题成为了制约数据流通的瓶颈。为了解决这些问题,大数据从业者从诸多方面进行了探索。目前来看,从技术角度的探索是卓有成效和富有潜力的。
                             从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。
                             安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分地、定制化地提供安全性服务,使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。
               大数据产业体系
               随着大数据技术不断演进和应用持续深化,以数据为核心的大数据产业体系正在加速构建。大数据产业体系中主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色,分别向大数据的应用者提供大数据服务、解决方案和数据资源,如下图所示。
               
               大数据产业体系
                      大数据解决方案提供商
                      大数据解决方案提供商面向企业用户提供大数据一站式部署方案,覆盖数据中心和服务器等硬件、数据存储和数据库等基础软件、大数据分析应用软件以及技术运维支持等方面内容。其中,大数据基础软件和应用软件是大数据解决方案中的重点内容。当前,企业提供的大数据解决方案大多基于Hadoop开源项目,例如,IBM基于Hadoop开发的大数据分析产品BigInsights、甲骨文融合了Hadoop开源技术的大数据一体机、Cloudera的Hadoop商业版等。大数据解决方案提供商中,主要包括传统IT厂商和新兴的大数据创业公司。传统IT厂商主要有IBM、HP等解决方案提供商以及甲骨文、Teradata等数据分析软件商。它们大多以原有IT解决方案为基础,融合Hadoop,形成融合了结构化和非结构化两条体系的“双栈”方案。通过一系列收购来提升大数据解决方案服务能力,成为这些IT巨头的主要策略。
                      国际上也诞生了一批专门提供非结构化数据处理方案的新兴创业公司。这些公司包括Cloudera、Hortonworks、MapR等,它们主要基于Hadoop开源项目,开发Hadoop商业版本和基于Hadoop的大数据分析工具,单独或者与传统IT厂商合作提供企业级大数据解决方案。这些新兴大数据企业成为资本市场的热点。国内华为、联想、浪潮、曙光等一批IT厂商也都纷纷推出大数据解决方案。但总体上,国内大数据解决方案提供商实力较弱,产品一些关键行业还未形成影响力,新兴大数据解决方案初创企业也凤毛麟角。
                      大数据处理服务提供商
                      大数据处理服务提供商主要以服务的方式为企业和个人用户提供大数据海量数据分析能力和大数据价值挖掘服务。按照服务模式进行划分,大数据处理服务提供商可以分为以下四类。
                      第一类是在线纯分析服务提供商。此类服务商主要是互联网企业、大数据分析软件商和新创企业等,通过SaaS或PaaS云服务形式为用户提供服务。典型的服务如谷歌提供的大数据分析工具Big Query、亚马逊提供的云数据仓库服务RedShift、微软的Azure HDInsigh1010data提供的商业智能服务等。国内一些云服务商也逐步开始提供大数据相关云服务,如阿里云的开放数据处理服务(ODPS)、百度的大数据引擎、腾讯的数据云等。
                      第二类是既提供数据又提供分析服务的在线提供商。此类服务商主要是拥有海量用户数据的大型互联网企业,主要以SaaS形式为用户提供大数据服务,服务背后以自有大数据资源为支撑。典型的服务如谷歌Facebook的自助式广告下单服务系统、Twitter基于实时搜索数据的产品满意度分析等。国内百度推出的大数据营销服务“司南”就属于此类。
                      第三类是单纯提供离线分析服务的提供商。此类服务商主要为企业提供专业、定制化的大数据咨询服务和技术支持,主要集中为大数据咨询公司、软件商等,例如专注于大数据分析的奥浦诺管理咨询公司(Opera Solutions)、数据分析服务提供商美优管理顾问公司(Mu Sigma)等。
                      第四类是既提供数据又提供离线分析服务的提供商。此类服务商主要集中在信息化水平较高、数据较为丰富的传统行业。例如日本日立集团(Hitachi)于2013年6月初成立的日立创新分析全球中心,其广泛收集汽车行驶记录、零售业购买动向、患者医疗数据、矿山维护数据和资源价格动向等庞大数据信息,并基于收集的海量信息开展大数据分析业务。又如美国征信机构Equifax基于全球8000亿条企业和消费者行为数据,提供70余项面向金融的大数据分析离线服务。
                      大数据资源提供商
                      既然数据成为了重要的资源和生产要素,必然会产生供应与流通需求。数据资源提供商因此应运而生,它是大数据产业的特有环节,也是大数据资源化的必然产物。数据资源提供商,包括数据拥有者和数据流通平台两个主要类型。数据拥有者可以是企业、公共机构或者个人。数据拥有者通常直接以免费或有偿的方式为其他有需求的企业和用户提供原数据或者处理过的数据。例如美国电信运营商Verizon推出的大数据应用精准营销洞察(Precision Market Insights),将向第三方企业和机构出售其匿名化和整合处理后的用户数据。国内阿里巴巴公司推出的淘宝量子恒道、数据魔方和阿里数据超市等,属于此种类型。
                      数据数据流通平台是多家数据拥有者和数据需求方进行数据交换流通的场所。按平台服务目的不同,可分为政府数据开放平台和数据交易市场。
                      (1)政府数据开放平台。主要提供政府和公共机构的非涉密数据开放服务,属于公益性质。全球不少国家已经加入到开放政府数据行动,推出公共数据库开放网站,例如美国数据开放网站Data.gov已有超过37万个数据集、1209个数据工具、309个网页应用和137个移动应用,数据源来自171个机构。国内地方政府数据开放平台开始出现,如国家统计局的国家数据网站、北京市政府和上海市政府的信息资源平台等数据开放平台正在建设过程中。
                      (2)数据交易市场。商业化的数据交易活动催生了多方参与的第三方数据交易市场。国际上比较有影响力的有微软的AzureData Marketplace、被甲骨文收购的BlueKai、DataMarket、Factual、Infochimps、DataSift等等,主要提供地理空间、营销数据和社交数据的交易服务。大数据交易市场发展刚刚起步,在市场机制、交易规则、定价机制、转售控制和隐私保护等方面还有很多工作要做。国内,2014年2月,在北京市和中关村管委会指导下,中关村大数据交易产业联盟成立,将在国内推动国内大数据交易相关规范化方面开展工作。
               大数据对电子商务的发展影响
                      大数据更好地支撑了电子商务营销精准化和实时化
                      电子商务发展到今天,其营销平台、营销方式都发生了很大的改变。电子商务平台、移动终端、社交网络以及物联网等设备的使用大大增加了消费者数据,而云计算、复杂分析系统等大数据处理手段,为人们整合各个渠道消费者数据、形成有用的营销信息提供了可能。与传统的电子商务数据处理方式相比,大数据处理方式更快捷、更精细,它给我们科学分析消费者偏好及其消费行为轨迹提供巨大帮助。特别是在移动设备进入电子商务领域后,地理位置服务信息处理使电子商务一对一精准营销成为可能,极大程度提升了电子商务营销的准确性,有力地支撑了电子商务营销的精准化与实时化。
                      大数据更好地支撑了电子商务高度差异化和个性化
                      在传统电子商务营销背景下,企业与消费者总是处于双向信息不对称状态。一方面企业很难掌握消费者的消费行为和消费习惯,另一方面消费者了解企业产品的信息渠道相对较窄。进入大数据时代后,企业可以通过科学分析海量数据来获得更加丰富的消费者信息,从而针对不同消费者消费需求,提供特定的产品和服务,以最大限度地提高其满意度。消费者可以通过移动终端等渠道及时向电子商务企业传递信息,为企业进行个性化服务提供依据。由此可以推断,未来电子商务价值创造将会围绕消费者个性化需求展开,并将消费者纳入到企业产品设计与生产过程,实现共同的价值创造。
                      大数据进一步推进了价值链、供应链一体化
                      大数据等新型信息技术可以促进各个渠道的跨界数据整合,使所有围绕消费者消费行为的价值链、供应链企业成为一个整体。如大数据可以将地理位置不同、从事行业不同的研发、生产、加工、营销、仓储、配送、服务等各环节企业在满足消费者消费需求这一共同目的下组成动态联盟,通过彼此协作和创造,真正为消费者提供个性化产品和服务。相对于传统意义上的供应链,通过大数据连接起来的动态联盟反应速度更快、智能化程度更高,这既有利于联盟内企业的信息、资源共享,也有利于联盟内企业的分工协作,从而创造新的价值。
                      大数据推动了新型增值服务模式发展
                      电子商务中应用众多的新型信息技术产生了生产、消费、金融、物流等一系列大数据,这些本属于不同领域的大数据在被综合运用的过程中会产生新的融合,从而形成新的增值服务。如电子商务中产生的买卖双方信息、物流信息、金融信息,如果加以整合肯定能够使企业在市场竞争中处于比较有利的位置。在此基础上,企业还可以积极开展类似金融信用服务、供应链整合等增值服务。随着大数据的广泛应用,加之大数据分析手段创新,已经产生了互联网金融等多个增值服务,给包括电子商务企业在内的众多中小企业提供了新的发展空间。假以时日,大数据还会催生更多新型增值服务模式、产生众多的产业。
 
       典型应用
        本实例假设所采用的交换机支持端口镜像功能。
        1)小规模网络环境
        此种区域网连接方法较为简单,内部网络中各机构的主机使用共享式集线器连接到交换机上,或主机直接连接到交换机上,交换机不设VLAN,交换机再通过路由器接入Internet。在这种情况下,将IDS监测主机接到交换机的广播口(监听口)即可监听到内部网络间的所有通信及内部网络到Internet的所有通信,如下图所示。
        
        小规模网络环境应用
        2)分布式监测应用示例
        网络结构相对较复杂,内部网络中各机构间使用交换机连接到主交换机上,通过主交换机连接路由器接入Internet。此时在主交换机的广播口(监听口)上无法监听到从交换机上的机器间的通信,为了全面监控网络,捕捉内部网间的恶意攻击与入侵行为,就需要为每个重要的网段部署一个入侵检测探测器,并分别将检测到的事件发送到集中管理控制台,如下图所示。
        
        多子网分布式环境应用
 
       人工智能
               人工智能技术发展概述
                      人工智能技术流派发展简析
                      人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。让机器实现人的智能,一直是人工智能学者不断追求的目标,不同学科背景或应用领域的学者,从不同角度,用不同的方法,沿着不同的途径对智能进行了探索。其中,符号主义、连接主义和行为主义是人工智能发展历史上的三大技术流派。
                      符号主义又称为逻辑主义,在人工智能早期一直占据主导地位。该学派认为人工智能源于数学逻辑,其实质是模拟人的抽象逻辑思维,用符号描述人类的认知过程。早期的研究思路是通过基本的推断步骤寻求完全解,出现了逻辑理论家和几何定理证明器等。上世纪70年代出现了大量的专家系统,结合了领域知识和逻辑推断,使得人工智能进入了工程应用。PC的出现以及专家系统高昂的成本,使符号学派在人工智能领域的主导地位逐渐被连接主义取代。
                      连接主义又称为仿生学派,当前占据主导地位。该学派认为人工智能源于仿生学,应以工程技术手段模拟人脑神经系统的结构和功能。连接主义最早可追溯到1943年麦卡洛克和皮茨创立的脑模型,由于受理论模型、生物原型和技术条件的限制,在20世纪70年代陷入低潮。直到1982年霍普菲尔特提出的Hopfield神经网络模型和1986年鲁梅尔哈特等人提出的反向传播算法,使得神经网络的理论研究取得了突破。2006年,连接主义的领军者Hinton提出了深度学习算法,使神经网络的能力大大提高。2012年,使用深度学习技术的AlexNet模型在ImageNet竞赛中获得冠军。
                      行为主义又称为进化主义,近年来随着AlphaGo取得的突破而受到广泛关注。该学派认为人工智能源于控制论,智能行为的基础是“感知—行动”的反应机制,所以智能无需知识表示,无需推断。智能只是在与环境交互作用中表现出来,需要具有不同的行为模块与环境交互,以此来产生复杂的行为。
                      在人工智能的发展过程中,符号主义、连接主义和行为主义等流派不仅先后在各自领域取得了成果,各学派也逐渐走向了相互借鉴和融合发展的道路。特别是在行为主义思想中引入连接主义的技术,从而诞生了深度强化学习技术,成为AlphaGo战胜李世石背后最重要的技术手段。
                      深度学习带动下的人工智能发展
                      深度学习已经在语音识别、图像识别等领域取得突破。深度学习全称深度神经网络,本质上是多层次的人工神经网络算法,即从结构上模拟人脑的运行机制,从最基本的单元上模拟了人类大脑的运行机制。深度学习已经开始在计算机视觉、语音识别、自然语言理解等领域取得了突破。在语音识别领域,2010年,使用深度神经网络模型的语音识别相对传统混合高斯模型识别错误率降低超过20%,目前所有的商用语音识别算法都基于深度学习。在图像分类领域,目前针对ImageNet数据集的算法分类精度已经达到了95%以上,可以与人的分辨能力相当。深度学习在人脸识别、通用物体检测、图像语义分割、自然语言理解等领域也取得了突破性的进展。
                      海量的数据和高效的算力支撑是深度学习算法实现的基础。深度学习分为训练(training)和推断(inference)两个环节。训练需要海量数据输入,训练出一个复杂的深度神经网络模型。推断指利用训练好的模型,使用待判断的数据去“推断”得出各种结论。大数据时代的到来,图形处理器(Graphics Processing Unit,GPU)等各种更加强大的计算设备的发展,使得深度学习可以充分利用海量数据(标注数据、弱标注数据或无标注数据),自动地学习到抽象的知识表达,即把原始数据浓缩成某种知识。当前基于深度学习的人工智能技术架构如下图所示。
                      
                      基于深度学习的人工智能技术应用架构图
               人工智能技术
                      人工智能关键技术
                             机器学习
                             机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。
                             根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。
                             (1)监督学习。监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知,分类标签精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。
                             (2)无监督学习。无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律,最典型的无监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。
                             (3)强化学习。强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。
                             根据学习方法可以将机器学习分为传统机器学习和深度学习。
                             (1)传统机器学习。传统机器学习从一些观测(训练)样本出发,试图发现不能通过原理分析获得的规律,实现对未来数据行为或趋势的准确预测。相关算法包括逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、三层人工神经网络方法、Adaboost算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与学习模型的可解释性,为解决有限样本的学习问题提供了一种框架,主要用于有限样本情况下的模式分类、回归分析、概率密度估计等。传统机器学习方法共同的重要理论基础之一是统计学,在自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机领域获得了广泛应用。
                             (2)深度学习。深度学习是建立深层结构模型的学习方法,典型的深度学习算法包括深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。深度学习又称为深度神经网络(指层数超过3层的神经网络)。深度学习作为机器学习研究中的一个新兴领域,由Hinton等人于2006年提出。深度学习源于多层神经网络,其实质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可解释性,单纯追求学习的有效性。经过多年的摸索尝试和研究,已经产生了诸多深度神经网络的模型,其中卷积神经网络、循环神经网络是两类典型的模型。卷积神经网络常被应用于空间性分布数据;循环神经网络在神经网络中引入了记忆和反馈,常被应用于时间性分布数据。深度学习框架是进行深度学习的基础底层框架,一般包含主流的神经网络算法模型,提供稳定的深度学习API,支持训练模型在服务器和GPU、TPU间的分布式学习,部分框架还具备在包括移动设备、云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的运行速度和实用性。目前主流的开源算法框架有TensorFlow、Caffe/Caffe2、CNTK、MXNet、Paddle-paddle、Torch/PyTorch、Theano等。
                             此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等。
                             (1)迁移学习。迁移学习是指当在某些领域无法取得足够多的数据进行模型训练时,利用另一领域数据获得的关系进行的学习。迁移学习可以把已训练好的模型参数迁移到新的模型指导新模型训练,可以更有效地学习底层规则、减少数据量。目前的迁移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位,文字分类和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题,如视频分类、社交网络分析、逻辑推理等。
                             (2)主动学习。主动学习通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练分类模型来提高模型的精度。主动学习能够选择性地获取知识,通过较少的训练样本获得高性能的模型,最常用的策略是通过不确定性准则和差异性准则选取有效的样本。
                             (3)演化学习。演化学习对优化问题性质要求极少,只需能够评估解的好坏即可,适用于求解复杂的优化问题,也能直接用于多目标优化。演化算法包括粒子群优化算法、多目标演化算法等。目前针对演化学习的研究主要集中在演化数据聚类、对演化数据更有效的分类,以及提供某种自适应机制以确定演化机制的影响等。
                             知识图谱
                             知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结构,以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结,构成网状的知识结构。在知识图谱中,每个节点表示现实世界的“实体”,每条边为实体与实体之间的“关系”。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。
                             知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域,需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地,知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具。但是,知识图谱的发展还有很大的挑战,如数据的噪声问题,即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入,还有一系列关键技术需要突破。
                             自然语言处理
                             自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及的领域较多,主要包括机器翻译、语义理解和问答系统等。
                             (1)机器翻译。机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性,翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展,自然语言知识图谱不断扩充,机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。目前非限定领域机器翻译中性能较佳的一种是统计机器翻译,包括训练及解码两个阶段。训练阶段的目标是获得模型参数,解码阶段的目标是利用所估计的参数和给定的优化目标,获取待翻译语句的最佳翻译结果。统计机器翻译主要包括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神经网络的端到端翻译方法不需要针对双语句子专门设计特征模型,而是直接把源语言句子的词串送入神经网络模型,经过神经网络的运算,得到目标语言句子的翻译结果。在基于端到端的机器翻译系统中,通常采用递归神经网络或卷积神经网络对句子进行表征建模,从海量训练数据中抽取语义信息,与基于短语的统计翻译相比,其翻译结果更加流畅自然,在实际应用中取得了较好的效果。
                             (2)语义理解。语义理解技术是指利用计算机技术实现对文本篇章的理解,并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布,语义理解受到更多关注,取得了快速发展,相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用,进一步提高问答与对话系统的精度。在数据采集方面,语义理解通过自动构造数据方法和自动构造填空型问题的方法来有效扩充数据资源。为了解决填充型问题,一些基于深度学习的方法相继提出,如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇章、问题建模,对答案的开始和终止位置进行预测,抽取出篇章片段。对于进一步泛化的答案,处理难度进一步提升,目前的语义理解技术仍有较大的提升空间。
                             (3)问答系统。问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题,系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现,但大多是在实际信息服务系统和智能手机助手等领域中的应用,在问答系统鲁棒性方面仍然存在着问题和挑战。
                             自然语言处理面临四大挑战:一是在词法、句法、语义、语用和语音等不同层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大的非线性计算。
                             人机交互
                             人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算机到人的两部分信息交换,是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备,以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外,还包括语音交互、情感交互、体感交互及脑机交互等技术,以下对后四种与人工智能关联密切的典型交互手段进行介绍。
                             (1)语音交互。语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机进行交互的综合性技术,结合了语言学、心理学、工程和计算机技术等领域的知识。语音交互不仅要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。作为人类沟通和获取信息最自然便捷的手段,语音交互比其他交互方式具备更多优势,能为人机交互带来根本性变革,是大数据和认知计算时代未来发展的制高点,具有广阔的发展前景和应用前景。
                             (2)情感交互。情感是一种高层次的信息传递,而情感交互是一种交互状态,它在表达功能和信息时传递情感,勾起人们的记忆或内心的情愫。传统的人机交互无法理解和适应人的情绪或心境,缺乏情感理解和表达能力,计算机难以具有类似人一样的智能,也难以通过人机交互做到真正的和谐与自然。情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感的能力,最终使计算机像人一样能进行自然、亲切和生动的交互。情感交互已经成为人工智能领域中的热点方向,旨在让人机交互变得更加自然。目前,在情感交互信息的处理方式、情感描述方式、情感数据获取和处理过程、情感表达方式等方面还有诸多技术挑战。
                             (3)体感交互。体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础,直接通过肢体动作与周边数字设备装置和环境进行自然的交互。依照体感方式与原理的不同,体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑。与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升,交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束,使得交互过程更加自然。目前,体感交互在游戏娱乐、医疗辅助与康复、全自动三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。
                             (4)脑机交互。脑机交互又称为脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。
                             计算机视觉
                             计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展,预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能算法技术。根据解决的问题,计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。
                             (1)计算成像学。计算成像学是探索人眼结构、相机成像原理以及其延伸应用的科学。在相机成像原理方面,计算成像学不断促进现有可见光相机的完善,使得现代相机更加轻便,可以适用于不同场景。同时计算成像学也推动着新型相机的产生,使相机超出可见光的限制。在相机应用科学方面,计算成像学可以提升相机的能力,从而通过后续的算法处理使得在受限条件下拍摄的图像更加完善,例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能,例如全景图、软件虚化、超分辨率等。
                             (2)图像理解。图像理解是通过用计算机系统解释图像,实现类似人类视觉系统理解外部世界的一门科学。通常根据理解信息的抽象程度可分为三个层次:浅层理解,包括图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等;高层理解,根据需要抽取的高层语义信息,可大致分为识别、检测、分割、姿态估计、图像文字说明等。目前高层图像理解算法已逐渐广泛应用于人工智能系统,如刷脸支付、智慧安防、图像搜索等。
                             (3)三维视觉。三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获取的三维信息的科学。三维重建可以根据重建的信息来源,分为单目图像重建、多目图像重建和深度图像重建等。三维信息理解,即使用三维信息辅助图像理解或者直接理解三维信息。三维信息理解可分为,①浅层:角点、边缘、法向量等;②中层:平面、立方体等;③高层:物体检测、识别、分割等。三维视觉技术可以广泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向。
                             (4)动态视觉。动态视觉即分析视频或图像序列,模拟人处理时序图像的科学。通常动态视觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应,以及提取其语义信息的问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面。
                             (5)视频编解码。视频编解码是指通过特定的压缩技术,将视频流进行压缩。视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264、H.265、M-JPEG和MPEG系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩。无损压缩指使用压缩后的数据进行重构时,重构后的数据与原来的数据完全相同,例如磁盘文件的压缩。有损压缩也称为不可逆编码,指使用压缩后的数据进行重构时,重构后的数据与原来的数据有差异,但不会影响人们对原始资料所表达的信息产生误解。有损压缩的应用范围广泛,例如视频会议、可视电话、视频广播、视频监控等。
                             目前,计算机视觉技术发展迅速,已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战:一是如何在不同的应用领域和其他技术更好的结合,计算机视觉在解决某些问题时可以广泛利用大数据,已经逐渐成熟并且可以超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算法的开发时间和人力成本,目前计算机视觉算法需要大量的数据与人工标注,需要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法的设计开发,随着新的成像硬件与人工智能芯片的出现,针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。
                             生物特征识别
                             生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看,生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集,如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集,利用数据预处理以及特征提取技术对采集的数据进行处理,得到相应的特征进行存储。识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取,然后将提取的特征与存储的特征进行比对分析,完成识别。从应用任务看,生物特征识别一般分为辨认与确认两种任务,辨认是指从存储库中确定待识别人身份的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对,确定身份的过程,是一对一的问题。
                             生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征,其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术,在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识别、人脸识别、虹膜识别、指静脉识别、声纹识别以及步态识别等技术进行介绍。
                             (1)指纹识别。指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别的过程。
                             (2)人脸识别。人脸识别是典型的计算机视觉应用,从应用过程来看,可将人脸识别技术划分为检测定位、面部特征提取以及人脸确认三个过程。人脸识别技术的应用主要受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响,在约束条件下人脸识别技术相对成熟,在自由条件下人脸识别技术还在不断改进。
                             (3)虹膜识别。虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和识别四个部分,研究工作大多是基于此理论框架发展而来。虹膜识别技术应用的主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素遮挡,需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和稳定性要求比较高;另一方面,光照的强弱变化会引起瞳孔缩放,导致虹膜纹理产生复杂形变,增加了匹配的难度。
                             (4)指静脉识别。指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的近红外线有很好的吸收作用这一特性,采用近红外光对指静脉进行成像与识别的技术。由于指静脉血管分布随机性很强,其网络特征具有很好的唯一性,且属于人体内部特征,不受到外界影响,因此模态特性十分稳定。指静脉识别技术应用面临的主要难题来自于成像单元。
                             (5)声纹识别。声纹识别是指根据待识别语音的声纹特征识别说话人的技术。声纹识别技术通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配,常用的识别方法可以分为模板匹配法、概率模型法等。
                             (6)步态识别。步态是远距离复杂场景下唯一可清晰成像的生物特征,步态识别是指通过身体体型和行走姿态来识别人的身份。相比上述几种生物特征识别,步态识别的技术难度更大,体现在其需要从视频中提取运动特征,以及需要更高要求的预处理算法,但步态识别具有远距离、跨角度、光照不敏感等优势。
                             虚拟现实/增强现实
                             虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术,在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互,相互影响,获得近似真实环境的感受和体验,通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。
                             虚拟现实/增强现实从技术特征角度,按照不同处理阶段,可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法,其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等,其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法,以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。
                             目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。
                      基于深度学习的人工智能技术体系
                      当前,基于深度学习的人工智能算法主要依托计算机技术体系架构实现,深度学习算法通过封装至软件框架的方式供开发者使用。软件框架是整个技术体系的核心,实现对人工智能算法的封装,数据的调用以及计算资源的调度使用。为提升算法实现的效率,其编译器及底层硬件技术也进行了功能优化,具体架构分为基础硬件层、深度神经网络模型编译器及软件框架等。
                      (1)基础硬件层。基础硬件层为算法提供了基础计算能力。硬件层涵盖范围除了中央处理器(Central Processing Unit,CPU)及GPU外,还包括为特定场景应用而定制的计算芯片,以及基于计算芯片所定制的服务器,包括GPU服务器集群,各类移动终端设备以及类脑计算机等。
                      (2)深度神经网络模型编译器。深度神经网络模型编译器是底层硬件和软件框架,以及不同软件框架之间的桥梁。该层旨在为上层应用提供硬件调用接口,解决不同上层应用在使用不同底层硬件计算芯片时可能存在的不兼容等问题。其涵盖范围包括针对人工智能计算芯片定向优化的深度神经网络模型编译器,以及针对不同神经网络模型表示的规定及格式。
                      (3)软件框架层。软件框架层实现算法的模块化封装,为应用开发提供集成软件工具包。该层涵盖范围包括针对算法实现开发的各类应用及算法工具包,为上层应用开发提供了算法调用接口,提升应用实现的效率。
                      (4)基础应用技术。当前人工智能的商业化实现主要是基于计算机视觉、智能语音、自然语言处理等基础应用技术实现,并形成了相应的产品或服务。
               人工智能产业体系
               人工智能产业生态主要分为核心业态、关联业态、衍生业态三个层次,如下图所示。
               
               人工智能产业生态图
                      智能基础设施
                      智能基础设施为人工智能产业提供计算能力支撑,其范围包括智能传感器、智能芯片、分布式计算框架等,是人工智能产业发展的重要保障。
                             智能芯片
                             智能芯片从应用角度可以分为训练和推理两种类型。从部署场景来看,可以分为云端和设备端两步大类。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构,需要庞大的计算规模,主要使用智能芯片集群来完成。与训练的计算量相比,推理的计算量较少,但仍然涉及大量的矩阵运算。目前,训练和推理通常都在云端实现,只有对实时性要求很高的设备会交由设备端进行处理。
                             按技术架构来看,智能芯片可以分为通用类芯片(CPU、GPU、FPGA)、基于FPGA的半定制化芯片、全定制化ASIC芯片、类脑计算芯片(IBM TrueNorth)。另外,主要的人工智能处理器还有DPU、BPU、NPU、EPU等适用于不同场景和功能的人工智能芯片。
                             随着互联网用户量和数据规模的急剧膨胀,人工智能发展对计算性能的要求迫切增长,对CPU计算性能提升的需求超过了摩尔定律的增长速度。同时,受限于技术原因,传统处理器性能也无法按照摩尔定律继续增长,发展下一代智能芯片势在必行。未来的智能芯片主要是在两个方向发展:一是模仿人类大脑结构的芯片,二是量子芯片。智能芯片是人工智能时代的战略制高点,预计到2020年人工智能芯片全球市场规模将突破百亿美元。
                             智能传感器
                             智能传感器是具有信息处理功能的传感器。智能传感器带有微处理机,具备采集、处理、交换信息等功能,是传感器集成化与微处理机相结合的产物。智能传感器属于人工智能的神经末梢,用于全面感知外界环境。各类传感器的大规模部署和应用为实现人工智能创造了不可或缺的条件。不同应用场景,如智能安防、智能家居、智能医疗等对传感器应用提出了不同的要求。未来,随着人工智能应用领域的不断拓展,市场对传感器的需求将不断增多,2020年市场规模有望突破4600亿美元。未来,高敏度、高精度、高可靠性、微型化、集成化将成为智能传感器发展的重要趋势。
                             分布式计算框架
                             面对海量的数据处理、复杂的知识推理,常规的单机计算模式已经不能支撑。所以,计算模式必须将巨大的计算任务分成小的单机可以承受的计算任务,即云计算、边缘计算、大数据技术提供了基础的计算框架。目前流行的分布式计算框架如OpenStack、Hadoop、Storm、Spark、Samza、Bigflow等。各种开源深度学习框架也层出不穷,其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、Theano、DeepLearning4、Lasagne、Neon等等。
                      智能信息及数据
                      信息数据是人工智能创造价值的关键要素之一。我国庞大的人口和产业基数带来了数据方面的天生优势。随着算法、算力技术水平的提升,围绕数据的采集、分析、处理产生了众多的企业。目前,在人工智能数据采集、分析、处理方面的企业主要有两种:一种是数据集提供商,以提供数据为自身主要业务,为需求方提供机器学习等技术所需要的不同领域的数据集;另一种是数据采集、分析、处理综合性厂商,自身拥有获取数据的途径,并对采集到的数据进行分析处理,最终将处理后的结果提供给需求方进行使用。对于一些大型企业,企业本身也是数据分析处理结果的需求方。
                      智能技术服务
                      智能技术服务主要关注如何构建人工智能的技术平台,并对外提供人工智能相关的服务。此类厂商在人工智能产业链中处于关键位置,依托基础设施和大量的数据,为各类人工智能的应用提供关键性的技术平台、解决方案和服务。目前,从提供服务的类型来看,提供技术服务厂商包括以下几类:
                      (1)提供人工智能的技术平台和算法模型。此类厂商主要针对用户或者行业需求,提供人工智能技术平台以及算法模型。用户可以在人工智能平台之上,通过一系列的算法模型来进行人工智能的应用开发。此类厂商主要关注人工智能的通用计算框架、算法模型、通用技术等关键领域。
                      (2)提供人工智能的整体解决方案。此类厂商主要针对用户或者行业需求,设计和提供包括软、硬件一体的行业人工智能解决方案,整体方案中集成多种人工智能算法模型以及软、硬件环境,帮助用户或行业解决特定的问题。此类厂商重点关注人工智能在特定领域或者特定行业的应用。
                      (3)提供人工智能在线服务。此类厂商一般为传统的云服务提供厂商,主要依托其已有的云计算和大数据应用的用户资源,聚集用户的需求和行业属性,为客户提供多类型的人工智能服务;从各类模型算法和计算框架的API等特定应用平台到特定行业的整体解决方案等,进一步吸引大量的用户使用,从而进一步完善其提供的人工智能服务。此类厂商主要提供相对通用的人工智能服务,同时也会关注一些重点行业和领域。
                      需要指出的是,上述三类角色并不是严格区分开的,很多情况下会出现重叠,随着技术的发展成熟,在人工智能产业链中已有大量的厂商同时具备上述两类或者三类角色的特征。
                      智能产品
                      智能产品是指将人工智能领域的技术成果集成化、产品化,具体的分类如下表所示。
                      
                      人工智能的产品
                      
                      随着制造强国、网络强国、数字中国建设进程的加快,在制造、家居、金融、教育、交通、安防、医疗、物流等领域对人工智能技术和产品的需求将进一步释放,相关智能产品的种类和形态也将越来越丰富。
               人工智能对电子商务的发展影响
                      人工智能技术在电子商务领域的应用
                      目前,人工智能采用的主流技术主要涉及机器学习和人机交互。机器学习(Machine Learning)是计算机科学的一个分支,也可以认为是模式识别或人工智能、数据挖掘(Data Mining)、概率论、统计学(statistics)等多个学科的交叉学科。机器学习与数值优化(Numerical Cptimization)具有很高的重合度。机器学习在电商领域的应用主要体现在以下几个方面。
                             人工智能助手
                             人工智能助手(聊天机器人),其主要功能是自动回复顾客问题,对简单的语音指令作出响应,并通过采用自然语言处理系统提供产品推荐。电子商务网站和移动端页面上的聊天对话框正是基于机器学习的算法,将其编程为以个性化方式与客户通信。聊天机器人能够帮助消费者找到合适的产品,检查产品供应情况,并比较各种产品,最后帮助消费者付款;如果有任何投诉或疑问,聊天机器人也可以帮助客户联系相应的服务人员。消费者可以通过文字,语音甚至图片与这些机器人进行“交谈”。2017年3月,阿里巴巴发布了人造智能服务机器人“Shop Xiaomi”,即是淘宝商家的聊天机器人,其经过商家授权和调试后,聊天机器人可以取代一些客户服务,从而减少了人工客户服务的工作量,同时能够增添个性化风格。
                             推荐引擎
                             推荐引擎是建立在机器学习算法框架基础上一套完整的推荐系统。使用AI算法可以实现海量数据集的深度学习、统计编程和预测、分析顾客行为,并利用算法预测哪些产品可能会吸引顾客。首先根据潜在客户最近的搜索,推荐引擎中的机器学习算法能够根据计算结果记录被搜索产品的关键细节,然后,推荐引擎为浏览器生成适合的建议,并将其列在个人页面上,最终帮助消费者快速找到所需产品。降维算法的应用开启了人工智能对推荐系统的改造,人工智能对推荐系统最深刻的变革,就是不再把推荐系统看作是独立的推荐结果组合,它是整个人机交互行为,通过引入时间维度来实现系统和用户的动态维度。许多电商公司,例如:亚马逊、阿里巴巴淘宝网、京东商城等都使用推荐引擎来识别其产品的目标受众。
                             智慧物流
                             智慧物流是指:利用信息技术使装备和控制智能化,从而用技术装备取代人的一种物流发展模式。与传统物流模式相比,智能物流可以大大提高提高服务质量和运营效率。智慧物流的概念最早由IBM公司在2009年提出。最初,IBM公司提出建立一个通过感应器、RFID标签、制动器、GPS和其他设备及系统生成实时信息的“智慧供应链”。人工智能最直接的影响是后端供应链和物流链接,面对快速变化的需求和竞争市场,预测库存并非简单,而人工智能和深度学习的算法可以在订单周转预测中派上用场,可以确定订单周转的关键因素。机器学习系统的优势在于它们可以随着时间的推移不断学习而变得更加智能,使商家预测库存需求变得更加准确。目前,在智能物流仓储领域,阿里巴巴和京东都已经发布了无人值守的自动化智能存储系统。
                             最优定格
                             当前的电商行业正在蓬勃发展,即使对于小规模库存的在线零售商,这种长期持续的价格调整也是一个很大的挑战。利用能够快速处理大数据的人工智能技术,已基本能够解决大量产品的自动定价问题。对产品的评分、物流、价格和服务质量都会影响最终的综合排名结果,因此,对于商家而言,最优定价非常困难,而这种需要深入研究的定价问题正是人工智能所擅长的。通过先进的深度机器学习算法,人工智能技术可以持续评估市场动态并改变竞争环境以解决最优定价问题。
                      电子商务应用人工智能技术的未来趋势
                      随着研究技术的飞速发展和不断推进,深度学习平台、语音分析技术、生物识别技术、图像与视频分析技术、机器人自动处理系统、文本分析和自然语言处理(NLP)等主流人工智能技术在接下来仍将稳步发展。根据人工智能技术的商业价值、技术成熟度、发展阶段等方面的发展状况,AI将在未来通过以下几种方式推动电子商务的发展变革。
                             视觉搜索引擎
                             计算机视觉搜索引擎主要功能是让消费者可以将照片或特定风格的图片上传,然后在APP客户端中搜索样式、品类、风格相似的商品。视觉搜索功能(特别是通过手机)可以“读取”该项目的线索、颜色、形状、大小、面料和品牌。这能够帮助消费者找到他们正在寻找的商品。视觉搜索引擎的功能建立了从线上到线下的联系,从离线到在线体验只需要很少的流程和操作步骤,为消费者提供了一种创新、自主的体验。
                             个性化服务
                             在移动电子商务时代,由于消费者对移动设备的偏好,个性化电子商务体验对销售的影响将更加明显。未来购物将使用AI来收集用户在网站上发布的信息,例如产品评论等,以更好的为其提供实质性服务。不管是在线商店,实体店还是移动应用程序,人工智能都为所有这些渠道带来无缝的客户体验。借助深度学习的AI算法,网上零售商可以不断学习每一个新信号,从而更好的展示个性化产品。
                             尽管人工智能发展迅速,但仍有许多问题亟待解决:不确定性问题、不可解释问题、数据共享问题、隐私保护问题、伦理道德问题、人工智能系统的鲁棒性等。这些都是人工智能技术将要面临的巨大挑战。
 
       云计算
               云计算相关概念
                      云计算基本概念
                      云计算(Cloud Computing)是一种通过网络统一组织和灵活调用各种ICT信息资源,实现大规模计算的信息处理方式。云计算利用分布式计算和虚拟资源管理等技术,通过网络将分散的ICT资源(包括计算与存储、应用运行平台、软件等)集中起来形成共享的资源池,并以动态按需和可度量的方式向用户提供服务。用户可以使用各种形式的终端(如PC、平板电脑、智能手机甚至智能电视等)通过网络获取ICT资源服务。
                      “云”是对云计算服务模式和技术实现的形象比喻。“云”由大量组成“云”的基础单元(云元,Cloud unit)组成。“云”的基础单元之间由网络相连,汇聚为庞大的资源池。
                      云计算核心特征
                      云计算具备四个方面的核心特征:
                      (1)宽带网络连接,“云”不在用户本地,用户要通过宽带网络接入“云”中并使用服务,“云”内节点之间也通过内部的高速网络相连;
                      (2)对ICT资源的共享,“云”内的ICT资源并不为某一用户所专有;
                      (3)快速、按需、弹性的服务,用户可以按照实际需求迅速获取或释放资源,并可以根据需求对资源进行动态扩展;
                      (4)服务可测量,服务提供者按照用户对资源的使用量进行计费。
                      云计算服务
                      自20世纪90年代末出现以来,云计算服务已经经历了十多年的发展历程。云计算服务真正受到整个IT产业的重视是始于2005年亚马逊推出的AWS服务,产业界认识到亚马逊建立了一种新的IT服务模式。在此之后,谷歌、IBM、微软等互联网和IT企业分别从不同的角度开始提供不同层面的云计算服务。云服务正在逐步突破互联网市场的范畴,政府、公共管理部门、各行业企业也开始接受云服务的理念,并开始将传统的自建IT方式转为使用公共云服务方式。
                      按照云计算服务提供的资源所在的层次,可以分为IaaS(基础设施即服务)、PaaS(平台即服务)和SaaS(软件即服务)。
                      IaaS是基础设施类的服务,将成为未来互联网和信息产业发展的重要基石。互联网乃至其他云计算服务的部署和应用将会带来对IaaS需求的增长,进而促进IaaS的发展;同时,大数据对海量数据存储和计算的需求,也会带动IaaS的迅速发展。IaaS也是一种“重资产”的服务模式,需要较大的基础设施投入和长期运营经验的积累,单纯出租资源的IaaS服务盈利能力比较有限。
                      PaaS服务被誉为未来互联网的“操作系统”,也是当前云计算技术和应用创新最活跃的领域,与IaaS服务相比,PaaS服务对应用开发者来说将形成更强的业务粘性,因此PaaS服务的重点并不在于直接的经济效益,而更着重于构建和形成紧密的产业生态。
                      SaaS服务是发展最为成熟的一类云服务。传统软件产业以售卖拷贝为主要商业模式,SaaS服务采用Web技术和SOA架构,通过互联网向用户提供多租户、可定制的应用能力,大大缩短了软件产业的渠道链条,使软件提供商从软件产品的生产者转变为应用服务的运营者。
               云计算技术
                      云计算技术架构
                      在云计算技术架构中,由数据中心基础设施层与ICT资源层组成的云计算“基础设施”和由资源控制层功能构成的云计算“操作系统”,是云计算相关技术的核心和发展重点,如下图所示。
                      
                      云计算技术架构
                      云计算“基础设施”是承载在数据中心之上的,以高速网络(如以太网)连接各种物理资源(服务器、存储设备、网络设备等)和虚拟资源(虚拟机、虚拟存储空间等)。云计算基础设施的主要构成元素基本上都不是云计算所特有的,但云计算的特殊需求为这些传统的ICT设施、产品和技术带来了新的发展机遇。如数据中心的高密度、绿色化和模块化,服务器的定制化、节能化和虚拟化等;而且一些新的ICT产品形式将得到长足的发展,并可能形成新的技术创新点和产业增长点,如定制服务器、模块化数据中心等。
                      云计算“操作系统”是对ICT资源池中的资源进行调度和分配的软件系统。云计算“操作系统”的主要目标是对云计算“基础设施”中的资源(计算、存储和网络等)进行统一管理,构建具备高度可扩展性,并能够自由分割的ICT资源池;同时向云计算服务层提供各种粒度的计算、存储等能力。
                      云计算关键技术
                             “基础设施”关键技术
                             云计算“基础设施”关键技术包括服务器、网络和数据中心相关技术。
                             (1)服务器相关技术。服务器是云计算系统中的基础节点。为了实现云计算的低成本目标,云计算系统中多采用X86服务器,并通过虚拟化提高对服务器资源的利用率。
                             X86服务器的虚拟化技术比较成熟。虚拟化主要有裸金属虚拟化和寄居虚拟化两种方式,其中裸金属虚拟化在性能、资源占用等方面具有综合优势,是应用最为广泛的一种虚拟化方式。
                             (2)云计算相关网络技术。云可以看作是一个庞大的网络系统。一个云内可以包含数千,甚至上万台服务器,虚拟化技术的普遍采用使实际网络节点的数量更加巨大,因此用于连接云内各个节点(云元)的网络就成为实现高效的计算和存储能力的关键环节之一。
                             云计算相关网络技术主要解决以下三个问题:
                             ①虚拟机流量的接入与控制。由于虚拟机的引入,虚拟机间流量的交换可能深入到网卡内部进行,使得原本服务器与网络设备之间在网络接入层比较清晰的界限被打破。
                             ②数据中心内部横向流量的承载。在云计算数据中心中,出于对虚拟机“热迁移”的需要,汇聚层仍然采用二层网络组网,这使得汇聚层二层网络规模大大增加,原有生成树协议的阻塞模式将造成链路的大量浪费。
                             ③数据、存储网络的融合。传统数据中心中存在两类网络:连接服务器的以太网,连接服务器和存储设备的光纤存储网(FC)。两张网络的并存提高了建设和运行管理成本,为了适应云计算低成本的需要,数据网络和存储网络的融合成为一种趋势。
                             (3)数据中心相关技术。云计算使数据中心向大型化发展,也带来节能的迫切需求。据统计,2010年数据中心能耗已经占全球总能耗的1.3%,绿色化刻不容缓。
                             在数据中心的能耗中,IT设备、制冷系统和供配电系统占主要部分,因此数据中心的节能技术主要围绕这三个方面。对于IT设备而言,其节能技术发展重点是在相同负载下,通过虚拟化、处理器降频、自动休眠和关闭内核等技术,使设备在获得更好性能的同时降低耗电量。对制冷系统来说,一方面可通过尽量采用自然冷却(Free Cooling)的方式降低能耗;另一方面,可通过热管理技术(冷热风道设计、送风和会风路径设计等)改善数据中心气流组织,实现制冷量的精确供给和按需分配,从而节省制冷系统的能耗。对供配电系统来说,主要节能技术包括选用高效率的、模块化的UPS电源;进行合理的IT设备与供电设备布局,减少供电线路损耗;采用高压直流提高供电可靠性和电源使用率、降低电量损耗并增强系统可维护性。
                             “操作系统”关键技术
                             云计算“操作系统”的主要关键技术包括实现底层资源池化管理的“资源池”管理技术和向用户提供大规模存储、计算能力的分布式任务和数据管理技术。
                             (1)“资源池”管理技术。“资源池”管理技术主要实现对物理资源、虚拟资源的统一管理,并根据用户需求实现虚拟资源(虚拟机、虚拟存储空间等)的自动化生成、分配、回收和迁移,用以支持用户对资源的弹性需求。
                             云计算“资源池”管理技术与传统IT管理软件的主要区别是实现了虚拟资源的“热迁移”,即在物理主机发生故障或需要进行维护操作时,将运行在其上的虚拟机迁移至其他物理主机,同时保证用户业务不被中断。
                             “热迁移”的重要前提是物理服务器使用共享存储器,并且虚拟机的迁移与网络配置的迁移同时进行。
                             (2)分布式任务和数据管理技术。云计算对分布式任务和数据管理的需求主要来源于业界对“大数据”的处理需求。分布式任务管理技术要实现在底层大规模ICT资源上进行分布式的海量计算,并对大量结构化与非结构化的数据进行存储与管理。
                      云计算技术发展
                             GPU云化降低高性能计算使用门槛
                             计算多样化的时代,数据的爆炸愈演愈烈,人工智能、虚拟现实等技术的突飞猛进对高性能计算的需求陡然剧增,CPU性能增速放缓,由CPU和GPU构成的异构加速计算体系,成为整个计算领域的必然趋势,GPU在高性能计算领域的作用愈发明显。
                             AI基础设施市场爆发,GPU用量猛增。近几年,国家政策的导向与资本市场的推动造就了人工智能产业的快速发展,生态逐渐趋于完善,在一定程度上拉动了对基础设施的算力需求。GPU服务器的超强并行计算能力与人工智能相得益彰,得到长足发展。
                             GPU云化可大幅缩减交付周期与使用成本,降低使用门槛。GPU服务器势头强劲的同时也伴随一些问题,服务器造价高昂、交付实施周期长、配置复杂等限制了GPU的使用范围。GPU云化成为破解这一症结的有效方案,GPU云主机可以实现小时级的快速交付,更及时地响应用户需求,灵活的计费模式实现真正的按需计费,大大减少了使用成本。GPU云服务使GPU的强大算力向更宽广的范围蔓延,深度赋能产学研领域。
                             GPU云服务可针对不同应用场景优化配置,易用性大幅提升。根据中国信息通信研究院的可信云GPU评估结果显示,国内主流云服务商的GPU产品均针对特定的使用场景进行了优化,对科学计算、图形渲染、机器学习、视频解码等热门应用领域分别推出不同规格的实例,更加贴合应用;预先集成的GPU加速框架,免除了纷繁复杂的配置工作。
                             服务网格开启微服务架构新阶段
                             (1)微服务架构技术发展愈加成熟。微服务作为一种崭新的分布式应用解决方案在近两年获得迅猛发展。微服务指将大型复杂软件应用拆分成多个简单应用,每个简单应用描述着一个小业务,系统中的各个简单应用可被独立部署,各个应用之间是松耦合的,每个应用仅关注于完成一件任务并很好地完成该任务。相比传统的单体架构,微服务架构具有降低系统复杂度、独立部署、独立扩展、跨语言编程等特点。与此同时,架构的灵活、开发的敏捷同时带来了运维的挑战。应用的编排、服务间的通信成为微服务架构设计的关键因素。目前,在微服务技术架构实践中主要有侵入式架构和非侵入式架构两种实现形式。
                             (2)微服务架构行业应用深入,侵入式架构占据主流市场。微服务架构在行业生产中得到了越来越广泛的应用,例如Netflix已经有大规模生产级微服务的成功实践。而以SpringCloud和Dubbo为代表的传统侵入式开发架构占据着微服务市场的主流地位。侵入式架构将流程组件与业务系统部署在一个应用中,实现业务系统内的工作流自动化。随着微服务架构在行业应用中的不断深入,其支持的业务量也在飞速发展,对于架构平台的要求也越来越高。由于侵入式架构本身服务与通信组件互相依赖,当服务应用数量越来越多时,侵入式架构在服务间调用、服务发现、服务容错、服务部署、数据调用等服务治理层面将面临新的挑战。
                             (3)服务网格推动微服务架构进入新时代。服务网格是一种非侵入式架构,负责应用之间的网络调用、限流、熔断和监控,可以保证应用的调用请求在复杂的微服务应用拓扑中可靠地穿梭。服务网格通常由一系列轻量级的网络代理组成(通常被称为SideCar模式),与应用程序部署在一起,但应用程序不需要知道它们的存在。服务网格通过服务发现、路由、负载均衡、健康检查和可观察性来帮助管理流量。自2017年初第一代服务网格架构Linkerd公开使用之后,Envoy、Conduit等新框架如雨后春笋般不断涌现。2018年初Google、IBM和Lyft联合开发的项目Istio的发布,标志着服务网格带领微服务架构进入新的时代。
                             无服务架构助力企业应用开发函数模块化
                             近年来,互联网服务从最早的物理服务器托管、虚拟机、容器,发展到如今的函数即服务(FaaS),即无服务架构。无服务架构是一种特殊类型的软件体系结构,在没有可见的进程、操作系统、服务器或者虚拟机的环境中执行应用逻辑,这样的环境实际上运行在操作系统之上,后端使用物理服务器或者虚拟机。它是一种“代码碎片化”的软件架构范式,通过函数提供服务。函数即一个可以在容器内运行的小的代码包,提供的是相比微服务更加细小的程序单元。具体的事件会唤醒函数,当事件处理完成时完成调用,代码消失。
                             2014年,AWS推出首个业界云函数服务Lambda。随后几年,各大云计算厂商相继推出自己的云函数服务,不同厂商的函数计算服务所支持的编程语言和函数触发的事件源各有不同。随着无服务架构的兴起,越来越多的开源项目如OpenWhisk、OpenFaaS、Kuberless等开始参与其中,并凭借各自特点正在影响着无服务架构的技术走向。
                             无服务架构将服务器与应用解耦,降低了运维成本,带动了规模经济效益。无服务架构的横向伸缩是完全自动化高弹性的,由于只调用很小的代码包,调用和释放的速度更快了,用户只需为自身需要的计算能力付费,计费粒度可细化至秒级。服务器部署、存储和数据库相关的所有复杂性工作都交由服务商处理,软件开发人员只需专注于与核心业务相关的开发工作,更有效地贯彻敏捷开发理念。同时,服务商运营管理着预定义的应用进程甚至是程序逻辑,当同时共用同一服务的用户达到一定量级将会带来较大的规模经济效益。
                             无服务架构促进持续部署成为新常态。无服务架构可以用来实现业务灵活性的持续部署。通过全自动化的基础设施堆栈的配置和代码部署,让任何并入主干中的代码更改都自动升级到包括生产环境在内的所有环境,可以对任何环境进行应用或回滚变更。当前主流技术架构下持续部署对许多公司仍旧难以实现,无服务技术可以有效弥补用户运维水平的不足,将持续部署带来的红利惠及更广范围。
                             无服务架构打破了以往的惯性思维,并提供了一个极具成本效益的服务。无服务架构仅有两年的历史,目前仍处于起步阶段。但在未来这个领域还会有更大的进步,它将带来软件开发和应用程序部署的一种全新体验。
                             IT运维进入敏捷时代,智能化运维尚处起步阶段
                             (1)IT运维从基础运维向平台运维、应用运维转型升级。随着云计算的发展,IT系统变得越发复杂,运维对象开始由运维物理硬件的稳定性和可靠性演变为能够自动化部署应用、快速创建和复制资源模板、动态扩缩容系统部署、实时监控程序状态,以保证业务持续稳定运行的敏捷运维。同时,开发、测试、运维等部门的工作方式由传统瀑布模式向DevOps(研发运营一体化)模式转变。从软件生命周期来看,第一阶段开发侧需运用敏捷实践处理内部的效率问题,第二阶段需基于持续集成构建持续交付,解决测试团队、运维上线的低效问题,第三阶段持续反馈需使用可重复、可靠的流程进行部署,监控并验证运营质量,并放大反馈回路,使组织及时对问题做出反应并持续优化更改,以提高软件交付质量,加快软件发布速度。
                             (2)DevOps提升软件生命周期效率。DevOps被定义为一组过程、方法与系统的统称,强调优化开发(Dev)、质量保障(QA)、运维(Ops)部门之间的沟通合作,解决运维人员人工干预较多、实时性差等痛点,变被动运维为主动运维,通过高度自动化工具链打通软件产品交付过程,使得软件构建、测试、发布更加快捷、频繁和可靠。据中国信息通信研究院的DevOps能力成熟度评估结果显示,金融机构核心业务仍采用集中式管理方式为主,但外围业务已经开始或已使用了分布式架构,自动化、智能化运维推动金融行业的业务创新。而运营商向云化转型则更注重对云管理平台的需求,如能够支持资源的动态分配和调度、业务监控、故障分析预警、数据库监控以及日常运维的全流程。随着非结构化数据数量激增,运营商通过数据挖掘和分析技术,以提升客户满意度和业务效率是未来的发展目标。DevOps实践贯穿软件全生命周期,提升了传统行业整体效率。
                             (3)智能化运维将成未来发展趋势。DevOps拉通了运维管理体系,海量数据计算、存储、应用和安全等多种需求出现,运维需借助先进的自动化运维管理模式来实现大体量下的系统管理。在大数据技术的背景下,智能运维AIOps被提出,即Artificial Intelligence for IT Operations。AIOps是将人工智能应用于运维领域,通过机器学习的方式对采集的运维数据(日志、监控信息、应用信息等)做出分析、决策,从而达到运维系统的整体目标。目前,AIOps主要围绕质量保障、成本管理和效率提升三方面逐步构建智能化运维场景,在质量保障方面,保障现网稳定运行细分为异常检测、故障诊断、故障预测、故障自愈等基本场景;在成本管理方面,细分为指标监控、异常检测、资源优化、容量规划、性能优化等基本场景;在效率方面,分为智能预测、智能变更、智能问答、智能决策等基本场景。AIOps虽然在互联网、金融等行业有所应用,但仍处于发展初期,未来智能化运维将成为数据分析应用的新增长点和发展趋势。
                             边缘计算与云计算协同助力物联网应用
                             边缘计算是指在靠近物或数据源头的网络边缘侧,融合网络、计算、存储、应用核心能力的开放平台,就近提供边缘智能服务,满足行业数字化在敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。
                             边缘计算与云计算互为补充。在当今物联网迅猛发展的阶段,边缘计算作为物联网的“神经末梢”,提供了对于计算服务需求较快的响应速度,通常情况下不将原始数据发回云数据中心,而直接在边缘设备或边缘服务器中进行数据处理。云计算作为物联网的“大脑”,会将大量边缘计算无法处理的数据进行存储和处理,同时会对数据进行整理和分析,并反馈到终端设备,增强局部边缘计算能力。
                             边缘计算与云计算协同发展,打造物联网新的未来。在边缘设备上进行计算和分析的方式有助于降低关键应用的延迟、降低对云的依赖,能够及时地处理物联网生成的大量数据,同时结合云计算特点对物联网产生的数据进行存储和自主学习,使物联网设备不断更新升级。以自动驾驶汽车为例,通过使用边缘计算和云计算技术,自动驾驶汽车上的边缘设备将传感器收集的数据在本地进行处理,并及时反馈给汽车控制系统,完成实时操作;同时,收集的数据会发送至云端进行大规模学习和处理,使自动驾驶汽车的AI在可用的情况下从云端获取更新信息,并增强局部边缘的神经网络。
                             云网融合加速网络结构深刻变革
                             云网融合已经成为ICT发展的趋势。伴随着互联网进入大流量、广互联时代,业务需求和技术创新并行驱动加速网络架构发生深刻变革,云和网高度协同,不再各自独立。云计算业务的开展需要强大的网络能力的支撑,网络资源的优化同样要借鉴云计算的理念,随着云计算业务的不断落地,网络基础设施需要更好的适应云计算应用的需求,更好的优化网络结构,以确保网络的灵活性、智能性和可运维性。
                             云间互联是云网融合的一个典型场景。以云间互联为目标的网络部署需求日益旺盛。随着云计算产业的成熟和业务的多样化,企业可根据自身业务需求和实际成本情况选择不同的云服务商提供的云服务,这也形成了丰富的云间互联业务场景,如公有云内部互通、混合云和跨云服务商的公有云互通。据中国信息通信研究院的混合云评估结果显示,当前混合云的组网技术主要以VPN和专线为主,而SD-WAN由于其快速开通、灵活弹性、按需付费等特性也逐渐被人们所关注。在云间互联场景下,云网融合的趋势逐渐由“互联”向“云+网+ICT服务”和“云+网+应用”过渡,云间互联只是过程,最终目的是达成云网和实际业务的高度融合,包括服务资源的动态调整、计算资源的合理分配以及定制化的业务互通等。
                             云网融合的另一个场景是电信云。电信云基于虚拟化、云计算等技术实现电信业务云化,基于NFV、SDN实现网络功能自动配置和灵活调度,基于管理与编排实现业务、资源和网络的协同管理和调度。电信云与云间互联不同,它更关注的是运营商网络的云化转型,包括核心网、接入网、传输网以及业务控制中心等多个层面的网元都可以按云化的方式部署,最终实现运营商网络的软化和云化。
                             开源技术成为云计算厂商共识
                             如今,开源社区逐渐成为云计算各巨头的战场,云计算厂商开始纷纷拥抱开源技术。
                             (1)容器方面。2017年,微软、AWS等云计算巨头厂商先后以白金会员身份加入Linux基金会旗下的云原生计算基金会(CNCF),以加强对Kubernetes开源技术的支持。阿里云更是在2017年两度晋级,从黄金会员到白金会员。截至2018年3月,CNCF白金会员的数量达到18家,黄金会员数量8家,银牌会员的数量148家。
                             (2)虚拟化管理方面。以全球最大的云计算开源社区OpenStack为例,截止到2018年7月,共有白金会员8家,黄金会员20家,合作伙伴104家。其中,我国企业占据了一半的黄金会员席位。同时,华为、九州云、烽火通信、EasyStack、中兴等厂商在OpenStack各版本贡献中持续处于全球前列。此外,OpenStack基金会的会员还包括Intel、Red Hat、Rackspace、爱立信等国际巨头厂商。
                      云计算风险管理
                             云计算带来风险点变化
                             与传统IT系统相比,云计算面临的风险点发生变化,主要体现在如下几个方面:
                             (1)传统安全边界消失。传统自有IT系统是封闭的,对外暴露的只是网页服务器、邮件服务器等少数接口。因此,传统IT系统以“边界”为核心,利用防火墙、入侵防御等手段可以有效阻挡攻击。而在云计算环境下,云暴露在公开的网络中,虚拟化技术使得安全边界概念消失,基于物理安全边界的防护机制难以在云计算环境中得到有效的应用。
                             (2)用户具有动态性。云计算环境下,用户的数量和分类变化频率高,具有动态性和移动性强的特点,静态的安全防护手段作用被削弱,安全防护措施需要进行动态调整。
                             (3)更高的数据安全保护要求。云计算将资源和数据的所有权、管理权和使用权进行了分离,资源和数据不在本地存储,用户失去了对资源和数据的直接控制,再也不能像传统信息系统那样通过物理控制、逻辑控制、人员控制等手段对数据的访问进行控制。面对用户数据安全保护的迫切诉求和庞大的数据规模,云计算企业需要具有更高的数据安全保护水平和更先进的数据保护手段,以避免数据不可用、数据泄露等风险。
                             (4)合规检查更难。云计算企业必须符合广泛的、不断变化的法律法规要求。随着信息领域的迅速发展,各国、各行业都在加强相关的法律法规建设,云计算企业合规清单不断壮大,涉及网络、数据、信息等方方面面。由于云计算可能存在数据存储位置未知、数据来源难追溯、安全控制和责任缺乏透明性等问题,使得云计算企业和云客户在面临合规性检查时存在困难。如今年生效的欧盟《一般数据保护条例》(GDPR),首次对数据处理者的数据保护能力进行严格要求,赋予数据主体更多的权利,适用范围也大幅扩张。对于云服务商来说,在欧盟境内设立分支机构或服务于欧盟客户时应满足GDPR要求,而即使服务于非欧盟客户,非欧盟客户又服务于欧盟客户时,云服务商也适用GDPR。不仅适用场景繁多,云服务商为满足GDPR要求所开展的工作也更加复杂。数据遍布于云环境,如何提高数据掌控与保护能力,满足用户多种权利,如何快速识别数据泄露事件,及时上报监管部门,都是云服务商合规的难点。
                             (5)多种外部风险。云计算企业搭建云平台时,可能会涉及购买第三方厂商的基础设施、运营商的网络服务等情况。基础设施、网络等都是决定云平台稳定运行的关键因素。因此,第三方厂商和运营商的风险管理能力将影响云计算企业风险事故的发生情况。同时,云计算企业在运营时,可能将数据处理与分析等工作分包给第三方合作企业,分包环节可能存在数据跨境处理、多方责任难界定等风险。
                             如下图所示云计算安全风险架构,对于云计算平台,IaaS层主要考虑基础设施相关的安全风险,PaaS层需要保证运行环境和信息的安全,SaaS层从应用、Web、网络、业务、内容、数据等方面保证应用安全。在云平台的运营过程中,涉及复杂的人员风险、管理流程风险和合规风险。同时,云计算开源技术使用率不断攀升,开源风险也成为云计算领域的关注重点。
                             
                             云计算安全风险架构
                             云计算带来风险责任变化
                             不同云计算企业提供云服务的侧重点不同,企业在使用云服务时,可能会涉及与多个云服务商的合作。任何一个云服务的参与者都需要承担相应的责任,不同角色的参与者在承担各自责任的同时,还需要与其他参与者协同合作,共同规避云平台风险事件的发生。
                             云计算责任共担模式在业界已经达成共识,但还没有统一的责任共担模型。已有部分厂商根据业务特点,建立了自己的责任共担模型。以亚马逊AWS为例,AWS作为IaaS+PaaS为主的服务提供商,负责管理云本身的安全,即保护运行所有AWS云服务的基础设施。客户负责“云内部的安全”,即业务系统安全。这种模式对于国内市场来说,可能会有局限性。在国内,尤其对于SaaS模式,很多用户仍会有“上云,安全就由云服务商负责”的误解。实际上,SaaS模式下数据安全应由云服务商和客户共同负责,云客户应提高安全使用SaaS服务的能力,避免发生误删数据等风险事故。同时,不少信息技术水平较弱的客户,在接触云计算初期,安全风险防控能力不够强,购买SaaS服务后,会使用而不懂如何去进行安全防护,云服务商需要建立更强大的生态以保障云客户安全。
                             云服务提供商应基于云客户的需求,提供云主机等服务和相应的安全策略,同时负责维护云平台的高可用,在出现风险事件时,对基础环境、主机环境、网络环境甚至是应用环境进行故障定位、处置和总结。针对国内市场,在SaaS模式下,云服务商应充分考虑云客户安全防护能力水平,提前告知服务使用方法,在云客户存在疑问时,及时提供解答和帮助,避免发生不必要的安全事故。
                             云客户应基于云服务提供商提供的服务产品使用和安全说明,正确使用服务或产品,避免因为误操作、疏忽等因素造成云平台的风险,同时云客户应按照本公司风险管理要求,对云上信息系统进行风险评估与治理。
                             数据保护贯穿数据使用的整个生命周期,需要云客户与云服务提供商共同维护数据安全。
                             云计算风险管理手段多样化
                             传统IT系统在进行风险管理时,主要通过安全厂商进行安全检查、基于安全软件实现安全防护,而随着云计算风险点和风险责任的变化,除安全厂商外,云计算风险管理需要联动社会多方以提高风险管理能力,包括保险企业、第三方认证机构、监督管理机构等。
                             云计算风险管理手段主要包括:通过事前评估规避风险、事中监控发现风险、事后处置解决风险,建立完善的风险评估体系,全方位保障云平台稳定运行;以金融带动风险管理发展,通过云保险分担事故带来的损失;联合云计算企业、云客户、安全厂商多方建立云计算风险信息共享平台,实现企业互惠共赢。
               云计算产业体系
               云计算产业由云计算服务业、云计算制造业、基础设施服务业以及支持产业等组成,如下图所示。
               
               云计算产业体系
                      云计算服务业
                      云计算服务业包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。IaaS服务最主要的表现形式是存储服务和计算服务,主要服务商如亚马逊、Rackspace、Dropbox等公司。PaaS服务提供的是供用户实施开发的平台环境和能力,包括开发测试、能力调用、部署运行等,提供商包括微软、谷歌等。SaaS服务提供实时运行软件的在线服务,服务种类多样、形式丰富,常见的应用包括客户关系管理(CRM)、社交网络、电子邮件、办公软件、OA系统等,服务商有Salesforce、GigaVox、谷歌等。
                      基础设施服务业
                      基础设施服务业主要包括为云计算提供承载服务的数据中心和网络。数据中心既包括由电信运营商与数据中心服务商提供的租用式数据中心,也包括由云服务提供商自建的数据中心。网络提供商现仍主要是传统的电信运营商,同时谷歌等一些云服务提供商也已经开始自建全球性的传输网络。
                      云计算制造业
                      云计算制造业涵盖云计算相关的硬件、软件和系统集成领域。软件厂商包括基础软件、中间件和应用软件的提供商,主要提供云计算操作系统和云计算解决方案,知名企业如威睿(VMware)、思杰(Citrix)、红帽、微软等;硬件厂商包含网络设备、终端设备、存储设备、元器件、服务器等的制造商,如思科、惠普、英特尔等。一般来说,云计算软硬件制造商通过并购或合作等方式成为新的云计算系统集成商的角色,如IBM、惠普等,同时传统系统集成商也在这一领域占有一席之地。
                      云计算支持产业
                      云计算支持产业包括云计算相关的咨询、设计和评估认证机构。传统IT领域的咨询、设计和评估机构,如Uptime、LEED、Breeam等,均以不同程度涉足云计算领域。
               云计算对电子商务的发展影响
                      云计算在电子商务中的应用优势
                             投入成本节约化
                             传统电子商务企业为了维持正常的运作,需要购入大量的服务器、计算机等设备,并为设备更新及维修花费大量资金。然而,随着云计算逐渐应用到电子商务行业,电商企业只需要链接互联网,就能够使用强大的云计算功能。具体来说,云计算通过构建虚拟数据中心,把用户端的存储、传输以及计算功能聚集并形成一个虚拟数据池,通过网络传输数据信息,从而为客户端提供服务。因而,云计算的应用为电子商务企业节省了大量的设备准备及人才培养费用,大大降低了电商行业的投入成本。
                             数据存储安全化
                             传播快速、分布广泛的互联网在为网络用户带来便利的同时,也滋生了网络病毒的恶意传播,严重威胁着网络系统安全,一旦网络威胁发生、电子商务数据泄露,电商企业将面临巨大的经济损失。而云计算的应用,可以大大提高数据存储的安全性,为电商企业的发展提供安全保障。简单来说,云计算把电子商务数据存储到“云”中,“云”提供商自身专业的安全保护策略以及系统安全架构可以为电商企业的信息安全保驾护航。同时,相对于传统存储方式,云计算的权限管理十分严格,共享数据只能够向自身指定的群体传输。
                             商业活动便捷化
                             云计算的应用促进了商业活动进一步跨越时间以及空间范围的障碍,能够更加自由地进行移动交易。在云计算环境下,用户可以更加便捷地搜索所需求商品、浏览推荐产品、完成网络购物。云计算依靠联合众多个体计算机而形成一个整体,产生强大的计算能力,合理地调度信息资源、科学地分配计算任务,大大提高了商业活动的效率,为网络购物提供了个性化、自由化服务。
                             数据资源共享化
                             依靠云计算技术,电子商务行业能够把不同终端设备之间的数据互通互联,形成数据资源中心,存储在云端,并对合法访问云端的申请授予权限,用户通过终端设备联网,能够随时、随地对共享数据资源进行调取与访问。同时,用户可以自由地在共享资源中选择自己需求的信息,极大地方便了用户使用共享信息。相对于传统共享模式,当计算机出现故障时,共享数据受到的影响极小,因为云计算技术能够快速定位故障计算机,及时备份数据,同时选择另外的服务器来完成存储数据的任务。
                      云计算应用背景下电子商务模式的转变
                      商务模式作为为企业创造利益的手段、一种商业活动的工具,具有紧跟时代发展、不断创新变革的特点。随着云计算技术的不断深入应用,电子商务模式也发生了革命性的转变。云计算应用背景下电子商务模式的转变可以体现在以下三个方面:
                      (1)应用模式方面。传统应用模式依靠的是计算机本地系统进行操作,而在云计算技术应用下,电子商务企业将ERP、PDM以及OA等数据资源存储在云端,云端下再链接人工服务。
                      (2)消费模式方面。传统的电商消费模式依靠的是由单机许可使用计算机软件产品及硬件产品,而云计算背景下企业使用的硬件及软件设备可以直接向SAAS层级过渡;同时,用户的消费模式逐渐转变到移动终端支付模式。
                      (3)外包模式方面。随着云计算在电子商务行业的应用,外包模式的应用范围已经不再仅仅局限于IT行业,并且已经逐步拓展到电商领域。在电子商务领域,外包模式包含人才资源外包、管理团队外包、决策运营外包等众多内容。并且基于SAAS模式,电子商务企业可以自由使用外包模式。外包模式的应用,促进了电子商务企业拓宽业务领域,完成行业升级转型。
   题号导航      2019年上半年 信息处理技术员 上午试卷 综合知识   本试卷我的完整做题情况  
1 /
2 /
3 /
4 /
5 /
6 /
7 /
8 /
9 /
10 /
11 /
12 /
13 /
14 /
15 /
 
16 /
17 /
18 /
19 /
20 /
21 /
22 /
23 /
24 /
25 /
26 /
27 /
28 /
29 /
30 /
 
31 /
32 /
33 /
34 /
35 /
36 /
37 /
38 /
39 /
40 /
41 /
42 /
43 /
44 /
45 /
 
46 /
47 /
48 /
49 /
50 /
51 /
52 /
53 /
54 /
55 /
56 /
57 /
58 /
59 /
60 /
 
61 /
62 /
63 /
64 /
65 /
66 /
67 /
68 /
69 /
70 /
71 /
72 /
73 /
74 /
75 /
 
第1题    在手机中做本题