|
知识路径: > 多媒体信息显示、发布及搜索技术 > 多媒体信息搜索技术 > 搜索引擎的基本工作原理 >
|
被考次数:2次
被考频率:低频率
总体答错率:32%  
知识难度系数:
|
由 软考在线 用户真实做题大数据统计生成
|
相关知识点:12个
|
|
|
|
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息都像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎则为用户绘制了一幅一目了然的信息地图,供用户随时查阅,它们从互联网上提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,最终按一定的排列顺序返回结果。
|
|
|
|
|
|
首先在互联网中发现、搜集网页信息,同时对信息进行提取和组织建立索引库,再由检索器根据用户输入的查询关键字在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
|
|
|
|
每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫顺着网页中的超链接从一个网站爬到另一个网站,通过超链接分析连续访问并抓取更多的网页,被抓取的网页称为网页快照。由于互联网中超链接的应用很普遍,因此理论上从一定范围的网页出发就能搜集到绝大多数的网页。
|
|
|
|
搜索引擎抓取到网页后,还要进行大量的预处理工作,然后才能提供检索服务。其中,最重要的工作就是提取关键词、建立索引库和索引。其他工作还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度和丰富度等。
|
|
|
|
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页。为了便于用户判断,除了网页标题和URL外,搜索引擎还会提供一段来自网页的摘要以及其他信息。
|
|
|
|
|
|
搜索引擎按其工作方式可以分为三类,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
|
|
|
全文搜索引擎是名副其实的搜索引擎,它们都是通过在从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中检索与用户查询条件匹配的相关记录的,然后按一定的排列顺序将结果返回给用户,因此它是真正的搜索引擎。具有代表性的有谷歌、百度。
|
|
|
目录索引也称分类检索,是因特网上最早提供WWW资源查询的服务,主要通过搜集和整理因特网的资源,再根据搜索到的网页内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的树形结构索引。目录索引无须输入任何文字,只要根据网站提供的主题分类目录层层点击进入,便可查到所需的网络信息资源。虽然有搜索功能,但在严格意义上它还算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不进行关键词查询,仅靠分类目录也可以找到需要的信息。目录索引中最具代表性的有雅虎、搜狐、新浪、网易搜索。
|
|
|
元搜索引擎也称集成搜索引擎,是指在接收用户查询请求时同时在其他多个引擎上进行搜索,最终将结果返回给用户。具有代表性的元搜索引擎有360综合搜索、搜星搜索引擎、Mamma。
|
|
|