|
(1)全文搜索引擎。全文搜索引擎是广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。全文按索引擎一般由信息采集、索引和检索三部分组成。
|
|
|
信息采集的工作由搜索器和分析器共同完成,搜索引擎利用称为“网络爬虫”(Crawlers)、“网络蜘蛛”或“网络机器人”(Robots)的自动搜索机器人程序来查询网页上的超链接。
|
|
|
搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存建立起来的信息,还要将它们按照一定的规则进行排序。
|
|
|
检索是用户向搜索引擎发出查询信息,搜索引擎接受查询信息并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询前已经计算了各个网页的网页登记,返回查询结果时网页等级高的放在前面,网页等级低的放在后面。
|
|
|
不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,排序是不同的。主要的全文搜索引擎有Google和百度等。
|
|
|
(2)分类目录搜索引擎。分类目录搜索引擎也同样由信息采集、索引和检索三部分组成,只不过分类目录搜索引擎的信息采集和索引两部分主要依靠人工完成。用户在查询信息时,可以选择按照关键词搜索,也可按照分类目录逐层查询。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址和简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。主要的分类搜索引擎有雅虎、新浪分类目录等。
|
|
|
(3)元搜索引擎。元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。2005年成立的比比猫是我国首家元搜索引擎,它独创国际领先的聚类和去重技术,为用户提供精准、简捷、快速、智能、丰富的体验,但它只经历了短暂的生命周期,现已倒闭。元搜索引擎的工作原理如下图所示。
|
|
|
|
|
(4)垂直搜索引擎。又称行业搜索引擎,是搜索引擎的细分和延伸。当用户需要查询专业或者特定领域信息时,垂直搜索引擎是最好的选择,具有“专、精、深”的特点,垂直搜索引擎是有针对性地为某一特定领域、特定人群或特定需求提供的有一定价值的信息和相关服务,可以简单地说成是垂直搜索引擎领域的行业化分工。例如慢慢买就是一个垂直搜索引擎。
|
|
|