一).网络搜索引擎
定义
帮助Internet用户查询信息的软件系统,它以一定的策略在Web上搜索和发现信息,对信息进行理解、提取、组织和处理后,为用户提供Web信息查询服务。
从使用者的角度看,搜索引擎提供了一个网页界面,让其通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表。这个列表中的每一个条目都代表一篇网页,每个条目至少包括标题、URL和摘要3个元素。
二).搜索引擎的原理与组成
全文搜索引擎功能模块的组成
全文搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。
搜索器:从Internet上自动搜索网页的数据。
索引器:将搜索到的数据自动建立索引并将之存放在索引数据库中。
检索器:根据用户的查询需求快速地在索引库中检索出文档。
用户接口:是一个用于输入用户查询、显示查询结构的页面生成系统。
目录导航和网页搜索引擎组成
目录导航式搜索引擎的信息搜索由人工完成,搜索引擎的标引专家依靠手工来搜寻不断出现的新网站,给每个网站一个标题和大概的描述,将其放入相应的类目体系中。目录导航式搜索引擎的索引数据库存入每个网站的标题、描述、类目,超文本链接组成倒排文档。
Google和百度搜索引擎
Google
主要技术采用了分布式爬行系统网页采集技术、页面等级技术和超文本匹配分析技术,提供图象搜索功能、学术搜索、地图搜索、在线翻译、新闻网站群、年度排行榜、网页快照、语言转换等功能。
Baidu
采用了智能性、可扩展搜索技术、超链分析技术、智能化中文语言处理技术、分布式结构优化算法和容错设计、智能化相关度算法技术、检索结果的智能化输出技术、高效的搜索算法和服务器本地化技术,提供体贴的提示功能、快照功能、专业的MP3搜索功能、便于用户交流的“贴吧”功能、百度常用搜索功能等。
【例】网络全文搜索引擎的基本组成部分是搜索器、检索器、索引器和( )
用户接口
后台数据库
爬虫
蜘蛛
答案:A
【例】关于GOOGLE搜索技术的描述中,错误的是( )
采用分布式爬行技术
采用超文本匹配分析技术
采用网络分类技术
采用页面等级技术
答案:C