搜索引擎的工作原理及检索技巧之我见 |
|
|
搜索引擎的工作原理及检索技巧之我见
引言 当前Internet正在以蓬勃的姿态快速发展,网上信息也以惊人的速度在增加,网络资源内容十分丰富,几乎涵盖全部领域,是名符其实的知识和信息的综合体,也是现代人取得各种新闻、日常等信息的普遍工具。我们在网上自由地浏览和检索自己需要的信息,此时,网络就成为了一座虚拟的最大的图书馆,但是和有序的实体图书馆不同的是,这里的各种信息包括广告、八卦、杂志以及文献等都以杂乱无章状态陈列着,没有专门的组织机构将这些信息有序排列起来以供人们查阅使用。正是网络资源的优缺点,使得我们在使用网络查找自己所需要的信息时出现困难。所以,为了解决这种矛盾,搜索引擎就相应地诞生了,搜索引擎是互联网上的分布式搜索系统,它在传统数据库检索技术基础上增加了自动搜索和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序。 一、搜索引擎的工作原理 搜索引擎为了以最快的速度得到搜索结果,它搜索的通常是预先整理好的网页索引数据库。搜索引擎,不能真正理解网页上的内容,它只能机械地匹配网页上的文字。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 典型的搜索引擎三大模块组成: (一)信息采集模块 信息采集器是一个可以浏览网页的程序,被形容为“网络爬虫”。wwW.YBasK.com它首先打开一个网页,然后把该网页的链接作为浏览的起始地址,把被链接的网页获取过来,抽取网页中出现的链接,并通过一定算法决定下一步要访问哪些链接。同时,信息采集器将已经访问过的URL存储到自己的网页列表并打上已搜索的标记。自动标引程序检查该网页并为他创建一条索引记录,然后将该记录加入到整个查询表中。信息收集器再以该网页到超链接为起点继续重复这一访问过程直至结束。 一般搜索引擎的采集器在搜索过程中只取链长比(超链接数目与文档长度的比值)小于某一阀值的页面,数据采集于内容页面,不涉及目录页面。 [1] [2] [3] [4] 下一页 |
|
|
|
上一个论文: 基于Lucene.net的档案垂直搜索引擎的实现 下一个论文: 阅读教学中的提问艺术之我见 |
|