搜索引擎的原理及spider程序浅析


\| 网站首页 \| 范文 \| 演讲致词 \| 汇报体会 \| 总结报告 \| 公文方案 \| 领导讲话 \| 党建工会 \| 论文 \| 文档 \|

您现在的位置：范文大全网 >> 论文 >> 今日更新 >> 正文

用户登录

新用户注册

搜索引擎的原理及spider程序浅析

搜索引擎的原理及spider程序浅析

出了百度百科，搜集新词汇新名词，成了新的亮点。“百度一下”已经成为了人们进行搜索的新动词。
　　谷歌（Google）：“谷歌搜索引擎”由美国谷歌公司开发研制。谷歌的使命就是要为您提供网上最好的查询服务，促进全球信息的交流。谷歌开发出了世界上最大的搜索引擎，提供了最便捷的网上信息查询方法。通过对 30 多亿以上网页进行整理，谷歌可为世界各地的用户提供适需的搜索结果，而且搜索时间通常不到半秒。现在，谷歌每天需要提供2亿次以上查询服务。谷歌近期推出的谷歌地球、地图、卫星等服务，使用户足不出户便知天下。
　　从搜索引擎的工作原理来区分，搜索引擎有两种基本类型：一类是纯技术型的全文检索搜索引擎，如百度、Google等，其原理是通过爬行程序（即Spider程序）到各个网站收集、存储信息，并通过一定的算法建立索引数据库供用户查询。另一类称为分类目录，这种搜索引擎并不采集网站的任何信息，而是利用各网站向搜索引擎提交网站信息时填写的关键词和网站描述等资料，经过人工审核编辑后，如果符合网站登录的条件，则人工输入数据库以供查询。分类目录的好处是，用户可以根据目录有针对性地逐级查询自己需要的信息，而不是像技术性搜索引擎一样同时反馈大量的信息。
　　搜索引擎的实现原理，根据搜索引擎的工作原理不同而不同，若是通过Spider（即网络蜘蛛或网络爬行程序）来实现的，则分下边四个过程：首先在互联网上搜索网页搜索完网页后建立相应的索引数据库然后在索引数据库中搜索最后通过一定算法对搜索结果进行处理和排序。具体过程是从互联网上抓取网页，首先使用能够从互联网上自动收集网页的爬行程序（Spider），遍历整个网络，并沿着任何网页中的所有链接爬到其它网页，不断的重复这过程，并把爬过的所有网页收集到服务器中并建立索引数据库。由索引数据库中的相关语言将收集回来的网页进行分析，提取相关信息（包括网页所在超级链接、语言类型、页面内容包含的关键词、关键词位置等），根据一定的算法计算，得到每一个网页针对页面内容中及超链接中每一个关键词的相关度，然后用这些相关信息建立索引数据库（爬行程序不是每次输入内容时都重新爬行的，这样建立索引数据库也方便了用户再查寻），在索引数据库中检索，当用户输入关键词后，由搜索系统程序从网页索引数据库中找到符合该关键词的所

上一页 [1] [2] [3] [4] 下一页

上一个论文：小议网络搜索引擎广告

下一个论文：省级正刊《当代畜牧》杂志简介及征稿启事_中国知网收录简介