搜索引擎的原理及spider程序浅析


\| 网站首页 \| 范文 \| 演讲致词 \| 汇报体会 \| 总结报告 \| 公文方案 \| 领导讲话 \| 党建工会 \| 论文 \| 文档 \|

您现在的位置：范文大全网 >> 论文 >> 今日更新 >> 正文

用户登录

新用户注册

搜索引擎的原理及spider程序浅析

搜索引擎的原理及spider程序浅析

ider会首先爬行其主页，如果主页有用户匹配的信息，即显示出来。如没有则搜索该网站的B、C、D、E、F链接，然后再爬行B、C、D、E、F网页如果有，则抽取其中一个显示，如果没有则在爬行该网页的下一层链接，即图2中的H、G，如果有则显示出该链接。依次类推。这样的爬行无疑省去了大量的时间和存储空间。例如：搜索“论文”如果主页有该词则主动提取出来，如果主页无出现，则深入该网站的下一层，依次类推。
　　深度优先的抓取顺序：如图2右边显示，如果A是一个网站的主页的话（index.htm），如果输入一个词后，爬行程序开始检索A网站，并且爬行其所有的链接直到链接的末端，如A网站的F层到F层的下一层G层，则是如此进行。E也是如此，有E层进入其下一层网页即H，再有H进入下一层即I，依次爬行下去，直到找到该网站的所有有匹配的页面，如此爬行，工作量无疑太大，但是却提高了检索率。
　　Spider程序是搜索引擎的核心， Spider数据的结果直接影响到搜索引擎的评价指标，第一个Spider程序由MIT的Matthew K Gray操刀，该程序的目的是为了统计互联网中主机的数目。
　　目前网站上开源的spider程序很多，例如JAVA语言、PHP语言、C#语言、C中国论文联盟www.LWlm.cOm++语言等，这里就不一一介绍各个语言了及具体算法了。
　　该文就搜索引擎原理及其Spider做了简单的介绍，不合理之处请大家多多批评。
　

上一页 [1] [2] [3] [4]

上一个论文：小议网络搜索引擎广告

下一个论文：省级正刊《当代畜牧》杂志简介及征稿启事_中国知网收录简介