页链接分析的搜索排序算法
如果把网络链接分析看作是引文分析思想在网络环境下的一种理论创新和发展,那么,已在搜索引擎中得到广泛使用的各种基于网页链接分析的搜索排序算法的研制,则可以看作是引文分析方法的一种新型网络应用。
由于网络搜索技术的局限性,搜索结果排序算法一直是各类搜索引擎关注的核心问题。受传统引文分析研究思想的影响和启发,目前在搜索结果排序方面已产生了一系列基于网页链接分析的有效而成功的算法,其中尤以搜索引擎google1998年开发的pagerank算法最具影响力。
传统的搜索结果排序算法主要建立在网页内容与用户搜索请求相关性判断的基础上,这种方法深受网页关键词作弊的危害。作为一种新型的排序算法,pagerank的研制直接受到了传统文献计量学引文分析研究思想的影响和启发,两者具有明显的相似之处。
引文分析研究的基本前提假设之一是:一篇文献的学术水平、(或质量)可由它被其他文献引用的次数来评定,被引用的次数越多,则它的学术水平(或质量)就越高。于是,pagerank算法将这种思想推广、应用到了网页链接分析中。pagerank的基本算法思想可以概括为以下三点:①如果一个页面被多次引用(或链接),那么这个页面很可能是重要的;②如果一个页面尽管没有被多次引用,但却被一个重要的页面引用,那么这个页面很可能是重要的;③一个页面的重要性被均分,并传递到它所引用(或链接)的页面。据此,对网络中每个web页面的链接状况进行全面分析并赋予它们不同的pagerank值(即重要性值),便可以应用于网页搜索的结果排序。
由于这种排序思想主要建立在网页链接分析的基础上,不仅独立于网页的语言和内容,而且不需要人工干预就能自动发现web上的重要资源,因而提供了一种衡量网页质量的有效方法。
pagerank算法的研制和应用不仅为coogle赢得了巨大的成功,而且迅速催生了一系列类似的排序算法,例如用于博客搜索结果的peoplerank算法、在网络自由分类法使用过程中的userrank算法、tagrank算法和folkrank算法等。其中,peoplerank算法主要基于博客用户之间的联系(具体联系方式包括好友链接或朋友列表、博文阅读、回复与评论等)来自动发现重要的博客用户,并依此作为博客搜索结果排序的一个重要因素;userrank算法的提出,主要用在基于自由分类法的检索结果显示时,要求按照提出被认可标签的数量多少对用户进行排序;而tagrank算法则是基于userrank的标签排序;至于folkrank算法的排序机制,则又整合了userrank和tagrank,认为由重要用户标注的重要标签下的资源是重要的(且用户和标签拥有同等地位),并以此作为自由分类法检索结果的排序依据。所有这些衍生的排序算法,其基本思想(或出发点)都与pagerank算法是一致的,只不过应用场合不同,链接分析的对象也由网页换成了博客用户、标签用户、标签等。
4、网络引文索引工具的研制与使用
随着学术研究、信息交流与传播等活动的日益网络化,传统的引文索引工具已无法适应e-science时代引文分析的研究需求。为此,各种网络化引文索引工具的编制逐渐被提到议事日程,并在当前的引文分析研究工作中逐步获得应用。
1998年,第一个网络引文索引citeseer开始研制,并于1999年正式投入使用。2004年,citeseer更名为citeseer.ist。作为一个主要面向计算机和信息科学领域学术资源的网络引文索引与检索工具,citeseer主要基于自动引文索引(autonomous citation indefing,简称aci)技术编制而成。其主要编制步骤是:①使用多个搜索引擎,基于关键词对网络中的学术性文献资源(主要是postscript和pdf 2种格式的学术论文)进行自动搜索和下载,并通过检查是否存在参考文献或书目来确认其是否为学术性文献;如是学术性文献,则对其进行文本转换和识别,建立全文索引。②从文献中自动识别、抽取引文信息,包括引文环境(即上下文)、引文子字段等,特别是对以不同格式标注的相同引文进行归类处理。③采用多种文献相似性测度方法,对相关文献和相似文献进行自动识别。在运用aci先进技术的过程中,citeseer的编制还充分借鉴、结合了传统引文分析研究中对文献之间引用和被引用关系的揭示方法,因此在为网络用户提供免费访问和检索使用时,citeseer不仅能够返回一个与检索请求相匹配的结果文献列表,而且对列表文献中包含的引证与被引证关系建立了全面的关联链接,以方便用户对检索结果以及文献引用与被引用数据的查看和跟踪。
针对网络学术论文的特点,citeseer主要提供以下3项特色的文献引文服务功能:①引文上下文(con-text)信息显示,把文献中引文出现位置前后的若干词组或句子以粗体字标注出来,使用户不需阅读原文就能直接获知引文被引用的上下文环境。②相关文献揭示,具体包括基于语句分析的相似文献、基于文本分析的相似文献、动态相关文献书目(active bibliogra.phy)和基于共引关系的相关文献(related documentsfrom co-citation)等不同方式。③引文图,以图形方式直观地显示文献被引用的时间分布状况。
目前,citeseer可在线查询和获取的学术资源数量已接近100万。与sci、ssci等传统引文索引数据库相比,citeseer在全文可获得性、全面性、及时性、费用等方面都具有明显优势。例如,一旦有学术性文献在网络上出现,就能自动进行搜索和索引,并把包括预印本、技术报告、会议录等不同类型学术文献的引证关系考虑进来;提供免费的网上服务,极大地发挥了引文索引的文献检索和评价功能;一些附加的网络服务(如论文修正(correet)链接功能等)可以链接到
上一页 [1] [2] [3] 下一页