| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 书信 | 
您现在的位置: 范文大全网 >> 论文 >> 计算机论文 >> 正文 用户登录 新用户注册
几种信息检索模型比较           
几种信息检索模型比较

摘要:对信息检索模型研究的主要内容和构建策略进行了描述,给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点,并就存在的问题进行了探讨,

keywords:information retrieval models;relativity;inquiry;search engine

当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜索引擎系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发,对信息检索模型研究的主要内容和构建策略进行了详细的描述,并给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点及存在的问题,总结了当前信息检索模型的研究现状和发展趋势,其目的在于提高信息检索、查询的性能和效率。

一、构建信息检索模型的策略

当前,构建信息检索模型的主要策略有以下两个:

(一)通用的信息检索模型

构建一个通用的信息检索模型,研究优化的匹配算法,提高查询速度、查全率和查准率,最大程度地满足一般用户的查询需求。

(二)用户兴趣模型

根据特定用户查询兴趣要求构建用户兴趣模型或共同兴趣模型,能够尽可能地满足特殊用户查询的需求。它可以构建一个适合行业或专业应用语义要求信息获取模型。lOcALhoSt如google就能推断用户的使用意图,提供动态的、即时的用户“个性化定制”信息,帮助用户快速、准确地定位到所需要的信息。

二、常用的信息检索相关性算法

(一)布尔模型

布尔模型是基于特征项的严格匹配模型,文本查询的匹配规则遵循布尔运算的法则。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索引擎则根据事先建立的倒排文件结构,确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。查询结果一般不进行相关性排序。

在布尔模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询条件。布尔模型用文档的检索状态值作为一种评价查询和文档相似性的一种方法。这里,首先定义关键词集合s,关键词为t1,t2,…,tn。

这些关键词可以和逻辑操作符and,or和not形成不同的条件查询。如果得到条件表达式的值为true,该文档相对于此条查询的检索状态值为1;如果若干文档相对于此条查询的检索状态值都为1,则可以认为,这些文档与此用户的查询是相关的。

布尔模型的主要优点有两点:一是实现起来比较容易,速度快,计算的代价相对较少。二是查询语言表达简单,用户可以使用任意复杂的查询表达式,易于表示同义关系(如:聋教育or特殊教育)和词组(如:计算机and基础and课程改革)。它的缺点是,由于所有检索到的与用户查询条件相关的文档具有相同的检索状态值,则不能对查询结果按照相关性进行排序;另外关键词也没有考虑权重的影响,缺乏定量分析和灵活性以及不能表述模糊匹配。而为了克服布尔型信息获取模型查询结果的无序性,在查询结果处理中引进了模糊逻辑运算,将所检索的数据库文档信息与用户的查询要求进行模糊逻辑比较,按照相关的优先次序排列查询结果。

(二)向量空间模型

向量空间模型把信息库中的文本以及用户的查询都表示成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。向量空间模型是现在的文本检索系统以及网络搜索引擎的基础。

在向量空间模型中,信息检索系统如果涉及n个关键词term,则建立n维的向量空间,每一维都代表不同的关键词term。首先要建立文本和用户查询的向量,一个n元组的文档向量di的每个坐标都通过对应关键字的权重来表示,查询向量中的权重表示对应关键词对于用户来说的重要程度。然后进行查询向量和文本向量的相似性计算。并可以在匹配结果的基础上进行相关反馈,优化用户的查询。在知道了文档向量与查询向量后,查询与文档的相似性就可以通过公式(2)求解。

(2)

在公式(2)中,文档di可以用n维的向量表示,其中每个分量表示某一term在整篇文档中的权重。q = (q1,q2,…,qn)中ql表示terml在q中的权重。

向量空间模型的优点在于:1.检索词加权改进了检索效果。2.部分匹配策略允许检索出与查询条件相近的文献。3.可以根据相似度对文献进行排序。

它的缺点是,在这种模型中的基本假设,关键词term向量之间被假设为相互无关的,而实际是有时它们之间大多是依赖关系,如在自然语言中,词或短语之间存在着十分密切的联系。所以这一假设对计算结果的可靠性造成一定的影响。另外,在查询中,也不能像布尔模型一样使用关键词之间的逻辑运算关系。

(三)概率模型

概率模型主要是基于概率排序原则:即如果文档按照与查询的概率相关性的大小排序,那么排在最前面的是最有可能被获取的文档。它主要针对信息检索中相关性判断的不确定性以及查询信息表示的模糊性。

在前面的向量模型中,我们假定关键词term向量是正交的,不考虑term向量之间的依赖关系。而在概率模型中,可以通过概率计算表达关键词term之间,以及关键词term和文档之间的依赖关系,预测文档与用户查询的相关概率,并可以对获取的结果按照相关度概率的大小进行排序(简称prp)。

概率模型有两个主要的参数:一个文档和用户查询的相关概率pr(rel)及不相关概率pr(nonrel),并且pr(rel)=1-pr(nonrel)

[1] [2] 下一页

  • 上一个论文:

  • 下一个论文:


  • 看了《几种信息检索模型比较》的网友还看了:
    [电子机械]浅析基于可靠性工程的电子信息装备质量管理研究
    [电子机械]浅谈中小企业电子信息安全技术研究
    [法律论文]试析个人信息的民法保护
    [法律论文]试析我国公民个人信息的刑法保护
    [法律论文]简论手机信息证据的审查判断研究
    [企业管理]试析会计信息化进程中会计人员能力的培养
    [经济论文]西方公司社会责任信息披露研究及启示
    [免费范文]通信网络结构在煤炭企业信息化建设中的应用
    [免费范文]基于虚拟现实技术的多维信息空间探析
    [免费范文]保证信息与网络安全的网络伦理规范体系的构建

    计算机论文
    普通论文数字化校园一卡通系统的安全
    普通论文网络化办公中的信息安全
    普通论文TOC、MRPII与JIT的比
    普通论文关于计算机网络管理技术的认识
    普通论文省级远程气象信息容灾备份系统技
    普通论文浅谈区域创新网络的系统结构与创
    普通论文论信息时代高校科研人貝的信息素
    普通论文校园网升级改造的设计与实现
    普通论文学校计算机机房管理探索
    普通论文论计算机网络管理技术初探
    普通论文基于EON Studio的数字展览室的设
    普通论文论析计算机网络应用课程中的DHCP
    论文
    普通论文[免费范文]城镇经济是县域经济发展
    普通论文[今日更新]肿节风挥发油对荷瘤小鼠
    普通论文[法律论文]论如何发挥中国特色检察
    普通论文[免费范文]二○○四年供销社领导班
    普通论文[法律论文]浅谈我国企业境外知识产
    普通论文[免费范文]述职报告(公务员)
    普通论文[工程建筑]悬臂施工桥梁0号块件裂
    普通论文[今日更新]高一作文:用微笑面对困境
    范文大全
    普通范文[范文大全]大学生孤寡老人生活社会
    普通范文[范文大全]2010年度中学校长年终述
    普通范文[范文大全]园林局实践科学发展观动
    普通范文[科学发展观]“学习实践科学发展观与
    普通范文[科学发展观]全党开展科学发展观活动
    普通范文[范文大全]2011年检察院研究室上半
    普通范文[范文大全]2010全国两会专题热点之
    普通范文[范文大全]市道德模范先进事迹——
    演讲致词
    普通演讲[爱国演讲]我爱家乡
    普通演讲[庆典致辞]市委书记在煤化工项目签约
    普通演讲[会议发言稿]商标协会成立大会主持人串
    普通演讲[爱国演讲]最新一二九运动演讲稿范文
    普通演讲[婚丧致辞]婚礼证婚人讲话
    普通演讲[竞聘演讲稿]校团委委员竞选演讲稿
    工作范文
    普通公文方案[申报材料]计算机学院文明单位创建工
    普通总结[年终总结]2009年综合行政执法局年终
    普通党建工会[政府政务]县委书记在全县信访工作会
    普通总结[工作计划]小学教师第二学期个人工作
    普通党建工会[入党相关]公司技术员工预备党员转正
    普通总结[个人总结]外出研修学习总结材料5则
    普通公文方案[公文写作]实习报告(一)
    普通领导讲话[反腐倡廉]科技系统廉政建设的工作报
    普通党建工会[三农问题]中国的农业、农村、农民问
    普通总结[工作计划]2013年综合管理岗位个人工
    普通公文方案[公文写作]团代会闭幕词
    普通公文方案[活动方案]大学乒乓球比赛策划书