。即
pr[term t in document|document is relevant]=rt/r (3)
pr[term t in document | document is irrelevant]= (ft-rt)/(n- rt) (4)
其中:r表示与用户查询相关的文档数;rt表示在相关r中出现关键词term t的文档数;n表示文档数;ft表示在n个文档中出现关键词term t的文档数。由式(3)和(4),可以
得到:
pr[term t is not in document| document is relevant]= (r- rt)/r (5)
pr[term t is not in document | document is irrelevant]=(n-ft-(r- rt))/(n- rt) (6)
根据上面所给的“条件概率”,可以计算出关键词term t的权重:
(7)
在公式(7)中,如果wt>0,表明词term t出现的文档与用户查询相关;如果wt<0,出现term t的文档与用户查询无关。
概率模型的主要缺点是对文本集的依赖性过强,而且条件概率值很难估计。概率模型的一个特例是贝叶斯网络,该网络以概率的方式定义了关键词的权重随着与其相关的关键词的权重的改变而改变方式。由于该模型适用于超文本信息系统,因而该模型的应用越来越广泛。但是该模型的缺点是,计算复杂度很大,因而该模型不适合很大的网络。
三、结束语
目前,大多数信息检索模型都依赖于布尔模型,而在实验环境中用的最多并居于主导地位的是传统的向量空间模型。信息检索模型还有许多其他变种,如基于布尔模型的变种有:模糊集合模型、扩展布尔模型;基于矢量空间模型的变种有:通用矢量空间模型、潜在语义索引模型、神经网络模型;基于概率模型的变种有:推理网模型、可信网模型。而总体上来看,这些模型及其变种都是“语法”层次的信息检索模型,没有具有“语义”特征的规范的词汇集。今后,进一步研究基于“概念语义空间”的文本信息组织与检索,建立基于本体的信息检索模型,则能有效地代表文档和用户信息需求,使信息检索更加精确、有效。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和最大限度地满足用户个性化的要求。
参考文献:
[1]ricardo baeza-yates,berthier riberiro-neto等著.王知津等译.现代信息检索[m].北京:机械工业出版社,2005
[2]吴丽华,罗云锋,张宏斌.信息检索模型及相关性算法的研究[j].情报杂志,2006(12)25-27
上一页 [1] [2]