| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 书信 | 
您现在的位置: 范文大全网 >> 论文 >> 计算机论文 >> 正文 用户登录 新用户注册
基于生物医学文献的蛋白质关系发现           
基于生物医学文献的蛋白质关系发现

作者:彭春艳 张晖 包玲玉 陈昌平

论文关键词:知识发现 生物命名实体识别 实体关联

论文摘要:实验提出了一种基于词频统计的蛋白质关系知识发现方法.该方法首先通过生物命名实体识别技术识别出蛋白质实体.然后统计共出现频率,形成候选实体对,从而发现最有可能的实体关联。

1引言

分子生物学研究的飞速发展,使生物医学文献呈指数级增长。如此多的文献资源,为科研人员运用数据挖掘和文本挖掘技术,发现隐含的、有价值的知识提供了有利的条件。

由于大多数的生物信息都保存在文本中。因此对生物医学的研究一般采用文本挖掘技术。文本挖掘是一个交叉的研究领域,它涉及了数据挖掘、信息检索、自然语言处理等多个研究领域的内容。利用文本挖掘技术,可以发现许多有用的信息。一些科研人员利用文本挖掘工具,发现了许多对人类有用的知识,例如:鱼肝油可治疗雷诺式症、蛋白质之间的相互作用等。另外,从生物医学文献中抽取蛋白质基因1相互作用关系对蛋白质知识网络的建立、蛋白质关系预测以及辅助新药的研制等都具有重要的意义。

2相关研究

生物医学的知识发现,一般针对文献进行研究。基于文献的知识发现,主要有基于统计、关联规则、信息测度和基于语义的方法。华盛顿大学的swanson教授提出了基于单词的词频统计方法。首先统计出共出现的单词的频率,然后对文献集进行分析。通过这种方法,swanson发现了许多对人类有益的知识。lOCaLHOst例如,鱼肝油对于雷诺氏症的治疗作用,镁的缺失会引起偏头痛,某些病毒可以成为潜在的生化武器等等,这些发现都得到了临床上的证实。

hristovski日将关联规则挖掘引入了基于文献的知识发现。他将生物文献看作数据库中的事务,而用来代表文献内容的词则看作是规则中的项,通过设置支持度阈值和置信度阈值来产生关联的词汇。wren为词汇间具有信息的关联。他使用互信息方法来计算词的关联度,通过互信息值的大小来表示关联的强度。他的方法具有领域无关的特性,可以用来推广到很多的研究领域。

weebeilq等人设计了一个文本挖掘工具dad系统。它利用自然语言处理系统metamap将文献中的语句映射为umls本体中的生物概念。用概念来取代词汇作为知识发现的基础。该方法实现了语义层次上的知识发现。他们利用dad系统找出了生姜潜在的医疗作用。在关联规则挖掘中,有效阈值的设定很困难。如果阈值设置的过低,会产生大量的候选规则,而设置的过高,则有可能过滤掉许多有意义的规则。另外,基于语义的方法,需要构建领域本体,这需要许多专业人士的共同参与。因此,本文在swanson的理论基础提出了一种基于命名实体的词频统计方法,该方法通过实体提取、句子分析等过程发现蛋白质之间潜在的关系。该方法阈值的设定对实验结果影响不大,而且不需要领域专家的参与。

3方法描述

本文实现了一个蛋白质知识发现系统。该系统使用medline中随机生成的2000篇摘要进行分析。系统首先对语料进行蛋白质实体识别,形成蛋白质实体列表,然后对句中的每个蛋白质实体对进行共出现频率统计,进而生成候选实体对,最后找出最高出现频率的实体对,从而发现最可能的实体关联。该系统的框架如图1所示。

3.1蛋白质实体识别

在对生物医学领域的文本挖掘中,实体识别的目的是对文本中的专业词汇,包括基因、蛋白质、dna和rna等加以确认和分类。对蛋白质的知识发现,第一步就是进行蛋白质实体的识别。实验采用了一种基于条件随机域的生物实体识别方法,该方法以mallet工具为基础,并增加了单词的数字、字母、以及距离依赖特性。

3.2共出现频率分析

文献挖掘有不同层次的分析单元,如单词、短语、句子、摘要或者全文。对于实体共出现频率而言,以句子为最大分析单元式最合理的选择。如果两个实体对象同时出现在一个句子中,那么就称为实体共出现,而这两个实体称为共出现实体。通过文本挖掘方法处理大批的文献,提取得到共出现实体,统计它们的总数并计算出实体共出现频率。如果两个实体对象的共出现频率很高,表明这两个实体对象经常被同时提及,这暗示着这两个实体对象之间存在关联的可能性较高。相反,如果实体对象的功出现频率很低那么这两个实体对象之间存在关联的可能性就较低。实验主要针对蛋白质实体.因此只讨论蛋白质一蛋白质实体的共出现频率。

3.3关系挖掘

通过计算共出现实体在所有句子中的出现频率,提取关联实体。根据设定不同的最低共出现频率阈值,得到不同可靠程度的存在关联的实体数据,从而发现最有可能存在关联的蛋白质一蛋白质实体对象。

4实验

4.1实验数据集

本实验以从medline中随机新选的2000篇摘要为语料,实验数据统计见表1。

4.2实验结果

实验采用条件随机域模型进行实体识别,通过计算共出现频率形成候选实体对。实验结果详见表2。其中,“过滤”指忽略低于指定频率的共出现实体.在这里,指定频率为5。

[1] [2] 下一页

  • 上一个论文:

  • 下一个论文:


  • 看了《基于生物医学文献的蛋白质关系发现》的网友还看了:
    [电子机械]浅析基于可靠性工程的电子信息装备质量管理研究
    [免费范文]基于“服务为王”理念的微博湿营销模式构建
    [免费范文]基于虚拟现实技术的多维信息空间探析
    [免费范文]基于SEO技术提高网站访问量的策略研究
    [免费范文]基于ASP.NET的企业进销存管理信息系统的设计与实
    [免费范文]基于禁忌搜索方法的集装箱配载问题研究
    [免费范文]基于条码技术的库存管理系统设计分析
    [免费范文]基于RRAS与虚拟专用网技术在Windows中的实现
    [企业管理]基于会计主体的企业合并抵销处理
    [今日更新]浅谈新课程下高中生物教学

    计算机论文
    普通论文浅谈云计算在中小型图书馆中的应
    普通论文基于PKI机制的公钥加密体系研究
    普通论文数据仓库的建立和数据挖掘技术在
    普通论文浅议虚拟现实技术的应用
    普通论文唤醒“沉迷”的学子
    普通论文关于网络环境下自主学习模式的探
    普通论文浅谈QoS和关于QoS的交通工程
    普通论文基于.NET技术的高校办公自动化系
    普通论文关于网络环境下个人知识管理在研
    普通论文基于ZigBee技术的无线消防报警定
    普通论文历史建筑平移保护与加固改造的研
    普通论文浅析单片机发展历程及技术进步
    论文
    普通论文[今日更新]工业设计专业模块化教学
    普通论文[免费范文]浅谈和谐的警民关系
    普通论文[法律论文]关于交易安全的物权法保
    普通论文[免费范文]关于xxx同志的推荐材料(
    普通论文[经济论文]浅谈股东信托投票制的公
    普通论文[免费范文]资产证券化产品该如何定
    普通论文[法律论文]法学近代化论考
    普通论文[经济论文]基于SWOT分析下的湘
    范文大全
    普通范文[范文大全]开展土地整理基本状况调
    普通范文[范文大全]合伙合同
    普通范文[规章制度]设备仪表管理奖惩条例
    普通范文[实习报告]财务实习报告
    普通范文[范文大全]入党申请书的写法 入党申
    普通范文[规章制度]黄冈市七一商场党员标准
    普通范文[范文大全]2009年10月预备党员思想
    普通范文[零八零五]建设局2008年创建省级文
    演讲致词
    普通演讲[竞聘演讲稿]学生会竞选自我介绍
    普通演讲[庆典致辞]慈善中心开业典礼祝词
    普通演讲[庆典致辞]农村食品安全监督网建设试
    普通演讲[商务礼仪范文]礼仪仪式程序实例
    普通演讲[开业开幕]在村公路竣工通车剪彩仪式
    普通演讲[庆典致辞]在欢迎酒会上的祝酒词
    工作范文
    普通领导讲话[思想宣传]在市委中心组学习会讲话
    普通总结[工作汇报]关于创建安全城市工作情况
    普通公文方案[活动方案]设备采购管理办法
    普通汇报体会[先进事迹材料]县机关事业单位保险福利局
    普通总结[述职报告]2009年副区长述职报告
    普通党建工会[记要]文体教育局创先争优实施方
    普通领导讲话[经济工作]在全市农村剩余劳动力转移
    普通总结[个人总结]纪检监察工作总结
    普通公文方案[公文写作]领导带头是关键:二论保持
    普通总结[工作计划]六年级第十二册语文教学计
    普通总结[自我鉴定]房管局治安综治工作自我鉴
    普通总结[工作汇报]市残联学习贯彻《两个条例