肿瘤基因标签提取的数学模型 |
|
|
中国论文联盟*编辑。 【摘要】本文首先运用Relief算法与相关性分析相结合的方法,去除大量无关基因和冗余基因,取出了区分癌变样本的特征基因;接着根据特征基因的表达水平,结合BP神经网络建立了分辨正常样本与癌变样本的分类器,并对样本作了测试;然后,利用该分类器讨论了Golub噪声模型对提取基因标签是有利的;最后,从统计学角度出发,结合提取基因标签,建立了诊断肿瘤疾病的假设检验模型,并提取若干个样本进行了验证. 【关键词】Relief算法;BP神经网络;Golub噪声模型;假设检验模型 引 言 随着大规模基因表达谱技术的发展,基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题.如果可以在分子水平上利用基因表达分布图准确地进行肿瘤亚型的识别,对诊断和治疗肿瘤具有重要意义.因为每一种肿瘤都有其基因的特征表达谱.从DNA芯片所测量的成千上万个基因中,找出决定样本类别的一组基因“标签”,即“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在,同时也为抗癌药物的研制提供了捷径. 通常由于基因数目很大,在判断肿瘤基因标签的过程中,需要剔除掉大量“无关基因”,从而大大缩小需要搜索的致癌基因范围.1999年《Science》发表了Golub等针对上述急性白血病亚型识别与信息基因选取问题的研究结果[1].Golub等以“信噪比”,采用加权投票的方法进行亚型的识别,仅根据72个样本就从7129个基因中选出了50个可能与亚型分类相关的信息基因.Guyon等则利用支持向量机的方法再从中选出了8个可能的信息基因[2].但信噪比不是衡量基因对样本分类贡献大小的唯一标准,肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果,在确定某种肿瘤的基因标签时,应该设法充分利用其他有价值的信息.考虑到肿瘤的基因标签的选择过程类比机器学习中的特征选择方法非常相似,所以,我们选择用Relief算法作为特征基因的预筛选器,然后对筛选出来的基因进行冗余分析,确定信息基因.基于神经网络对大规模数据进行并行处理的优势,最后用BP神经网络作为样本分类和识别器;考虑到数据噪声,我们引入Golub噪声模型,剔除噪声 [1] [2] [3] [4] [5] [6] 下一页 |
|
|
|
上一个论文: 无机化学实验的微型化学实验的探讨 下一个论文: 不同种植目的糯玉米合理种植密度研究 |
|