| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 
您现在的位置: 范文大全网 >> 论文 >> 今日更新 >> 正文 用户登录 新用户注册
大词汇连续汉语语音的MLP声学特征的研究           
大词汇连续汉语语音的MLP声学特征的研究
y国际计算机学院(ICSI)提出用基于MLPs的特征取代传统特征,系统的识别率得到了明显改善[1-3]。基于MLPs特征的差异性的优势和GMM/HMM模型的成熟性,本文提出将变换后的MLPs差异特征后验概率看作是GMHMM的输入向量,重新构建GMHMM模型。实验结果表明MLPs特征具有更好的特性,LVCSR的识别率得到了明显的改善。
  1 基于MLP的差异声学特征
  为弥补了来自言语感知和倒谱的短时分析的不足,获取时序相关联的多帧语音信息(即音素信息),文本引入了神经网络ANN的MLP,以提取基于非短时轨迹的非传统特征。本文采用的MLP特征为HATs和TANDEM两种。
  1.1 长时HATs特征参数
  HATs特征基于人对不同频带的感觉不同,HATs特征提取将由两级MLP实现[4-5],第一级由15个MLP即将关键频带数分为15个,第二级由1个MLP构成。HATs的基本实现步骤:
  1)依关键频带,分别计算每个短时窗(10ms)对应的关键频带的能量的log值(即为短时频段能量参数)。
  2)分别将各频带短时能量参数串联为0.5s的长时频带能量参数作为HATs第一级的输入参数。串联方法为将前25帧、后25帧和当前帧同频段的能量参数相串联(25+25+1=51),作为该关键频带的MLP的51个输入单元。即第一级的每个MLP都具有51个输入端。每一个MLP都是为了证实当前帧为某个音素的后验概率P(Pj/Xt)。因此,在语音识别系统中,每一个MLP的输出单元代表了一个音素。由于这些MLP为差别性音素提供了音素后验,所产生的特征为语音识别提供了音素差别性能力。
  3)采用softmax函数将每一个MLP的概率输出汇总为1,实现归一化。
  xij是来自隐藏单元i的输入;wij是隐藏单元i与输出单元j的权值;zj是作为音素后验的MLP的输出。隐藏单元应用sigmoid函数限止其输出值在0-1之间。
  因为每个关键频带对不同的音素反映不同,所以每个第一级的输出都提供了音素后验概率。第二级的目的在于接合所有音素后验概率,对当前帧所属音素的认定作最后的决策。从不同的实验表明,针对于LVCSR最成功的做法是采用第一级隐藏层的结果作为第二级的输入。因为第一级softmax使所有的输

上一页  [1] [2] [3] [4] [5] [6] [7] 下一页

  • 上一个论文:

  • 下一个论文:
  • 推荐文章
    个人英文简历词汇大全
    英语词汇学习策略在高职英语
    个人简历英文词汇精选汇总
    俄语篇章中词汇重复研究
    科技期刊英文摘要学术词汇的
    写英文简历时,最常用的词汇
    高中英语词汇高效记忆策略
    英语词汇教学探索
    英语词汇教学之我见
    试论陕西韩城方言词汇形象性