| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 
您现在的位置: 范文大全网 >> 论文 >> 今日更新 >> 正文 用户登录 新用户注册
大词汇连续汉语语音的MLP声学特征的研究           
大词汇连续汉语语音的MLP声学特征的研究
出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hidden activation TRAPS (HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素[10],所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图 1所示。

中国论文联盟*编辑。

 1.2 TANDEM特征
  本文采用的另一个MLP特征是中期特征TANDEM[6]。其MLP的网络结构如图2所示。
  由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。
  2 MLPs声学特征的混合
  本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。
  HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献[7]中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采用以下步骤实现音素后验的复合[8],其过程如图 3所示:
  1)建立后验音素向量:采用Demspter-shafter[7]逆熵加权策略将两套音素后验概率合成音素后验向量[r1 r2…r71]。
  2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;
  3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。
  3

上一页  [1] [2] [3] [4] [5] [6] [7] 下一页

  • 上一个论文:

  • 下一个论文:
  • 推荐文章
    个人英文简历词汇大全
    英语词汇学习策略在高职英语
    个人简历英文词汇精选汇总
    俄语篇章中词汇重复研究
    科技期刊英文摘要学术词汇的
    写英文简历时,最常用的词汇
    高中英语词汇高效记忆策略
    英语词汇教学探索
    英语词汇教学之我见
    试论陕西韩城方言词汇形象性