| 网站首页 | 范文 | 演讲致词 | 汇报体会 | 总结报告 | 公文方案 | 领导讲话 | 党建工会 | 论文 | 文档 | 
您现在的位置: 范文大全网 >> 论文 >> 今日更新 >> 正文 用户登录 新用户注册
大词汇连续汉语语音的MLP声学特征的研究           
大词汇连续汉语语音的MLP声学特征的研究
模型训练
  本文的声学模型是以跨词三音子3状态左-右的HMM。基于状态共享的决策树总数为4500个上下文相关音素状态。系统采用3个级别的训练,第1级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第2级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(LM rescoring)模型[9]。
  4 语料库
  本文系统使用了230小时的广播新闻和广播对话语音数据进行训练。230小时的语料包括了30小时的HUB4,由GALE发布的100小时广播新闻和100小时广播谈话。识别中使用了2.2小时的eval06和2.5小时的dev07两组语料。详细语料信息见表 1。
  5 实验结果及结论
  本文应用德国亚琛工业大学语音研究所开发的LVCSR汉语语音识别系统[9]进行实验。采用230小时语料库为71个汉语音素基元模型分别建立基于MFCC的HMGMM模型及MLPs/ pitch混合声学特征的HMGMM模型,在识别阶段均使用eval06与dev07的语料进行识别,其识别结果用连续识别的字错误率(Character Error Rate CER%)进行评价。其结果如表 2所示。
  表2实验结果清楚表明,采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs的特性比TANDEM更好,系统的CER减少约1%~2.5%,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了2%-3.8%的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。
  参考文献:
  [1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004.
  [2] Jing Zheng. Combining Discriminative Feature, Transform, an

上一页  [1] [2] [3] [4] [5] [6] [7] 下一页

  • 上一个论文:

  • 下一个论文:
  • 推荐文章
    个人英文简历词汇大全
    英语词汇学习策略在高职英语
    个人简历英文词汇精选汇总
    俄语篇章中词汇重复研究
    科技期刊英文摘要学术词汇的
    写英文简历时,最常用的词汇
    高中英语词汇高效记忆策略
    英语词汇教学探索
    英语词汇教学之我见
    试论陕西韩城方言词汇形象性