大词汇连续汉语语音的MLP声学特征的研究


\| 网站首页 \| 范文 \| 演讲致词 \| 汇报体会 \| 总结报告 \| 公文方案 \| 领导讲话 \| 党建工会 \| 论文 \| 文档 \|

您现在的位置：范文大全网 >> 论文 >> 今日更新 >> 正文

用户登录

新用户注册

大词汇连续汉语语音的MLP声学特征的研究

大词汇连续汉语语音的MLP声学特征的研究

模型训练
　　本文的声学模型是以跨词三音子3状态左-右的HMM。基于状态共享的决策树总数为4500个上下文相关音素状态。系统采用3个级别的训练,第1级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第2级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(LM rescoring)模型[9]。
　　4 语料库
　　本文系统使用了230小时的广播新闻和广播对话语音数据进行训练。230小时的语料包括了30小时的HUB4,由GALE发布的100小时广播新闻和100小时广播谈话。识别中使用了2.2小时的eval06和2.5小时的dev07两组语料。详细语料信息见表 1。
　　5 实验结果及结论
　　本文应用德国亚琛工业大学语音研究所开发的LVCSR汉语语音识别系统[9]进行实验。采用230小时语料库为71个汉语音素基元模型分别建立基于MFCC的HMGMM模型及MLPs/ pitch混合声学特征的HMGMM模型,在识别阶段均使用eval06与dev07的语料进行识别,其识别结果用连续识别的字错误率(Character Error Rate CER%)进行评价。其结果如表 2所示。
　　表2实验结果清楚表明,采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs的特性比TANDEM更好,系统的CER减少约1%～2.5%,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了2%-3.8%的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。
　　参考文献:
　　[1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004.
　　[2] Jing Zheng. Combining Discriminative Feature, Transform, an

上一页 [1] [2] [3] [4] [5] [6] [7] 下一页

上一个论文：艺术人类学:艺术与艺术家的魅惑

下一个论文：音乐声学原理在构建录音棚中的作用