大词汇连续汉语语音的MLP声学特征的研究 |
|
|
模型训练 本文的声学模型是以跨词三音子3状态左-右的HMM。基于状态共享的决策树总数为4500个上下文相关音素状态。系统采用3个级别的训练,第1级是声道长度的归一化(VTLN)的训练。为了补偿语者差异性,在第2级中采用了受限的最大似然线性回归的说话人自适应的训练(SAT/CMLLR),建立语者独立模型。最后是建立语言模型重估(LM rescoring)模型[9]。 4 语料库 本文系统使用了230小时的广播新闻和广播对话语音数据进行训练。230小时的语料包括了30小时的HUB4,由GALE发布的100小时广播新闻和100小时广播谈话。识别中使用了2.2小时的eval06和2.5小时的dev07两组语料。详细语料信息见表 1。 5 实验结果及结论 本文应用德国亚琛工业大学语音研究所开发的LVCSR汉语语音识别系统[9]进行实验。采用230小时语料库为71个汉语音素基元模型分别建立基于MFCC的HMGMM模型及MLPs/ pitch混合声学特征的HMGMM模型,在识别阶段均使用eval06与dev07的语料进行识别,其识别结果用连续识别的字错误率(Character Error Rate CER%)进行评价。其结果如表 2所示。 表2实验结果清楚表明,采用MLP的特征比传统的短时特征都有良好的识别特性,TANDEM特征系统的CER约有0.5%的改善,HATs的特性比TANDEM更好,系统的CER减少约1%~2.5%,采用MLPs复合声学特征,系统的识别率有了最大的提高,CER得到了2%-3.8%的改善。本文复合的声学特征为中时(9帧)和长时(51帧)的信息,能否将短时特征再与其复合以提高系统识别率,还待进一步研究。 参考文献: [1] ZHU Qi-feng.Incorporating tandem/HATs MLP features into SRI’s conversational speech recognition system[J]. in Proc. DARPA RT Workshop 2004. [2] Jing Zheng. Combining Discriminative Feature, Transform, an上一页 [1] [2] [3] [4] [5] [6] [7] 下一页 |
|
|
|
上一个论文: 艺术人类学:艺术与艺术家的魅惑 下一个论文: 音乐声学原理在构建录音棚中的作用 |
|