大词汇连续汉语语音的MLP声学特征的研究


\| 网站首页 \| 范文 \| 演讲致词 \| 汇报体会 \| 总结报告 \| 公文方案 \| 领导讲话 \| 党建工会 \| 论文 \| 文档 \|

您现在的位置：范文大全网 >> 论文 >> 今日更新 >> 正文

用户登录

新用户注册

大词汇连续汉语语音的MLP声学特征的研究

大词汇连续汉语语音的MLP声学特征的研究

出都转化为同一级别,这样就削弱甚至是抹杀了第一阶段涉及所有的MLP的鉴别力。由于第二级的输入是源自第一阶段的隐藏层,即隐藏激活hidden activation TRAPS (HATS)。第二级的输入单元的数目为15×h,h是第一级每个MLP的隐藏单元数目,本文采用60个隐藏单元。最后,从第二级MLP计算出音素后验概率。由于系统采用71个音素[10],所以HATs的输出是一个71维的音素后验概率。二级MLP的HATs特征描述如图 1所示。

中国论文联盟*编辑。

　1.2 TANDEM特征
　　本文采用的另一个MLP特征是中期特征TANDEM[6]。其MLP的网络结构如图2所示。
　　由于本文采用MFCC作为常规HMM的输入特征,为了最大化收集新信息,该TANDEM网络采用标准短时特征采用PLP倒谱特征。TANDEM由一个MLP网络组成,抽取相邻9帧的PLP和基音,以42×9(42维,9帧)为MLP的输入,15000个隐藏单元。隐藏单元依然用sigmoid函数,输出单元用后验softmax函数。最后MLP输出71个音素的后验概率。
　　2 MLPs声学特征的混合
　　本文提出的声学特征的混合是基于MLP的长时HATs与中期TANDEM复合为MLPs特征流。
　　HATs与TANDEM是采用两套MLP系统产生的,也即每一帧都有两个音素后验概率。在文献[7]中指出,将其两种后验概率进行复合后,其MLP的特征更有效。为此,本文采用以下步骤实现音素后验的复合[8],其过程如图 3所示:
　　1)建立后验音素向量:采用Demspter-shafter[7]逆熵加权策略将两套音素后验概率合成音素后验向量[r1 r2…r71]。
　　2)用log计算音素后验向量:为了让音素后验向量与传统特征复合,采用log函数计算使之更像高斯分布;
　　3)用PCA实现降维和正交化:为了后期与其它特征复合,71维的音素后验向量需进行降维处理;因为高斯密度函数常认为是相互独立,对角协方差的,所以音素后验向量需要正交化,进行均值和方差的归一化。最终实现将两个71维的音素后验降为一个35维的MLPs。
　　3

上一页 [1] [2] [3] [4] [5] [6] [7] 下一页

上一个论文：艺术人类学:艺术与艺术家的魅惑

下一个论文：音乐声学原理在构建录音棚中的作用