本站小编为你精心准备了遗传神经网络的改进语音识别系统参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
摘要:
为了解决语音信号中帧与帧之间的重叠,提高语音信号的自适应能力,本文提出基于隐马尔可夫(HMM)与遗传算法神经网络改进的语音识别系统.该改进方法主要利用小波神经网络对Mel频率倒谱系数(MFCC)进行训练,然后利用HMM对语音信号进行时序建模,计算出语音对HMM的输出概率的评分,结果作为遗传神经网络的输入,即得语音的分类识别信息.实验结果表明,改进的语音识别系统比单纯的HMM有更好的噪声鲁棒性,提高了语音识别系统的性能.
关键词:
隐马尔可夫模型;神经网络;语音识别;遗传算法
随着语音识别技术的发展,人们对语音识别的技术要求越来越高,隐形马可夫模型(HiddenMarkovModel,简称HMM),在语音识别中已经广泛得到应用.但是,其自适应能力差,抗噪性也不是十分理想,仅靠单一的HMM进行语音识别存在诸多困难[1,2].而现在广泛应用的人工神经网络(ArtificalNeuralNet-work,简称ANN)[3,4],在自适应、抗噪性方面具有良好的特性,克服了HMM中存在的不足.反向传播神经网络(BP)虽然已经是神经网络中前向神经网络的核心部分,并且得到了广泛的应用[5].然而,BP神经网络也存在诸多缺点,比如学习收敛速度太慢,使其只能解决小规模的问题,也不能保证收敛到全局最小点,使得训练结果达不到全局最优性.遗传算法优化后的反向传播神经网络(GA-BP)[6-9]的混合模型语音识别方法,有效地保证训练结果的全局最优性,在语音识别的速度方面也有大幅度的提高,但在噪声环境下,遗传算法优化后的反响传播神经网络噪声鲁棒性并不是十分理想,因此也对语音识别系统的性能带来了影响[10].本文运用小波神经网络结构简单、收敛速度快的优点,对MFCC系数进行训练,从而得到新的MFCC系数,再进行特征提取后作为遗传算法优化后的输入.然后利用优化后的遗传神经网络获得语音的分类识别信息进行语音识别.实验结果表明,基于HMM与遗传神经网络改进的语音识别系统进一步提高了语音识别系统的自适应性和噪声鲁棒性.
1隐马尔可夫模型语音识别原理
隐马尔可夫模型是一种利用相关参数来表示,并用于描述随机过程中统计特性的概率模型[11].它的本质是一种基于统计分布一致性的聚类分析,每个隐含的状态就是一个聚类,对HMM进行训练的过程就是寻找每个聚类之间的相关联的过程.它由两部分组成:一个是隐含的马尔可夫链,即为隐含层;另一个是实际的观测量,即为观测层.HMM基于参数统计理论,利用概率密度函数计算出语音参数对模型的输出概率,找到最佳状态序列以后,用最大后验概率为准则进行识别.语音参数和隐马尔可夫模型关系如下图图1所示.
2基于遗传算法的神经网络优化算法
BP神经网络是人工神经网络中应用最为广泛的算法,但在广泛运用的同时,也逐渐出现一些不足之处,比如收敛速度慢、不能保证收敛到全局最小点等等.另外,网络结构,初始连接权值与阈值的选取对网络训练带来的影响也非常大,但是又无法准确获得.针对这些特点可以采用遗传算法对神经网络进行优化.
2.1传统遗传算法传统遗传算法实现步骤如下:1)随机产生一定数量的初始个体,这些随机产生的初始个体总体数目组成一个种群.2)用评价函数来评价每个个体的优劣,每个个体的适应程度(称为适应度)作为遗传操作的依据.3)从现有的种群中选取一定的个体作为新一代的个体,个体适应程度越高,被选择的机会越大.4)对于新生成的种群进行交叉、交异操作.
2.2用遗传算法优化神经网络权值的学习过程遗传算法(GeneticAlgorithm,GA)是模拟著名天文学家达尔文的遗传选择和生物进化的计算模型,具有很强的宏观搜索能力和良好的全局优化性能[12,13].因此采取遗传算法与BP神经网路相结合,训练时先用遗传算法对神经网络的权值进行寻找,将搜索范围缩小后,再利用BP网络来进行精确求解,可以达到全局寻找和快速高效的目的,并且避免局部最小问题.算法结束后,由群体中最优个体解码即可得到优化后的网络连接权值系数.
3基于HMM与遗传神经网络改进的语音识别系统设计
现有的语音识别系统只能处理平稳信号,而人说话的语言频率不一样使得语音信号是一个准稳态信号,这时就要把语音划分成若干帧以达到信号稳定的要求.但这存在的不足之处就是并没有考虑到语音信号的动态特性,根据神经网络在非线性映射方面有比较好的效果,同时神经网络也具有小波多分辨分析的性能,从而可以从样本中提取出来新的特征信息.本文采用基于HMM与遗传神经网络改进的语音识别系统,对输入语音信号进行预处理后,利用小波神经网络训练MFCC系数,然后根据HMM参数库进行Viterbi译码,归一化处理以后作为优化后遗传神经网络的输入,即将HMM中全部状态累计概率作为优化后的遗传神经网络特征输入,再根据神经网络的非线性映射能力对语音信号识别出所需要的结果.改进后的语音识别系统流程图如图3所示.
4仿真实验及结果分析
实验语音文件从十个人中采集,一个文件有中文数字1-9组成.每个人录了四次,其中三个用于培训和一个用于测试.记录格式的采样频率8kHz,单通道16位采样点,采取的帧长为256点.记录后,点检测去除无声段,其次是预加重.然后,语音段划分为20个帧,从每一帧中提取的特征参数.一个帧有10个特征.因此,每一个数字都会有200特点.实验训练集采取100个不同人员的净语音样本;在不同的信噪比下取50个不同人员的语音信息;在不同的环境下,采用的语音数据的信噪比分别为40、35、30、25、20、15、5和0dB.实验时,为了验证改进的语音识别系统的有效性,在Matlab7.0上分别对HMM,HMM与优化后的遗传神经网络和本文改进后的混合语音识别模型算法做对比.实验分为两次实验过程,第一次在加性高斯噪声下;第二次在学校餐厅学生就餐时人声为噪声背景.实验分别得出语音在加性高斯噪声下识别率如表1和图4;在学校餐厅时实验结果如表2和图5所示.由表1和表2中的实验数据可以看出,改进以后的混合算法相比单一的HMM和优化的遗传神经网络相比具有更好的识别效果,尤其对那些容易混淆的词语识别率也有所提高.对于识别系统的信噪鲁棒性方面也有了明显的改变,提高了语音识别系统的自适应能力.神经网络的收敛速度是衡量语音识别的一个重要标准,因此遗传神经优化算法与BP算法收敛速度作了如图6、图7的比较,实验结果表明,优化算法收敛速度得到明显改善.
5结论
本文提出了基于隐马尔可夫HMM与遗传算法的神经网络改进的语音识别系统,在隐马尔可夫模型与遗传网络算法优化的基础上,引入小波神经网络训练MFCC系数,充分利用了隐马尔可夫模型强大的时间建模能力与遗传算法优化后的收敛速度快、分类识别能力强的优点.小波神经网络训练出的MFCC新系数应用到优化后的神经网络具有更高的识别率,提高了识别系统的自适应能力.
参考文献
1吕军,曹效英,徐宝国.基于语音识别的汉语发音自动评分系统的设计与实现.计算机工程与设计,2007,28(5):1232–1235.
2郭超,张雪英,刘晓峰.支持向量机在低信噪比语音识别中的应用.计算机工程与应用,2013,49(5):213–215.
3SemanN,BakarZA,BakarNA.TheoptimizationofArtificialNeuralNetworksconnectionweightsusinggeneticalgorithmsforisolatedspokenMalayparliamentaryspeeches.2010InternationalConferenceonComputerandInformationApplication(ICCIA).IEEE.2010.162–166.
4LanML,PanST,LaiCC.Usinggeneticalgorithmtoimprovetheperformanceofspeechrecognitionbasedonartificialneuralnetwork.FirstInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’06).IEEE.2006,2.527–530.
5王晓东,薛宏智,马盈仓.基于自适应遗传算法的神经网络字符识别.西安工程大学学报,2008,22(2):210–213.
6钟林,刘润生.新神经网络结构及其在数码语音识别中的应用.清华大学学报(自然科学版),2000,40(3):104–108.
7包亚萍,郑骏,武晓光.基于HMM和遗传神经网络的语音识别系统.计算机工程与科学,2011,33(4):139–144.
8冯宏伟,薛蕾.基于HMM和新型前馈型神经网络的语音识别研究.计算机工程与设计,2010,(24):5324–5327.
9肖勇,覃爱娜.改进的HMM和小波神经网络的抗噪语音识别.计算机工程与应用,2010,(22):162–164.
10PanST,WuCH,LaiCC.Theapplicationofimprovedgeneticalgorithmonthetrainingofneuralnetworkforspeechrecognition.SecondInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’07).IEEE,2007.168–168.
11AggarwalRK,DaveM.ApplicationofgeneticallyoptimizedneuralnetworksforHindispeechrecognitionsystem.2011WorldCongressonInformationandCommunicationTechnologies(WICT).IEEE.2011.512–517.
12AnM,YuZ,GuoJ,etal.TheteachingexperimentofspeechrecognitionbasedonHMM.The26thChineseControlandDecisionConference(2014CCDC).IEEE.2014.2416–2420.
13SilvaWLS,deOliveiraSerraGL.Anovelintelligentsystemforspeechrecognition.InternationalJointConferenceonNeuralNetworks(IJCNN).IEEE.2014.3599–3604.
作者:吴延占 单位:西安工程大学 电子信息学院