本站小编为你精心准备了独立成分在化学战剂识别中的应用参考范文,愿这些范文能点燃您思维的火花,激发您的写作灵感。欢迎深入阅读并收藏。
《红外与激光工程杂志》2016年第四期
摘要:
在战场等复杂环境得到的混合气体的红外光谱主次吸收峰交错重叠,因此对其定性识别的特征提取方法就显得尤为重要。采集到的各种化学战剂和有机气体的红外光谱数据都是高维度数据,首先采用中心化后降维进行特征提取来尽可能多地捕获到它所包含的本质信息,由于混合气体的红外光谱是非线性、非高斯性信号,把非高斯性作为独立性度量将各成分作为独立分量分离出来,为了满足实时需求,在传统快速独立成分分析(FastICA)算法的基础上对其迭代过程进行优化,并应用极限学习机(ELM)建立模型进行定量分析。实验结果表明:改进算法的迭代次数较传统算法减少,定量分析均方差E=2.3926×10-4,回归系数R=0.999,说明该方法在不影响分离精度的前提下提高了混合物质中纯物质光谱分离出来的效率。
关键词:
混叠峰识别;红外光谱;非高斯性;快速独立成分分析
红外光谱分析作为一种光谱测量技术与化学计量学的有机结合的新兴分析技术,因其分析速度快、无损检测、效率高、成本低和易于实现在线分析等特点已应用于诸多领域。红外光谱吸收峰的频率、强度和形状是各物质所特有的,因此红外光谱可以用来对某些单纯环境下的样品或者某些特殊的复杂环境和场合下的样品进行定性定量分析[1]。战时,当我军遭受化学战剂袭击时,需要尽快获得敌袭击使用的化学战剂类型,战场上复杂的环境使得我们得到的红外光谱的透过率光谱包括几种神经性毒气和一些有机气体(烟气成分)的混合气体,组成成分相似和分子结构类似的各种有机气体的红外光谱由于特征谱带的重叠或部分重叠而给谱峰的归属辨认带来极大的困难,面对现今愈来愈复杂的混合物体系,尤其是复杂的有机混合物体系,化学计量学为试样没有验前信息的黑色体系提供了多种波谱的解析方法,常用的有主成分分析(PCA),实际信号的大部分重要信息往往包含在高阶统计特性中,而PCA方法利用协方差矩阵参与实际计算时只涉及输入数据的二阶统计特性,容易造成信息丢失[2]。
独立成分分析[3](ICA)是信号处理领域在20世纪90年代后期发展起来的一项基于信号高阶统计特性的分析方法,ICA方法已经在特征提取、生物医学信号处理、语音信号处理、图像处理及人脸识别等方面得到了广泛的应用[4]。由于红外光谱的多峰性和重叠性,使得许多波谱分辨方法无法直接应用于红外光谱,特别是化合物红外光谱的定性分析,ICA可以从非高斯信号中找到一个使组分变成统计独立或者尽可能独立的非线性表达,可广泛应用于特征提取和信号分离,近年来部分研究人员已经将ICA结合光信号用于混合光谱中分离出独立组分的光谱,基于红外光谱无损检测黄花梨可溶性固形物含量[5]和舰船气泡尾流所产生的后向散射光信号[6]。它已经成为一种从混合体系中分离出独立组分的强有力算法,并逐渐显示了在分析化学领域的强大作用,ICA是从混合物谱中分离出独立组分的红外光谱,这种方法使得被分析信号各成分之间的统计依赖性最小,突出了源信号的本质结构,将ICA用于混合物的红外光谱进行解析[7],则提供了一种将吸收峰重叠的光谱分离出来的途径,方便后续建立定量分析模型[8]。ICA的实现算法根据目标函数的不同有最大非高斯性法、极大似然估计法和最小互信息法等,FastICA是以负熵作为衡量非高斯性指标的一种固定点迭代算法,它使用简单、收敛速度快稳定性好,是一种能对大量采样点进行批处理的快速算法,文中采用FastICA算法完成主次吸收峰混叠的红外光谱特征提取,并对传统的FastICA算法进行迭代优化,经过实验验证该优化算法在保证分离精度的前提下提升分离速度的能力。
1ICA算法
1.1基于ICA的红外模型根据朗伯比尔定律,通常认为在未知混合体系中测得的红外光谱是一些纯物质(主要成分)光谱的线性组合。根据上述ICA数学模型,对应于红外光谱数据矩阵可建模为Xm×n表示各成分的光谱信号与其贡献度乘积。
1.2基于负熵最大的FastICA迭代算法根据信息论理论,在所有等方差的随机变量中,高斯随机变量具有最大的熵值,因而可以利用熵来度量分离结果的非高斯性,常用熵的修正形式负熵。在信噪分离过程中,可通过对分离结果的非高斯性度量来表示分离结果间的相互独立性,当非高斯性度量达到最大时,则表明已完成对各独立分量的分离[9]。在具有相同方差的随机变量中,高斯分布的随机变量具有最大的负熵,FastICA算法通过最大化负熵得到W(W=BT)的目标函数可定义。1.3优化的FastICA迭代算法在实际应用过程中,为了应对某些实时检测的要求,需要在不影响分离效果保证精确度的同时减少迭代次数,加快算法迭代速度,在此基础上对FastICA迭代过程进行优化。为了在牛顿迭代法求解过程中减少求雅可比矩阵的次数。
2实验分析
2.1混合光谱的分离实际情况中往往得到的是混合气体的透过率光谱,其中包括某几种神经性毒气和有机气体(烟气成分),用毒性较小的沙林模拟剂DMMP和反2丁烯(烟气的一种)作为实验的研究对象,实验采用扩散法配制DMMP蒸气,扩散管内加入DMMP液体置于广口瓶中,扩散管通道半径很细,可以近似认为其底部腔内的DMMP蒸汽处于饱和状态,使用德国Bruker公司的VERTEX70型红外光谱仪,EGOLD-A型长光程气体吸收池,光程长20m,容积500ml,实验温度为296K,气压为101325Pa,不同浓度的混合气体充入密闭气室中,采集到样品的透过率光谱400条,其中光谱范围为大气窗口8~14μm(1300~700cm-1),分辨率为4cm-1。实验装置如图1所示。将得到的混合气体光谱数据进行ICA解析,并且分别采用普通快速独立分量分析FastICA算法和优化后的FastICA算法对吸收峰位置互相交错重叠的特征光谱进行识别,也对两种算法的识别率和迭代速度进行了对比,分别选取不同的数据量来对两种算法的识别率和迭代速度进行比较,结果如图2和表1所示。可以看出:就该实验而言,FastICA算法和优化后的FastICA算法的分离能力基本一致,应用优化后的FastICA算法能够减少FastICA的迭代次数,进一步加快收敛速度,也充分说明了该优化算法能够在提高算法性能的情况下保持FastICA算法在特征提取方面的良好性能。图3为FastICA和PCA处理后的谱图。由图3可以看出,PCA处理后由于一些信息的丢失导致吸收峰消失或者合并在强吸收峰内,使某一吸收峰的峰宽变窄或增大,消失的峰位很可能影响到对特征光谱的解析,也可能会影响后续的定量分析。为进一步检验FastICA算法在混合情况下对于特征峰交错重叠中特征提取的优越性,分别用PCA算法和FastICA算法对光谱数据处理后进行定量分析。
2.2定量分析将优化FastICA和PCA算法各自分离出来的400个DMMP样品光谱中的320个样品作为训练集,80个样品作为测试集,用极限学习机(ELM)建立浓度预测模型进行定量分析,其中隐含层神经元个数为20,预测结果如图4、5所示。优化FastICA处理后测试集预测结果中,均方误差E=2.3926×10-4,回归系数R=0.999,PCA处理后测试集预测结果中,均方差E=2.5013×10-4,回归系数R=0.989,说明FastICA算法对于混叠峰的分离效果良好,定量分析结果更精确一点。
3结论
提出了一种以FastICA算法为基础的红外光谱主次吸收峰严重混叠的识别方法,它能够提取高阶统计信息,对混合气体中各气体吸收峰重叠的光谱进行识别分离,同时为了契合实时探测的要求,对传统的FastICA算法的迭代过程进行优化。利用搭建的实验系统采集多组化学战剂模拟剂DMMP和反2丁烯混合气体的红外光谱数据,得到的数据分别经过传统FastICA和优化FastICA在不同数据量下迭代次数的对比和分离精确度的对比,优化的FastICA迭代次数减少,分离精度与传统FastICA相当。定量分析中分别用PCA和优化FastICA对数据进行处理,再经过建立ELM的定量分析模型,PCA处理后测试集预测结果中,均方差E=2.5013×10-4,回归系数R=0.989,优化FastICA处理后测试集预测结果中,均方误差E=2.3926×10-4,回归系数R=0.999,该优化方法相比于常用的PCA算法精度上有一定的优越性。优化后的FastICA算法能够在不影响普通FastICA良好分离性能的前提下有效地减少了普通FastICA算法的迭代次数,进一步加快收敛速度,这与光谱识别的实时要求是很好的契合,具有普遍的实用价值。
作者:陈媛媛 王芳 王志斌 李文军 单位:电子测试技术重点实验室 山西省光电信息与仪器工程技术研究中心 仪器科学与动态测试教育部重点实验室 天津津航技术物理研究所