作者:汤守鹏 姚鑫锋 姚 霞 田永超 曹卫星 朱艳
【摘要】 将小麦叶片原始光谱经过预处理后,采用主成分分析(PCA)对数据进行降维,取前3个主成分输入小波神经网络,建立了基于主成分分析和小波神经网络的近红外多组分预测模型(WNN);进一步研究了小波基函数个数的选取(WNN隐层节点数)对小波神经网络模型性能的影响,并将WNN模型与偏最小二乘法(PLS)和传统的反向传播神经网络(BPNN)模型进行了比较。结果表明,所建立的WNN模型能用于同时预测小麦叶片全氮和可溶性总糖两种组分含量,其预测均方根误差(RMSEP)分别为0.101%和0.089%,预测相关系数(R)分别为0.980和0.967。另外,在收敛速度和预测精度上,WNN模型明显优于BPNN和PLS模型,从而为将小波神经网络用于近红外光谱的多组分定量分析奠定了基础。
【关键词】 小波神经网络, 主成分分析, 近红外光谱, 小麦叶片, 全氮, 可溶性总糖
本文系教育部新世纪优秀人才支持计划(No.NCET080797)、国家自然科学基金(No.30871448)、国家科技支撑计划(No.2008BADA4B02)、江苏省创新学者攀登计划(No.BK20081479)和江苏省自然科学基金(No.BK2008330)资助
1 引 言
近红外光谱(NIR)分析技术以其快速、环保、可多组分同时检测等优点[1],在各个领域得到了广泛应用[2]。NIR属于弱信号,信息提取必须依靠化学计量学才能实现,传统的定量校正方法,如偏最小二乘法(PLS),仅适用于线性模型,而实际应用中却存在很多非线性关系[3]。人工神经网络可解决连续非线性函数的逼近,在多组分分析中优势明显,其中反向传播(BP)算法是采用最多也是最成熟的神经网络训练算法之一[4],但是BP网络(BPNN)存在着易陷于局部最小和收敛速度慢等弱点[5,6]。
小波神经网络(Wavelet neural network, WNN)已经在化学领域得到了广泛应用[7,8]。小波神经网络综合了小波多尺度分析和神经网络自学习的优点,因而具有比传统神经网络更快的收敛速度和更强的逼近性能。已有的多组分预测模型大都采用PLS方法[9]和传统BP网络[10,11],而将小波神经网络用于近红外光谱定量分析的报道较少。小波神经网络用于函数优化时,其输入层的维数和小波基函数都不能太多,否则会大大增加模型参数[12]。主成分分析(Principal component analysis, PCA)是对光谱数据压缩和信息提取的有效方法[13],通过提取少数几个主成分(即原始变量的线性组合),并把它们作为小波神经网络的输入,既可以保证输入数据的精度,又可以大大加快神经网络的收敛速度[14,15]。
本研究首先运用主成分分析方法(PCA)从预处理后的小麦叶片近红外光谱中提取主成分,以达到降维目的;然后将降维后得到的主成分作为小波神经网络的输入,建立基于主成分分析和小波神经网络的近红外多组分预测模型,以用于同时预测小麦叶片全氮和可溶性总糖含量;最后通过与PLS方法和传统神经网络的比较分析,检验小波神经网络模型的收敛速度和预测精度。
2 理论部分
2.1 主成分分析
主成分分析(PCA)是一种数据压缩的常用方法,通过少数几个主成分(即原始变量的线性组合)解释多变量的方差, 即导出少数几个主成分,使它们尽可能完整地保留原始变量的信息,且彼此间不相关,以达到简化数据的目的。将该方法结合神经网络用于近红外光谱定量分析,既能保证输入数据的精度、减少训练时间,又能简化网络结构[13]。
2.2 小波神经网络理论
小波神经网络(WNN)是将小波理论与人工神经网络的思想相结合而形成的一种新的神经网络[7]。它将传统神经网络中的隐层节点激励函数(如Sigmoid函数)用小波函数Ψ来代替, 图1 小波神经网络结构
Fig.1 Structure of wavelet neural network相应的输入层到隐层的权值及隐层阈值分别由小波函数的伸缩参数a与平移参数b所代替,而输出层通常为线性神经元,它将隐层的小波伸缩系进行线性叠加形成输出结果。对于一个单隐层的神经网络,假设有p个输入节点,h个隐层节点,q个输出节点,则小波神经网络的结构如图1所示,其输出表达式见公式(1):fk(x)=∑hj=1wjk[ψ(∑pi=1xi-bjaj)](1)其中,xi(i=1, 2, …, p)为输入层第i个输入变量,k =1, 2, …, q,h为隐层节点数,Ψ为隐层的小波基函数,wjk是隐层第j个节点到输出层第k个节点的连接权值,bj和aj分别是小波函数的平移参数(隐层节点的阈值)和伸缩参数(输入层到隐层节点的权值)。由此可见,小波网络可调整的参数包括wjk、bj和aj,共有3×h个,它们通过最小均方误差函数得到优化。本研究选择常用的Morlet小波函数[16]作为小波神经网络的隐层激励函数,该小波是余弦调制的高斯波,时频域分辩率较高。
3 实验部分
3.1 样品和仪器
3.1.1 样品来源 样品采自以下2个小麦田间试验,于主要生育期获取小麦不同叶位的叶片共144份,杀青烘干后粉碎过40目筛,用自封带密封后置于干燥器中备用。实验1 2006~2007年在江苏南京市农林局试验站(南京市江宁区,118°59′E,31°56′N)进行。土壤有机质含量1.01%、全氮含量0.11%、速效氮含量90.3 mg/kg、速效磷含量40.3 mg/kg、速效钾含量100.3 mg/kg,前茬水稻。供试品种为宁麦9号和豫麦34号,试验设4个施氮水平,分别为0, 90, 180和270 kg N/ha纯氮 (ha为公顷),两因素随机区组排列,3次重复,每小区面积约为23 m2,基本苗1.5×106 株/ha,行距25 cm。氮肥基追比2∶1∶1,追肥时期为拔节期和孕穗期,各占25%。各处理配施105 kg/ha P2O5和80 kg/ha KCl,全部用作基肥。其它管理措施同高产小麦田。实验2 2007~2008年在南京农业大学江浦试验站(南京市浦口区,118°37′E,32°02′N)进行。土壤有机质含量1.95%,全氮含量0.08%,速效磷含量13.4 mg/kg,速效钾含量48.9 mg/kg,前茬玉米。供试品种为宁麦9号,设4个施氮水平,分别为0, 90, 180和270 kg/ha 纯氮,两因素随机区组排列,3次重复,每小区面积约为16 m2,基本苗1.5×106株/ha,行距25 cm。氮肥基追比1∶1,追肥时期为拔节期,占50%。各处理配施150 kg/ha P2O5和 150 kg/ha K2O,全部用作基肥。其它管理措施同高产小麦田。
3.1.2 光谱采集和化学值测定 光谱采集用Thermo Nicolet 5700 FTIR近红外光谱仪(自带OMNIC 7.2集成软件和内径2.5 cm、高5 cm的专用石英杯)。光谱采集前,先在室温下开机预热约1 h,然后将过筛样品装入石英杯,容量约1/3,用专用砝码压紧,置于样品台上扫描,每次采集前均用镀金内壁作背景。扫描范围10000~4000 cm-1,分辨率4 cm-1,每次光谱采集扫描64次,每份样品重复采集光谱9次,取平均值代表该样品的光谱,以吸光度的格式存储于计算机中。 图2 叶片样品近红外吸光度谱图
Fig.2 Near infrared absorbance spectra of leaf samples所有光谱数据都转化为波长形式,范围为1000~2500 nm,数据点间隔取为1 nm,因而所有的样品光谱就组成了一个144行1501列的矩阵。图2为144份样品的近红外原始光谱图。
样品全氮含量(TNC)采用凯氏微量定氮法测定,可溶性总糖含量(TSSC)采用蒽酮比色法测定[17]。每份样品每个指标重复测定3次,取平均值作为该样品化学值(各组分含量单位均为%),样品集的全氮和可溶性总糖含量变化范围分别为0.60%~4.32%和0.50%~4.78%。
3.2 数据处理与分析
运用马氏距离法[18]剔除奇异样品后,对NIR光谱进行多元散射校正和Norris一阶导数滤波处理,然后采用PCA方法将光谱压缩成若干主成分,最后将降维后的主成分分别作为小波神经网络和BP网络的输入节点,全氮和可溶性总糖两个化学组分作为输出节点,进行网络训练后得到模型,同时利用预处理后的光谱进行PLS建模。本研究中涉及到光谱预处理方法、PCA和神经网络算法均在Matlab 7.0下编程实现。
3.2.1 样品集的划分 为了减少偶然误差、提高模型精度,首先运用马氏距离法[18]从采集到的144份样品中剔除5份奇异样品,剩下139份样品,再从中随机选择出100份作为校正集,其余39份作为检验集。
3.2.2 光谱预处理 光谱预处理方法的选择关系着模型的预测性能。为了消除光谱散射、平移和偏转,减少环境噪声对光谱的干扰,通过对样品光谱预处理方法的多次选择,发现采用多元散射校正(MSC)[19]和Norris一阶导数[20]处理后的光谱建模效果最好,处理结果见图3。因此,在用1000~2500 nm全谱区进行建模前,采用上述方法对光谱进行预处理。
3.2.3 光谱主成分的提取 光谱经过预处理后,用PCA方法提取其主成分,结果如表1所示,前3个主成分累计贡献达99.69%,可代表样品光谱,因而可将前3个主成分(原变量的线性组合)经标准化处理后作为网络的输入节点。由此可以确定,小波神经网络的输入层节点数应为3,依次对应于3个主成分;而输出层节点数是2,对应于全氮和可溶性总糖两个化学组分。为了与PLS方法和传统神经网络进行比较, 图3 经预处理后的叶片NIR光谱
Fig.3 Near infrared spectra after preprocessing利用光谱仪自带的TQ化学计量学软件建立PLS模型,同时将PCA提取的3个主成分作为三层BP神经网络的输入。表1 光谱数据前3个主成分的贡献率
3.3 模型性能的优化与评价
为保证模型的整体性能,本研究通过“剔一法”(Leaveoneout)得到的交互检验均方根误差RMSECV(Root mean square error of crossvalidation)来优化建模参数;而模型的预测性能,则通过预测均方根误差RMSEP(Root mean square error of prediction)和相关系数R(Correlation coefficient)来评价,计算公式如下:RMSECV=∑Mi=1(Oi-Pi)2M-1(2)
RMSEP=∑Ni=1(Oi-Pi)2N(3)式中M,N分别表示用于建模和检验的样品数, Oi, Pi分别为样品i化学组分的观测值(Observed value)和预测值(Predicted value)。
4 结果与讨论
4.1 隐层节点数的选取
隐层节点数(h)对神经网络的整体性能影响巨大,但是目前还无明确理论来指导h的选值[21]。 h过多可能造成训练时间过长和过拟合; h过少又可能导致训练达不到要求[22]。对于小波神经网络, h就是小波基函数的个数。可以依据小波分析方法,事先确定小波基函数的个数,但是一般不宜超过10,因为h的增加会大大增加小波神经网络模型的参数[14]。本研究为了找到最佳h,在实际操作中,比较了基于不同h(h≤10)所建模型的RMSECV,见图4a;而对于传统的BP网络,则尝试了取不同的h(h≤15)进行建模,见图4b。进一步将RMSECV最小时的h确定为最佳h,由此获得小波神经网络和BP网络的最佳h分别为5和7(图4)。
4.2 神经网络参数的确定
神经网络参数关系着模型的预测性能,关于小波神经网络参数的选取方法,已有众多报道[23,24]。本研究中,两种神经网络都采用三层结构,其中,小波神经网络的隐层小波基函数采用时频域分辩率较高的Morlet函数[16,24];BP网络隐层传递函数分别采用常用的Tansig函数,输出层采用Purelin函数。为了便于比较两种网络模型的性能,经过反复尝试,并综合考虑网络稳定性和训练时间,将学习速率均设为0.01,网络优化算法选择LevevbergMarquardt算法,最大训练次数都为1000,期望误差为0.001。
4.3 模型性能的检验与评价
用WNN模型对39个测试样品的全氮(TNC)和可溶性总糖含量(TSSC)进行了预测,结果如图5。从预测均方根误差(RMSEP)和相关系数(R)可以看出,小波神经网络模型的拟合精度较。
a. 全氮(Total nitrogen content); b. 可溶性总糖(Total soluble sugar content)。综合比较了WNN模型和BPNN模型的收敛时间(Time)、达到期望误差时的训练次数(Iteration, Iter)以及PLS模型对39份测试样品的预测性能(RMSEP和R) (表2)。可见,两种神经网络模型的预表2 WNN模型、PLS模型和BPNN模型的表现比较测精度都高于PLS模型,因为PLS是线性回归方法,而在近红外光谱上,尽管官能团特征吸收频率的位置是基本固定的,但是样品各组分化合物之间的关系复杂,会发生不同程度的缔合作用,如诱导效应、空间位阻效应和氢键效应等[25],这些因素决定了叶片样品近红外光谱与各组分之间的非线性关系,人工神经网络可以有效克服这种非线性干扰[3];从综合收敛速度和预测精度来看,WNN模型均优于传统的BPNN模型[26]。即,在保证不发生过拟合的前提下,要达到同样的期望误差,小波神经网络所用的训练时间和训练次数均少于传统的BP网络;而经过同样的训练次数,小波神经网络达到的预测精度也会比BP网络高。因为传统BP网络的隐层基函数一般为Sigmoid函数(本研究为Tansig函数),这类函数相互不正交,权重的学习容易出现峡谷型误差曲面,导致收敛速度变慢,也很难保证非线性系统的唯一解。而小波神经网络的基函数是小波函数,它具有快速衰减性,局部逼近能力也就更强;另一方面,小波基函数是正交或者近似正交的,权重之间相关冗余度很小,且小波神经网络的误差函数是关于权值的凸函数,不存在局部极小点,因而收敛速度更快。
4.4 小结
本研究将小波神经网络引入到近红外光谱的多组分分析模型中,建立了能同时预测小麦叶片全氮和可溶性总糖含量的小波神经网络(WNN)模型,并对WNN模型的整体性能与表现进行了检验和比较。结果表明,WNN模型预测结果可靠,可用于小麦近红外光谱的多组分预测;与偏最小二乘法(PLS)和传统神经网络模型(BPNN)相比,小波神经网络模型具有更好的全局收敛性和预测精度,从而为近红外光谱的多组分定量分析提供了新的建模方法。
参考文献
1 Yan YanLu(严衍禄). Near Infrared Spectroscopy and its application(近红外光谱分析基础与应用). Beijing(北京): China Light Industry Press(中国轻工业出版社), 2005: 1~115
2 Zhu XiaoLi(褚小立), Tian GaoYou(田高友), Yuan HongFu(袁洪福), Lu WanZhen(陆婉珍). Chinese J. Anal. Chem.(分析化学), 2006, 34(9): S175~S178
3 PérezMarín D, GarridoVaro A, Guerrero J E. Talanta, 2007, 72(1): 28~42
4 Marengo E, Bobba M, Robotti E, Lenti M. Anal. Chim. Acta, 2004, 511(2): 313~322
5 Xu Lu(许 禄), Shao XueGuang(邵学广). Methods of Chemometrics(化学计量学方法). Beijing(北京): Science Press(科学出版社), 2004: 279~298
6 Phua P K H, Ming Daohua. IEEE Transactions on Neural Networks, 2003, 14(6): 1460~1467
7 Tabaraki R, Khayamian T, Ensafi A A. Dyes and Pigments, 2007, 73 (2): 230~238
8 Balabin R M, Safieva R Z, Lomakina E I. Chemometrics and Intelligent Laboratory Systems, 2008, 93(1): 58~62
9 Wang JiaJun(王家俊), Liang YiZeng(梁逸曾), Wang Fan(汪 帆). Chinese J. Anal. Chem.(分析化学), 2005, 33(6): 793~797
10 Liu BoPing(刘波平), Qin HuaJun(秦华俊), Luo Xiang(罗 香), Cao ShuWen(曹树稳), Wang JunDe(王俊德). Chinese J. Anal. Chem.(分析化学), 2007, 35(4): 525~528
11 Dou Y, Sun Y, Ren Y, Ren Y. Anal. Chim. Acta, 2005, 528(1): 55~61
12 Zhang Q. IEEE Transactions on Neural Networks, 1997, 8(2): 227~236
13 He Y, Li X, Deng X. Journal of Food Engineering, 2007, 79(4): 1238~1242
14 Wang W, Paliwal J. Biosystems Engineering, 2006, 94(1): 7~18
15 Dou Y, Mi H, Zhao L, Ren Y, Ren Y. Anal. Biochem., 2006, 351(2): 174~180
16 Subasi A, Alkan A, Koklukaya E, Kiymik M K. Neural Networks, 2005, 18(7): 985~997
17 Li HeSheng(李合生). The Principle and Technology of Physiological and Biochemical Experiment of Plant(植物生理生化实验原理和技术). Beijing(北京): Higher Education Press(高等教育出版社), 2000: 186~197
18 Smith B M, Gemperline P J. Anal. Chim. Acta, 2000, 423(2): 167~177
19 Fernandez J E, Badiali M, Guidetti A, Scot V. Nuclear Instruments and Methods in Physics Research, 2007, 580(1): 77~80
20 Norris K H, Williams P C. Cereal Chemistry, 1984, 61(2): 158~165
21 Janik L J, Cozzolino D, Dambergs R, Cynkar W, Gishen M. Anal. Chim. Acta, 2007, 594(1): 107~118
22 Wen Xin(闻 新), Zhou Lu(周 露), Wang DanLi(王丹力), Xiong XiaoYing(熊晓英). MATLAB Design for Neural Networks application(MATLAB神经网络应用设计). Beijing(北京): Science Press (科学出版社), 2001: 225~232
23 Xu J, Daniel W C H. Neurocomputing, 2002, 48: 681~689
24 Tabaraki R, Khayamian T, Ensafi A A. Journal of Molecular Graphics and Modelling, 2006, 25(1): 46~54
25 Weng ShiFu(翁诗甫). Fourier Transform Infrared Spectrometer(傅里叶变换红外光谱仪). Beijing(北京): Chemical Industry Press(化学工业出版社), 2005: 1~33
26 Cao J, Lin X. Engineering Applications of Artificial Intelligence, 2008, 21(8): 1255~1263