互信息诱导子空间集成偏最小二乘在近红外光谱定量校正中的应用

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw2023114277 日期:2025-09-04 来源:论文网

【摘要】 在集成框架下,提出了一种联合自助采样和基于互信息变量选择的子空间回归集成偏最小二乘算法MISEPLS。此算法的核心是通过训练集自助采样和随后计算互信息的方式来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原始变量的一个子空间得到训练。模型融合考虑了简单平均和加权平均两种方式。通过两个近红外光谱定量校正实验,与建立单模型的全谱偏最小二乘算法(PLS)和基于互信息变量选择的偏最小二乘算法(MIPLS)进行了比较。结果表明,在不增加模型复杂度的情况下,MISEPLS能建立起更精确、更稳健的校正模型。

【关键词】 互信息,子空间,集成,校正,近红外光谱

  1 引言
  
  近年来, 近红外光谱(NIR)技术以其简便、快捷、低成本、无污染以及不破坏样品等优点,被越来越多地应用于石油、化工、医药、食品等领域[1~4]。近红外光谱对应分子中含氢基团的振动倍频与合频,加之各种干扰存在和物理因素影响,具有背景复杂、谱峰重叠、变动、信号弱的特点,其中的有效信息率非常低。因此,从复杂、重叠、变动的光谱信号中提取微弱的有用信息,并建立校正模型是应用近红外光谱技术的难点和关键,直接决定了其可用性[5]。化学计量学算法已成为近红外光谱技术的核心技术之一[6]。具有代表性的化学计量学算法包括偏最小二乘(PLS)[7]、人工神经网络(ANN)[8,9]、支持向量机(SVM)[10]等。
  
  传统的校正技术一般基于建立单一模型,在很多情况下,特别是当训练集较小时,单一模型的预测能力与稳健性难于达到要求[11]。起源于机器学习的集成或共识(Ensemble or consensus)策略为解决该类任务提供了新思路[12]。所谓集成就是利用多个模型来解决同一个问题。对于模型设计者,不必试图采用复杂算法建立单个复杂模型,而是利用多个简单模型某种互补,可达到同样的目标。通常,在集成框架下,需要通过某种扰动(如对样本或变量重采样)产生分散的训练子集,并建立相应的成员模型,再通过简单平均或加权平均等方式将多个成员模型整个合起来,最终产生一个所谓的集成模型。集成最早应用于模式识别,由于其呈现出的众多优势,在化学计量学领域也已受到广泛关注。文献中报道了一些有效的集成算法,如BaggingPLS [13], Boosting KPLS [14], Subagging PLS [15], Consensus PLS[16]等。与单模型算法相比,集成类算法能更充分地利用训练样本信息,因而能产生更精确和更稳健的校正模型。
  
  在集成框架下,本研究提出了一种联合自助采样和基于互信息变量选择的子空间回归集成算法MISEPLS。其主要特点是综合训练集自助采样(Bootstrap) [17]和互信息(Mutual information) [18]变量选择来引入成员模型的差异性。由于互信息量小于一个特定阈值的变量被淘汰,每个成员模型在原变量集的一个子空间训练,因此可避免多元共线性带来的诸多问题。同时,也比较了简单平均和加权平均两种模型整合(融合)方式。通过两个近红外光谱定量分析实例及与建立单模型的全谱偏最小二乘算法(PLS)、基于互信息变量选择的偏最小二乘算法(MIPLS)比较,验证了其综合性能:该算法能在不增加模型复杂度的前提下,显著提升校正模型的预测精度和稳健性。

  2 原理与算法
  
  近红外光谱定量分析需借助校正模型。构建模型的过程即是校正,需根据校正集样本求回归系数b。不同的回归系数代表了不同的模型,具有不同的性能。在集成框架下,设计一个算法需考虑3个基本问题[19]:(1)成员模型类型 “成员模型”即用于集成的单个模型,是与集成模型相比较而命名的。成员模型类型由基算法决定(基算法是训练成员模型的算法),所以成员模型也被称为基模型。本研究采用偏最小二乘(PLS)为基算法; (2)生成多个不同的成员模型 本研究用自助(Bootstrap)重采样结合基于互信息计算的变量筛选方法。互信息是信息论中的重要概念,它可作为两个变量间相关性的量度,或一个变量包含另一个变量的信息量的量度。设有随机变量x和y,它们的边缘概率分布和联合概率分布分别为Px(x), Py(x)和Pxy(x,y),这两个变量间的互信息定义为:MI(x,y)=∑Px,y(x,y)Px(x)·Py(y)Px,y(x,y)(1)可见,计算MI需先估计概率密度。一般先将x和y的取值范围细分为一定数量的小区间,并将XY平面划分为若干个方块,再通过统计直方图来近似概率分布。若x和y分别表示光谱某波长(波数)处响应和浓度,则MI(x,y)表示在获知样本在该波长变量的响应后,浓度值的不确定性减少的量。与相关系数相比,互信息能兼顾变量间的线性和非线性,而光谱响应与物质浓度间的非线性是普遍存在的;自助采样又使变量间的互信息有所变化,这恰是集成建模所需的分散性,因此将互信息用在光谱集成校正中是可行的; (3)多个成员模型的融合 本研究采用简单平均与加权平均两种方式。
  
  提出的MISEPLS算法主要包括以下步骤:(1)在训练样集上采用交叉验证的方式确定出最优全谱PLS模型的潜变量数Lvs(所有成员模型的潜变量数将设为这个数),并确定集成规模成员模型数(M)和候选成员模型总数。根据文献[20],集成超过25个成员模型并无必要。因此,本研究固定这两个参数分别为30和100 ,即仅30%候选成员模型用于最后集成。 (2)用自法助对原训练集重采样(随机有放回采样),产生一个同样大小的当前训练集。 (3)在当前训练集上,计算光谱变量和因变量(浓度)的互信息,产生互信息谱,并计算该谱的平均值(mean)和标准偏差(std.)。然后,定义阈值为:mean+1.5std.(根据前期实验研究)。通过仅保留互信息大于该阈值的变量,原光谱空间被削减为一个子空间,训练集光谱矩阵变为一小的子矩阵。 (4)在子空间内,建立一个成员PLS模型fm(x),并用其预测原始训练集样本,得RMSEC值;(5)重复步骤(2)~(4),直至候选成员模型数达到指定要求(100)。 (6)根据RMSEC值从小到大对候选成员PLS模型排序,并保留前30个PLS模型用于集成。 (7)用两种方法融合PLS模型为集成模型:(A)简单平均融合(SAF); (B)加权平均融合(WAF)。 对于后者,还需求加权系数βm。若用F(x)表示集成模型,则这两种融合方法可统一表示为:F(x)=∑Mm=1βmfm(x)(2)

  假设有N个训练样本,并用fm(xi)表示第m个成员PLS模型对第i个样本的预测值, yi 表示浓度的参考值,则通过求解线性方程组:
  
  f1(x1)f2(x1)…fM(x1)

  f1(x2)f2(x2)…fM(x2)

  …… ……

  f1(xN)f2(xN)…fM(xN)·β1

  β2

  …

  βΜ=y1

  y2

  …

  yN(3)

  可得加权系数βm。当βm=1(m=1,2,…,M)时,即为简单平均。可见,简单平均是加权平均的特例。一旦获得集成模型(系数向量),通过光谱与系数向量间的点积运算即可对未知样品的浓度进行预测。两种融合策略SAF、WAF产生了MISEPLS算法的两个版本,分别用MISEPLS1和MISEPLS2表示。此外,基于互信息变量选择的建立单个PLS模型的算法用MIPLS表示。

  3 实验部分

  3.1 数据集
  
  本研究使用两个近红外光谱定量分析数据集:(1)烟草数据Cigarette:包含148个某卷烟厂的烟丝样本,扫描光谱范围为830~2500 nm(德国BRUKER公司MarixE仪器),每个光谱由691个数据点组成。每个样品的总糖(TS)和尼古丁(NIC)由连续流动分析仪(荷兰SKALAR公司San++仪器)给出,以质量百分数表示。所有样本均有TS参考值,仅81个样本有NIC参考值。TS浓度范围为20.93%~26.98%,标准偏差为1.46%;NIC浓度范围为1.59%~2.76%,标准偏差为0.30%。对每一光谱均实施了变量标准化处理(SNV),以去除微粒尺寸和附加散射等物理效应的影响;(2)酒类数据Wine:该数据集来至文献[21],包含124个酒类样本,扫描光谱范围为400~4000 cm-1,每个光谱由256个数据点组成,并提供样本酒精(Alcohol)含量。

  3.2 样本分割
  
  为构建校正模型并对其进行有效评价,需实施训练集和测试集分割。本研究采用样本排序与交替重采样相结合的方法来实现。排序采用Galvo等提出的SPXY算法[22]。该算法是在样本距离定义中引入了化学值(浓度),是对经典KS算法的扩展,特别适合于定量任务。在该分割方案中,先计算所有样本间的欧氏(Euclidean)距离,并挑选出相距最远的两个样本,再依次挑选出与已挑出样本具有“最大最小距离”的样本,直到所有的样本被挑出。按被挑出的次序,样本排列成一个序列;再用间隔采样,以2∶1的比例产生训练集和测试集,结果如表1第3列所示。

  4 结果与讨论

  4.1 算法性能比较
  
  采用两个基于均方误差(RMSE)的指标评价和比较不同算法的性能,对训练集和测试集,RMSE分别表示为RMSEC与RMSEP。表1总结了4种算法所产生的校正模型的性能。考虑到自助采样具有一定的随机性,除全谱PLS外,其余3种算法(MIPLS, MISEPLS1, MISEPLS2)都运行100次,表1中后3列均为100次运行所建模型RMSEP的均值和标准偏差。对于TS, NIC和Alcohol,MISEPLS将变量数由原来的691, 691和256分别减少到84, 47和25,在一个小的子空间建模,使得变量数小于训练样本数。

  表1 4种算法校正模型的性能比较(略)

  Table 1 Performance comparison of the four kinds of calibration

  对于TS, MIPLS所建单模型的性能稍优于全谱PLS模型,而对于NIC和Alcohol,MIPLS所建单模型的性能不及全谱PLS模型,说明在互信息诱导的子空间内,建立单个模型并不可靠。而采用MISEPLS方法,所得校正模型却明显优于全谱PLS模型。 以MISEPLS1为例,对于三成分,RMSEP均值分别由0.5585, 0.0980和0.1790减小到0.5058, 0.0815和0.1077。MISEPLS2与MISEPLS1类似,并无显著差别。此外,比较MIPLS和MIEPLS1/MISEPLS2还可发现,后者RMSEP的标准偏差平均低一个数量级以上,说明MISEPLS方法对训练集的依赖程度更低,稳健性较好。以Alcohol为例,图1显示了原始光谱的均值谱、一次运行中256个光谱变量与Alcohol量的互信息谱及在100个侯选模型中各变量出现的频数。可以看出,由于采用自助采样,各个成员模型的训练集存在一定差异,导致互信息谱的微小变化,使得变量在100个子空间出现的次数呈现某种分散性,这恰是集成技术中需要的差异性。MISEPLS算法综合了样本重采样和变量重采样,使得不同成员模型对蕴藏在训练集中的信息的利用具有互补性,所建模型具有最好的预测能力。图2以散点图的方式比较了四类模型的预测能力,横坐标代表浓度的参考值,纵坐标代表模型预测值,从点围绕对角线的分布情况可方便比较不同模型的预测性能。相应于MISEPLS1/MISEPLS2模型的点沿对角线分布最紧凑,这说明MISEPLS1和MISEPLS2给出的预测值与参考值最接近。

  图1 变量互信息和在侯选模型中出现的频数(略)

  Fig.1 Mutual information of each variable and its selected frequency in candidate models

  图2 4类模型的预测能力比较(略)

  Fig.2 Comparison of the predictive ability of four kinds of models    

  4.2 回归系数分析
  
  尽管4种方法建模过程不同,但结果均为长度256的系数向量。应用模型时仅需将样品的光谱变量以此系数向量为权重进行组合运算。

  图3 4类模型的回归系数向量(略)

  Fig.3 Regression coefficient vectors associated to four kinds of models

  对MISEPLS,由于每个成员模型均在一个特定的子空间建立,所以通过标记每个子空间所对应的变量,仍可还原一个系数向量。图3为4类模型的回归系数向量(曲线),可见,全谱PLS模型系数曲线最平缓,而MIPLS模型系数曲线变化最剧烈,特别是对应于变量25(3750 cm-1)周围的光谱峰,显示出最大的权重。MISEPLS模型系数则介于PLS和MIPLS这两种单模型之间,避开了两种极端情形,实现了某种有利折中,而且,MISEPLS1和MISEPLS2差别很小。

  综上所述,在集成框架下,综合运用样本重采样和变量重采样来引入成员模型的差异性,提出了一种子空间集成回归算法MISEPLS。通过两个近红外光谱定量分析实例及比较,确认了该算法的优良性能。MISEPLS所建校正模型仍为系数向量,而且简单平均和加权平均融合没有显著差异。从模型应用角度看,此算法在不增加模型复杂度的前提下,能显著提升其预测精度和稳健性。

参考文献


  1 Chu XiaoLi(褚小立), Yuan HongFu(袁洪福), Lu WanZhen(陆婉珍). Progress in Chemistry(化学进展), 2004, 16(4): 528~542

  2 Bi Xian(毕 贤), Li TongHua(李通化), Wu Liang(吴 亮). Chem. J. Chinese Universities(高等学校化学学报), 2004, 25(6): 1023~1027

  3 Zou X B, Zhao J W, Li Y X. Vib. Spectrosc., 2007, 44(2): 220~227

  4 Cen H Y, He Y. Trends Food Sci. Tech., 2007, 18(2): 72~83

  5 Tan C, Qin X, Li M L. Anal. Bioanal. Chem., 2008, 392(3): 515~521

  6 Li YanKun(李艳坤), Shao XueGuang(邵学广), Cai WenSheng(蔡文生). Chem. J. Chinese Universities(高等学校化学学报), 2007: 28(2): 246~249

  7 Du Y P, Liang Y Z, Jiang J H, Berry R J, Ozaki Y. Anal. Chim. Acta, 2004, 501(2): 183~191

  8 Chalus P, Walter S, Ulmschneider M. Anal. Chim. Acta, 2007, 591(2): 219~224

  9 Liu XueSong(刘雪松), Shi ChaoSheng(施朝晟), Cheng YiYu(程翼宇), Qu HaiBin(瞿海斌). Chinese J. Anal. Chem.(分析化学), 2007: 35(10): 1483~1486

  10 Zhou Y P, Jiang J H, Wu H L, Shen G L, Yu R Q, Ozaki Y. J. Chemometr., 2006, 20(12): 13~21

  11 Li Y K, Shao X G, Cai W S. Talanta, 2007, 72(1): 217~222.

  12 Tan C, Li M L, Qin X. Anal. Sci., 2008, 24(5): 647~653

  13 Viscarra Rossel R A. J. Near Infrared Spectrosc., 2007, 15(1): 39~47

  14 Shinzawa H, Jiang J H, Ritthiruangdej P, Ozaki Y. J. Chemometr., 2006, 20(1): 436~444

  15 Galváo R K H, Araújo M C U., Martins M do N, José G E. Pontes M J C, Silva E C, Saldanha T C B. Chemom. Intell. Lab. Syst., 2006, 81(1): 60~67

  16 Su Z Q, Tong W D, Shi W D, Shao L M, Shao X G, Cai W S. Anal. Lett., 2006, 39(9): 2073~2083

  17 Richard O Duda, Peter E Hart, David G Stork, Pattern classification, 2nd ed., New York: John Wiley && Son, 2001: 382

  18 Tan C, Qin X, Li M L. Spectrochim. Acta A, 2008, 71(4): 1266~1273

  19 Tsymbal A, Pechenizkiy M, Cunningham P. Information Fusion, 2005, 6(1): 83~98

  20 Breiman L. Mach. Learn., 1996, 24(2): 123~140

  21 Benoudjit N, Cools E, Meurens M, Verleysen M. Chemom. Intell. Lab. Syst., 2004, 70(1): 47~53

  22 Galváo R K H, Araújo M C U, José G E, Pontes M J C, Silva E C, Saldanha T C B. Talanta, 2005, 67(4): 736~740

如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100