关于支持向量回归

论文价格:0元/篇 论文用途:仅供参考 编辑:论文网 点击次数:0
论文字数:**** 论文编号:lw202395432 日期:2025-02-28 来源:论文网

       作者:冯雪松,刘雅茹,王大成,孟繁浩,刘俊亭

【关键词】 紫外光谱
  摘要:目的 建立同时测定小儿氨酚匹林咖啡因片中3种组分:阿司匹林、对乙酰氨基酚和咖啡因含量的紫外光谱的支持向量回归校正方法。方法 对复方制剂的紫外光谱数据进行预处理和主成分分析后不经分离,采用支持向量回归(SVR)算法同时测定3组分的含量。结果 测定正交设计标样中的阿司匹林、对乙酰氨基酚和咖啡因的平均回收率分别在98.2%~101.2%之间,RSD在0.47%~0.91%之间。将SVR法与偏最小二乘回归和径向基神经网络建模方法相比较,SVR所建模型的预测准确性优于后两者。结论 本法可用于小儿氨酚匹林咖啡因片的紫外光谱的含量测定分析。
  关键词:小儿氨酚匹林咖啡因片;紫外光谱;支持向量回归
Abstract: Objective To use multivariate spectrophotometric calibration for the simultaneous analysis of paracetamol,aspirin and caffeine in tablets for children. Methods After UV data were pretreated and the principal component analyzed,support vector regression (SVR) was employed to analysis the three components with a high degree of spectral overlap.Results The proposed method was compared with partial least square regression and radialbasis function neural network modeling methods.The predictive accuracy of UV calibration models built by SVR was much better than that of the models built by partial least square regression and radial-basis function neural network.The average recoveries for the three components were between 98.2% and 101.2% (n=49) and RSD were between 0.47% and 0.91% (n=49).Conclusion The method could be used for simultaneous analysis of the contents of paracetamol,aspirin and caffeine in tablets for children.
  Key words:pediatric paracetamol pspirin and caffeine tabletes;UV spectroscopy;support vector regression

  紫外光谱分析方法是最常见、简便、快捷的定性定量分析手段,随着分析对象的复杂及要求的提高,近来已有被色谱光谱联用技术所取代的趋势。但由多种模式识别算法丰富起来的计算分光光度法可以通过数学分离来模拟色谱分离,达到对复杂组分的分析目的,其关键技术环节之一是建立紫外光谱含量测定的数学校正模型,达到对多组分同时进行测定。通常,建模需要大量分布均匀的已知样本才能获得理想的光谱分析准确度。然而,在实际的分析工作中,选取吸光度测定点少、复方样品各组分含量的范围不同及复杂分析对象等因素往往造成难以获取大量的已知样本,同时由于多组分和辅料的存在,测量数据与组分浓度间常呈非线性映射关系,故研究面向小样本复方制剂的非线性建模方法是紫外光谱计算分析技术发展的难点。
  小儿氨酚匹林咖啡因为多组分复方制剂,所含成分较多且各成分性质不同,需用不同方法测定或分步分离提取再分别测定,这些方法操作繁琐、误差较大,不宜批量分析和用于质量监控,而支持向量机回归(support vector regression,SVR)算法可基本克服以上缺点。本文用SVR法建立小儿氨酚匹林咖啡因片紫外光谱校正模型,另外,由于在计算药学领域中,人工神经网络(artificial neural network,ANN)和部分最小二乘(partial least squares,PLS)方法是两种应用非常广泛的建模方法,因此,本文将SVR与偏最小二乘回归(PLSR)及径向基神经网络(RBFANN)算法进行比较。
  1 支持向量机回归原理[1]
  Vapnik等学者提出的支持向量机算法(support vector machine,SVM)[1]是近10年来机器学习、模式识别以及神经网络界最有影响力的成果之一。支持向量机是在统计学习理论(statistical learning theory,SLT)基础上发展起来机器学习算法,统计学习理论是一种小样本统计理论,着重研究解决在小样本情况下的统计学习问题。支持向量机的基本思想是:首先把训练数据集非线性地映射到一个高维特征空间,这个非线性映射的目的是把在输入空间中的线性不可分数据集映射到高维特征空间后变为是线性可分的数据集,随后在特征空间建立一个具有最大隔离距离的最优分离超平面,从几何上说支持向量就是决定最优分离超平面的样本向量的最小个数。实际上SVM最吸引人的地方是结构风险最小化思想(structural risk minimization,SRM),而不是传统的经验风险最小化原则(empirical risk minimization,ERM),这在理论上被证明具有更好的泛化推广能力[1]。
  2 处理步骤及方法
  2.1 首先要确定选择涵盖各组分紫外吸收光谱范围
  2.2 测量校正集和测试集分别在不同波长下吸收度矩阵构成各样本数据集,数据预处理标准化。
  2.3 优化模型结构、参数,由于在没有先验知识指导的情况下,用径向基RBF函数往往能够得到较好的非线性拟合结果,确定的非线性映射的核函数类型是径向基函数K=exp(-‖Ai-Aj‖2[]2σ2),将输入样本数据矩阵AK(a1k,a2k,a3k,…ank,m×n,k=1,2,3,…m样本数,n为确定的波长数量),映射到高维特征空间中,然后再在该特征空间中对数据进行线性分析,考察参数变化对对测试精度的影响。
  2.4 用测试及对校正模型进行测试。
  用训练集训练这个系统,使不同的输入向量得到相应的输出量值,为了消除各个因子由于量纲和单位不同的影响,对样本的输入、输出参数分别进行数据预处理,然后将在相应波长的测得吸光度值(2维向量)作为支持向量机的输入,把各组分的含量模型测试结果作为支持向量机的输出向量,从而在各种组合的制剂中测得吸收值与各组分实际浓度值之间建立一种非线性映射关系,采用相对标准偏差RSD(1[]x∑(xi-)2[]n-1,其中为真实值)作为交叉验证(Crossvalidation)的检验指标和测试效果。经过不断地学习及测试,达到较高的精度之后,该系统就可以作为非线性组合预测的有效工具,得到最终测试结果。小儿氨酚匹林咖啡因片含量测定问题就转化为建立支持向量机的回归函数问题。
  SVR存在缺点:随着样本数目的增大,所需的计算时间和空间存储资源都会成几何级数增加。为了提高SVM运算速度,本研究先利用主成分分析法(principal component analysis,PCA)对数据进行预处理,消除光谱数据的相关性和噪声,提取包含样本数据信息的主元,降低样本空间的维数,可以大大地简化计算和节约资源空间,再利用SVR对样本进行训练,最后根据训练后获得的优化参数进行测试。
  软件采用MATLAB interface of LIBSVM 2.71为内核在MATLAB7.0上编制计算。
  3 实验部分
  3.1 仪器与试剂
  日本岛津UV―260型紫外分光光度计。阿司匹林(批号:1011―0101)、对乙酰氨基酚(批号:0018―9206)和咖啡因(批号:1215―9503)均购自中国药品生物制品检定所。淀粉,硬脂酸镁(均符合中国药典标准2000版二部各品种项下要求),所用试剂均为分析纯。
  3.2 标准液、样品液的制备
  3.2.1 空白贮备液配制
  精密称取辅料适量置于1 000 mL量瓶中,加0.03%酒石酸的无水乙醇溶剂溶解,并稀释至刻度,摇匀,过滤,滤液作空白贮备液。
  3.2.2 对照品贮备液配制
  精密称取各组分对照品适量,以0.03%酒石酸的无水乙醇溶剂溶解,分别配制成每1 mL含阿司匹林0.25 mg、对乙酰氨基酚0.25 mg和咖啡因0.05 mg的溶液,作为对照品贮备液。
  3.2.3 合成样品液的制备
  小儿氨酚匹林咖啡因片中对乙酰氨基酚,阿司匹林,咖啡因质量比为63∶115∶15。在各自标示量范围内,分6等份,取7个浓度水平,按正交设计方案L49(73)配制49个合成对照品混合溶液,按比例加空白贮备液适量置100 mL量瓶中,用003%酒石酸的无水乙醇溶液稀释至刻度,混匀,静止放置20 min,组成校正集。

  在组分各自标示量范围内,随机交叉组合,同法用对照品贮备液制备测试样本15个,组成测试集。
  3.3 样品的紫外光谱分析
  按“3.4”样品测定项下要求,在210~300 nm波长范围内,测量阿司匹林、对乙酰氨基酚和咖啡因对照品液紫外吸收光谱(图1),结果各组分的吸收光谱严重重叠。
  3.4 样品测定
  分别取制剂的校正、测试样本液,用空白贮备液+溶剂作参比,1 cm比色皿,0.2 nm狭缝,在210~300 nm波长范围内扫描,间隔2 nm,测量样品的吸光度,组成样品的吸光度矩阵,用以建立支持向量机校正模型及测试结果。
  3.5 线性范围
  在选定210~300 nm的波长范围内10个波长处,分别测量3组分的不同浓度对照品液吸光度。3组分在各波长处线性相关系数均大于0.9997,对乙酰氨基酚、阿司匹林和咖啡因的线性范围分别为2.5~25 μg・mL-1,5~50 μg・mL-1和1~10 μg・mL-1。
  
  3.6 光谱加合性试验和稳定性
实测“3.2.3”中配制49组校正集各自在“3.5”中确定的不同波长的吸光度A,根据相同浓度的阿司匹林、对乙酰氨基酚和咖啡因对照品溶液Ai(i=1,2,3),得出3组分的混合溶液在各波长处的理论吸光度A0(A0=A1+A2+A3),计算不同波长下的|A-A0|/A0得869%~20.35%,表明吸光度加和性较差,组分间存在交互作用,可能是受到测定误差的叠加、辅料干扰、选定的波长点等造成吸光度与组分浓度的关系偏离比尔定律。
将混合液放置不同时间后测量其吸光度,结果表明混合液紫外吸收度12 h内稳定(RSD=0.9%,n=6)。
  3.7 回收率试验
  取“3.4”项合成样品测定的结果,输入已建立的校正向量机模型计算,阿司匹林、对乙酰氨基酚和咖啡因平均回收率分别为98.2%,100.4%,101.2%,RSD分别为0.68%,0.47%,0.91%(n=49)。
  4 讨 论
  4.1 溶剂系统
  考虑到阿司匹林和对乙酰氨基酚水解因素,及各组分在乙醇中溶解性能较好,最终选用0.03%酒石酸的无水乙醇溶液作溶剂。
  4.2 采样频率
  为提高计算精度,测定波长范围应选择在各组分吸收系数变化较大的部分。原则上增加测定波长实验点,可增加数据的代表性,提高计算精度,但波长实验点数太多,计算误差增大,精度反而下降。为此,首先固定SVR参数值,依次改变采样频率和主成分数,以RSD为判定指标,用交叉验证的SVR方法建立校正模型。分别考察不同采样频率和主成分数对该指标的影响。经计算及多次试验发现,光谱范围选择210~300 nm,间隔2 nm;阿司匹林、扑热息痛主成分数为3个,咖啡因4个主成分时,结果最佳。
  4.3 参数调整对支持向量机建模的影响及模型测试性能
  本研究依据光谱线性加和性较差的情况,选用非线性回归问题核函数。目前,SVR使用的核函数主要有多项式、径向基和Sigmoid等。本研究采用顺序最小优化算法(SMO)[2]来训练SVR,该方法不仅适合大数据集的学习而且提高了运行的速度。
  选用径向基RBF函数,所要设定的SVR的3个参数分别是误差精度(ε)、惩罚系数(C)和径向基核函数的宽度(σ)常用的方法是交叉验证法来选择核函数参数:定义一个σ训练集、确认集和测试集,可以选择几组不同的C和σ,从训练集中的训练数据推导出回归参数,选择其中使确认集中数据错误最小的那一组C和σ作为模型的参数。测试集中的数据是完全独立的数据,在模型辨识的过程中,不参与模型的训练与确认。
  核函数参数(σ)主要影响样本数据在高维特征空间中分布的离散程度,而误差惩罚因子C 的作用是在确定的特征空间中调节学习机的置信范围和经验风险的比例。因此要想获得推广能力良好的SVR模型,首先要选择合适σ的将数据映射到合适的特征空间,然后针对该确定的特征空间寻找合适的C以使学习机的置信范围和经验风险具有最佳比例。研究中除了在同一特征空间优化C以获得对应该空间的最优SVM,还要优化核函数参数σ以获得全局最优的SVM。在确定采样频率及主成分数的基础上,采用全局寻优方式得到SVR的参数值,得到的训练误差和测试误差结果见表1。表1 参数对建模质量的影响(略)
  以对乙酰氨基酚为例,考察模型交叉验证和测试的结果与真实值的相关性,结果见图2。图2的横坐标是样品的实际浓度值,纵坐标为校正模型对校正集和测试集各样品浓度的测试值,两者的相关性良好,r=0.9967。可见测试结果与实际值相吻合,结果经t检验,差异无显著性(P>0.05),表明方法适于小儿氨酚匹林咖啡因片的常规分析。
  4.4 模型比较
  从表2可以看出,SVR拟合能力稍逊于人工神经网络,但其预测能力明显优于人工神经网络方法。其中人工神经网络结构是通过大量试验后才得出来的“最优结构”,拓扑结构为45×26×3。经过本法与人工神经网络方法比较分析可知:支持向量机方法能充分利用训练样本的分布特性,构建判别函数,而人工神经网络方法往往较多的变换参数才能得出比较满意的结果,从理论上说,SVR得到的将是全局最优解,有效避免了神经网络易陷入的局部极值问题,同时通过非线性变换和核函数巧妙解决了高维数问题,使得其算法复杂度与样本维数无关,加速了训练学习速度;另外,它能根据有限的样本信息在模型的复杂型和学习能力之间寻求最佳折中,保证其有较好的泛化性能。表2 SVR与RBFANN和PLSR模型误差RSD分析比较(略)
  

参考文献


  [1]张学工.统计学习理论的本质[M].北京:清华大学出版社,2000:278.
  [2]FLAKE G W,LAWRENCE S. Efficient SVM Regression Training with SMO[J].Machine Learning,2002,46: 271.转贴于
如果您有论文相关需求,可以通过下面的方式联系我们
客服微信:371975100
QQ 909091757 微信 371975100