药学学报  2015, Vol. 50 Issue (12): 1645-1651   PDF    
近红外光谱技术结合粒子群最小二乘支持向量机算法在山茱萸药材质量控制中的应用研究
刘雪松1, 孙芬芳1, 金叶1, 吴永江1 , 谷陟欣2, 朱丽2, 颜冬兰2    
1. 浙江大学药学院, 浙江杭州 310058;
2. 九芝堂股份有限公司, 湖南长沙 410205
摘要: 本文结合近红外光谱(NIR)定量分析技术以及粒子群最小二乘支持向量机(PSO-LS-SVM)方法,发展了一种方便、快速的用于山茱萸药材的多指标质量控制方法。实验以水分、浸出物、马钱苷、莫诺苷为质控指标,利用粒子群算法对最小二乘支持向量机算法进行参数优化,并建立定量校正模型,发现模型中各个指标校正和预测性能都优于偏最小二乘回归(PLSR)和神经网络(BP-ANN),其中校正集相关系数均大于0.942。对于未知样本的预测, PSO-LS-SVM模型的RMSEP和RSEP值分别小于1.176和15.5%,较其余两个模型更低。本文建立的PSO-LS-SVM模型具有模型性能好、预测精度高的优点。近红外光谱技术结合化学计量学方法在山茱萸药材质量控制中具有潜在的应用价值。
关键词: 近红外光谱     山茱萸     粒子群优化     最小二乘支持向量机     HPLC    
Application of near infrared spectroscopy combined with particle swarm optimization based least square support vactor machine to rapid quantitative analysis of Corni Fructus
LIU Xue-song1, SUN Fen-fang1, JIN Ye1, WU Yong-jiang1 , GU Zhi-xin2, ZHU Li2, YAN Dong-lan2    
1. College of Pharmaceutical Sciences, Zhejiang University, Hangzhou 310058, China;
2. Jiuzhitang Co., Ltd., Changsha 410205, China
Abstract: A novel method was developed for the rapid determination of multi-indicators in corni fructus by means of near infrared(NIR) spectroscopy. Particle swarm optimization(PSO) based least squares support vector machine was investigated to increase the levels of quality control. The calibration models of moisture, extractum, morroniside and loganin were established using the PSO-LS-SVM algorithm. The performance of PSO-LS-SVM models was compared with partial least squares regression(PLSR) and back propagation artificial neural network(BP-ANN). The calibration and validation results of PSO-LS-SVM were superior to both PLS and BP-ANN. For PSO-LS-SVM models, the correlation coefficients(r) of calibrations were all above 0.942. The optimal prediction results were also achieved by PSO-LS-SVM models with the RMSEP(root mean square error of prediction) and RSEP(relative standard errors of prediction) less than 1.176 and 15.5% respectively. The results suggest that PSO-LS-SVM algorithm has a good model performance and high prediction accuracy. NIR has a potential value for rapid determination of multi-indicators in Corni Fructus.
Key words: near-infrared spectroscopy     Corni Fructus     particle swarm optimization     least squares support machine     HPLC    


山茱萸为山茱萸科植物山茱萸(Cornus offficinalisSieb. et Zucc.)的干燥成熟果肉[1],主要分布在我国浙江、河南、山东、安徽等地,是世界上三大名贵木本药材之一[2]。山茱萸主要的化学成分为五环三萜、环烯醚萜、鞣质、黄酮以及糖类等,是经典中药六味地黄丸中的主要成分,不仅具有补肝肾、涩精气、强壮、收敛等功效[3],而且在降低血糖血脂、抗菌消炎、调节免疫和清除自由基等方面都表现出较好的疗效[4, 5]

原药材质量是中药质量分析和控制的源头。目前,原药材的质量控制主要依靠经验和传统质量分析方法 (HPLC等),耗时繁琐。故开发山茱萸药材中关键质控指标的快速检测方法,有助于提高山茱萸药材质量控制,对于中药产品质量提升具有重要的意义。

近红外 (near-infrared,NIR) 光谱技术作为一种绿色分析技术,具有样品处理简单、无损耗、分析快速等优点,近年来被陆续应用于非侵入式定量分析[6]、制药过程在线监控分析[7, 8]、多组分含量测定[9]等。偏最小二乘回归法 (PLSR)、人工神经网络法 (ANN)、多元线性回归 (MLR)、支持向量机法 (SVM) 等是近红外定量分析常用建模方法。最小二乘支持向量机(LS-SVM) 是经典SVM的一种改进,具有建模速度快、优化参数少、泛化能力强等优点。近年来,启发式算法被越来越多地应用于LS-SVM参数优化,如蚁群算法、遗传算法、粒子群优化等[10, 11],其共同特点是多点并行搜索,按照一定的信息传递方式,逐渐逼近全局最优。

本研究以山茱萸药材为研究对象,采用近红外光谱分析技术,结合基于粒子群算法的最小二乘支持向量机 (PSO-LS-SVM),分别建立山茱萸药材多个质控指标——水分、浸出物、马钱苷和莫诺苷的定量分析模型,并将模型性能与基于PLSR和ANN建立的NIR模型进行比较,结果显示PSO-LS-SVM算法建立的模型性能好,预测能力强。

材料与方法 LS-SVM算法

LS-SVM是一种新型人工智能技术,将最小二乘线性思想引入向量机,通过非线性函数ψ (x) (核函数) 将样本数据映射到高维特征空间,在此高维空间中构建最优线性决策函数,巧妙地利用原空间中的核函数代替高维空间的点积运算,简化计算[12, 13]

给定一组训练数据集D = {(xi,yi) | i = 1,2,…l},其中xiRn为输入向量、yiR为输出变量,l为训练样本容量。在特征空间中,LS-SVM的最优决策函数可用等式 (1) 表示:

$\hat y{\rm{ = }}{w^T}\psi (x) + b$ (1)

式1中w为权重向量,b为偏差。式 (1) 的求解可转化为如下优化问题:

$\left\{ {\matrix{ {\min J(w,e) = {1 \over 2}{{\left\| w \right\|}^2} + {1 \over 2}\gamma \sum\limits_{i = 1}^l {{e_i}^2} } \cr {s.t.{y_i} = {w^T}\psi ({x^i}) + b + {e_i},i = 1,2,...l} \cr } } \right.$ (2)

式2中γ为正则化参数,控制经验风险和置信风险之间的平衡; l为训练集样本数目; e为训练误差; b为偏差变量。采用拉格朗日法将约束优化问题转化为无约束优化问题:

${\hat y_l}{\rm{ = }}\sum\limits_{i = 1}^l {\alpha K(x,{x_i})} + b$ (3)

式3中α代表拉格朗日乘子,根据Hibert-Schmidt理论,K(x,xi) 是满足Mercer定理的核函数[9]。LS-SVM常用的核函数有多项式函数、径向基函数 (RBF)、高斯核函数、感知器型核函数等。径向基函数 (RBF) 作为一种非线性函数,能够减少训练过程中计算的复杂程度[14],因此本研究选择RBF作为核函数:

$K(x,{x_i}) = \exp ({{{{\left\| {x - {x_i}} \right\|}^2}} \over {{\sigma ^2}}})$ (4)

其中σ为核参数,其值过大或过小会对数据造成过拟合和欠拟合现象。

LS-SVM参数的粒子群优化算法

基于RBF核函数的LS-SVM模型中,需要对核函数参数σ和正则化参数γ进行优化,本研究利用了具有全局搜索能力的粒子群 (PSO) 算法对参数 (γ,σ) 进行寻优。

粒子群算法是美国心理学家Kennedy与电气工程师Barnhart在1995年提出的,其算法来源于对鸟群觅食生物现象的模型研究和行为模拟。在PSO算法中,每一个粒子在运动中具有记忆自身最优位置和群体最优位置的能力,并且通过粒子间的信息共享,使得整个群体朝最优目标运动[15, 16]。设定粒子群中有m个粒子,每个粒子的位置xi代表一组参数 向量 (γ,σ),位置向量表示为$x_{}^i{\rm{ = }}(x_1^i,...,x_d^i,...,x_D^i)$,速度为$v_{}^i{\rm{ = }}(v_1^i,...,v_d^i,...,v_D^i)$优解。每次迭代时,粒子通过相互协作和信息共享同时跟踪两个极值更新自己,一个是粒子个体的当前最优解,即个体极值$p_{{\rm{best}}}^i$; 另一个是整个种群的当前最优解,即全局极值$g_{{\rm{best}}}^i$,粒子根据公式 (5) 和 (6) 更新自己的速度和位置,从而协调微粒个体和整个种群运动之间的关系[8, 17],PSO算法流程如图 1所示。

Figure 1 Flow chart of the particle swarm optimization (PSO)
$v_d^i(t + 1){\rm{ = }}(wv_d^i)(t) + {c_1}{r_1}(t)(p_{{\rm{best}}}^i(t) - x_d^i(t))$ $ + {c_2}{r_2}(t)(g_{{\rm{best}}}^i(t) - x_d^i(t))$ (5)
$x_d^i(t + 1){\rm{ = }}x_d^i(t) + v_d^i(t + 1)$ (6)

其中,$v_d^i(t)$表示t时刻粒子id维空间的速度,$x_d^i(t)$表示t时刻粒子id维的空间位置。$p_{{\rm{best}},d}^i(t)$为粒子个体i在所优化的第d个参数的历史最优解,$g_{{\rm{best}},d}^i(t)$是整个种群在所优化的第d个参数的历史最优解。c1c2为加速系数,分别用于自身最优位置和全局最有位置的步长; r1r2为(0,1) 之间变化的相对独立的随机函数。

实验仪器与材料

Bruker MATRIX-F近红外光谱仪 (德国布鲁克公司),配有漫反射检测器、采样系统; Agilent 1200高效液相色谱仪 (安捷伦科技有限公司),XS105 Dual range型电子天平 (梅特勒−托利多仪器有限公司)。

山茱萸药材

(九芝堂股份有限公司提供,经浙江大学药学院徐娟华副教授鉴定,药材信息见表 1); 马钱苷 (批号140819,上海融禾医药科技发展有限公司); 莫诺苷 (批号MUST_14070102,成都曼斯特生物科技有限公司)。

Table 1 Corni Fructus samples from different areas
近红外光谱采集

收集不同产地、采收时间的 山茱萸药材共计136批,药材经粉碎后过60目筛制成粉末样品。每份粉末样品取约2 g,放入样品杯中,在室温下以空气为参比,扣除背景,采集近红外光谱图。

近红外仪器相关参数设置: 积分球漫反射,扫描区间4 000~12 000 cm−1,扫描次数为32次,分辨率为8 cm−1。每个粉末样品光谱采集5次,取平均值作为样品NIR光谱图。

水分和浸出物含量测定

根据2010版《中国药典》,采用烘干法测定样品中水分含量和冷浸法测定浸出物含量[1]。取干燥至恒重的扁形瓶 (X0),取2 g山茱萸药材,精密称重 (X1),置真空烘箱中105 ℃烘5 h,取出置干燥器中冷却30 min,称重,再置真空烘箱中烘1 h,称重 (X2),直至两次的重量差异小于5 mg为止。水分含量(%) = (X1X2 + X0) / X1 × 100%。

取约2 g山茱萸药材,精密称重 (X1),置250 mL锥形瓶中,加水50 mL,密塞,冷浸并称定质量。前 6 h时时振摇,再静置18 h,称定质量,用水补足减失的质量,摇匀。置于15 mL离心管中离心30 min,转速为3 800 r·min−1,精密量取上清液10 mL,置已干燥至恒重的扁形瓶中 (X0),在水浴上蒸干后,于105 ℃干燥3 h,置干燥器中冷却30 min,迅速精密称定重量 (X2)。浸出物的含量 (%) = (X2X0) × 5 / X1 × 100%。

HPLC定量测定

供试品溶液制备: 取山茱萸药精密加25 mL的80%甲醇,称定重量,加热回流1 h,放冷,再称重,用80% 甲醇补足失重,摇匀,取上清液过0.45 μm微孔滤膜即得。

对照品溶液制备: 分别配制得莫诺苷对照品溶液50.3 μg·mL−1、马钱苷对照品溶液42.1 μg·mL−1,置于4 ℃冰箱避光保存。

色谱条件: Agilent Eclipse XDB-C18分析柱 (4.6 mm × 250 mm,5 μm); 流动相: 乙腈−水 (15∶85); 检测波长240 nm,流速为0.8 mL·min−1,进样量为 10 μL,柱温为25 ℃。

数据处理方法与模型性能评价指标

近红外光谱经过剔除异常点,恰当的光谱预处理后,选择合适的波段,采用偏最小二乘回归、人工神经网络、基于PSO-LS-SVM建立山茱萸药材中水分、浸出物、马钱苷和莫诺苷近红外定量校正模型。当模型相关系数 (r) 越接近1,说明模型分析准确度越高。模型对校正集样本和验证集样本的预测误差分别用校正集预测误差均方根 (RMSEC) 和验证集预测误差均方根 (RMSEP) 来考察。当RMSEC和RMSEP较小且彼此接近时,模型越稳定,且具有较高的预测能力。同时以相对预测偏差 (RSEP) 来考察模型的预测误差。

结果 1 质控指标测定

将先采集到的97个样本作为校正集建立模型,后期又采集39个山茱萸未知样本作为验证集,可以看出由于地理位置、采收时间、气候条件等因素差异,山茱萸药材各质控指标存在一定程度的差异 (表 2)。

Table 2 Statistical results of calibration and prediction set samples
2 光谱分析 2.1 异常点剔除

异常样品 (outlier) 存在会影响近红外模型的预测准确性和适用性,本文采用马氏距离 (Mahalanobis distance) 来判断异常样品。马氏距离以数据间协方差距离,计算两个光谱间的相似度[18]。如图 2所示,69号样品的马氏距离远超出阈值,故判定69号样品为异常值并剔除。

Figure 2 Discrimination of spectral outlier by Mahalanobis distance
2.2 光谱预处理

为了消除噪音和环境变化引起的基线漂移,提高模型预测精度,在对近红外光谱进行分析之前,一般要对光谱数据进行预处理[19]。导数处理可以有效地净化图谱信息,分辨重叠峰,但同时会引入噪声,降低信噪比。平滑可以有效减低高频随机噪声。因此本研究将一阶导数法和Savitzky-Golay (S-G) 平滑结合使用。山茱萸药材粉末原始光谱图及经过一阶导数法和S-G平滑预处理后的光谱图如图 3所示。

Figure 3 NIR spectra of Corni Fructus. A: Raw NIR spectra; B: Spectra with first derivative and Savitzky-Golay smoothing
2.3 波段选择

不同的建模指标与NIR的相应波段也有差别。从原始光谱图 3A中可以看出8 500~12 000 cm−1区间的光谱存在较大噪声,且无显著的特征吸收,建模时不建议采用该波段。水含有OH基,在近红外谱区的6 944 cm−1和5 155 cm−1附近有较强的合频与倍频吸收谱带,形成4 500~5 400 cm−1和6 500~ 7 500 cm−1水峰区间,因此对于山茱萸水分指标选取4 500~7 500 cm−1进行建模。而山茱萸浸出物、莫诺苷和马钱苷指标则需避免水峰波段的干扰,通过水峰区间排除后,最终浸出物、莫诺苷和马钱苷选用的建模波段为5 400~6 500 cm−1和7 400~8 200 cm−1。为了确保建模波段选择的正确性,对光谱和质控指标的相关系数进行考察。如图 4A所示,水分指标相关系数大于0.7部分集中于4 500~7 500 cm−1区间中; 浸出物、莫诺苷和马钱苷的相关系数分析以马钱苷为例,从图 4B中相关系数高于0.2的部分除去水分影响波段,主要集中于所选波段中,浸出物和莫诺苷也有类似的结果。

Figure 4 Correlogram diagrams between absorbance and reference values. A: Moisture; B: Loganin
3 定量模型的建立

近红外光谱经以上分析并优化后,将先采集的96批山茱萸药材粉末作为校正集,之后收集的39批未知样本作为验证集,经过主成分分析后,建立PLSR,BP-ANN和PSO-LS-SVM定量模型。本文构建两层结构的人工神经网络模型,经测试得输入层到隐含层的传递函数为正切S形传递函数 (Tansig),隐含层到输出层的传递函数为线性传递函数 (Purelin),同时采用Levenberg-Marquardt规则训练网络,学习速率为0.1,重复训练次数为1 000,训练终止目标为4×10−7。文中的PSO-LS-SVM模型初始化粒子数设为100,PSO最大循环迭代数为100,c1 = c1 = 1.5,w = 0.5,利用粒子群算法对LS-SVM中的核函数参数σ和正则化参数γ进行优化,结果如表 3所示。

Table 3 Performance of different NIR quantitative model. RMSEC: Root mean square error of calibration; RSEC: Root square error of calibration; RMSEP: Root mean square error of prediction; RSEP: Root square error of prediction. aLatent variables; b The number of hidden layers is 15 and 10
4 定量模型的验证

用所建立的PSO-LS-SVM模型对验证集的多指标含量进行预测,模型预测结果见图 5,可见近红外预测值与实际测定值的趋势基本一致。其中水分和浸出物的RSEP均小于3%,马钱苷和莫诺苷RSEP值小于15.5%,能够满足中药实际生产中分析精度的要求。

Figure 5 Prediction results of moisture,extractum,morroniside and loganin by PSO-LS-SVM models for samples in prediction set
讨论

本文根据参数优化结果,建立以上3种算法定 量模型。对所有的模型来说,应用PSO-LS-SVM与PLSR、BP-ANN算法建立的模型相比,具有更高的相关系数和更低的RMSEC和RMSEP值,这说明PSO-LS-SVM算法建立的模型具有较满意的拟合结果和较小的预测误差。这是因为山茱萸原药材中的有效成分复杂,通过近红外光谱得到的药材信息包含很多非线性信息。PLSR是一类线性分析方法,不能较好地解决非线性问题。而LS-SVM通过事先选择的非线性映射将输入向量映射到高维特征空间中,在这个空间中构造最优决策函数,成功地弥补了PLSR在非线性拟合中的不足。

相比于其他指标,运用3种算法建立的水分、浸出物模型均有较好的模型性能和较小的预测误差,校正集的相关系数均大于0.97,验证集RSEP值均 小于4.6%,其中PSO-LS-SVM算法具有明显的优势。这是由于在校正集中这两个指标含量达到12.3%~20.97%、26.96%~57.92%,远远大于莫诺苷和马钱苷的含量。

对山茱萸药材中马钱苷和莫诺苷这两个指标模型进行分析,可以从表 2中看出3个算法校正性能为PSO-LS-SVM > PLSR > BP-ANN,预测性能和校正性能的比较结果一致。RSEP指标被用于评价预测集精度,本研究中当RSEP值小于20%,则认为该模型具有较高的预测能力可以满足实际质量控制要求[19]。根据表中数据,基于PSO-LS-SVM算法所建立的模型RSEP均小于15.5%,经传统方法测得的真实值与近红外建模得到的预测值十分接近。

本文在山茱萸药材质量控制中引入了近红外光谱分析技术,建立了山茱萸药材中水分、浸出物、马钱苷和莫诺苷四个指标的定量校正模型,所建立的近红外模型能够成功地对山茱萸指标进行控制。

基于本文研究,同PLSR和BP-ANN算法相比,PSO-LS-SVM算法建立的模型更加稳定可靠,预测精度也满足中药生产过程中的检测要求。近红外定量分析方法具有绿色、无损、快速等优点,在山茱萸药材多指标定量分析中具有潜在的应用优势。

参考文献
[1] Chinese Pharmacopoeia Commission. Pharmacopeia of the People's Republic of China(中华人民共和国药典)[S]. Vol I. Beijing:China Medical Science Press, 2010:26.
[2] Zhou JH, Li CS, Li DD. Progress in research of the active chemical components of Cornus officinalis[J]. Chin New Drug J(中国新药杂志), 2001, 10:808-812.
[3] Zhang YW, Chen YW, Zhao SP. A sedoheptulose gallate from the fruits of Corus officinalis[J]. Acta Pharm Sin(药学学报), 1999, 34:153-155.
[4] Zhang YP, You YR, Dai ZY. Study on scavenging radicals capability and antioxidant activity of polysaccharides from Cornus Oficinalis Seib.et Zucc[J]. J. Chin Inst Food Technol(中国食品学报), 2008, 8:18-22.
[5] Yang Y. Review on research of chemical constituents and pharmacological activities of cornel[J]. J Chin Veter Med(中兽医医药杂志), 2014, 2:39-41.
[6] Sun ML, Xiang BR, Feng XX, et al. A near-infrared diffuse reflectance analysis method for the noninvasive quantitative analysis of ambroxol hydrochloride tablets[J]. Acta Pharm Sin(药学学报), 2004, 39:60-63.
[7] Qu HB, Li B, Liu XS, et al. On-line determination for concentrating process of red ginseng alcohol extract using near-infrared spectroscopy[J]. Chin Pharm J(中国药学杂志), 2005, 40:1897-1903.
[8] Jin Y, Yang K, Wu YJ, et al. Application of particle swarm optimization based least square support vector machine in quantitative analysis of extraction solution of safflower us-ing near-infrared spectroscopy[J]. Chin J Anal Chem(分析化学), 2012, 40:925-931.
[9] Nie PC, Xia ZY, Sun DW, et al. Application of visible and near infrared spectroscopy for rapid analysis of chrysin and galangin in Chinese propolis[J]. Sensors, 2013, 13:10539-10549.
[10] Zhuang Y, Bai ZL, Xu YF. Research on parameters of support vector machine based on antcolonyalgorithm[J]. Computer Simul(计算机仿真), 2011, 28:216-219.
[11] Li XC, Luo YQ, Zhi YJ, et al. Chaos support vector machine traffic prediction based on heuristic algorithm[J]. Computer Eng(计算机工程), 2011, 37:163-165.
[12] Jin Y, Liu XS, Luan LJ, et al. Rapid and quantitative detec-tion method for acteoside during chromatographic purification of adhesive rehmannia leaf extract using near infrared spectroscopy and chemometrics[J]. J Near Infrared Spectrosc, 2013, 21:43-53.
[13] Wu D, Nie PC, Cuello J, et al. Application of visible and near infrared spectroscopy for rapid and non-invasive quantification of common adulterants in Spirulina powder[J]. J Food Eng, 2011, 102:278-286.
[14] Wu D, Sun DW. Application of visible and near infrared hyperspectral imaging for non-invasively measuring distribution of water-holding capacity in salmon flesh[J]. Talanta, 2013, 116:266-276.
[15] Li YJ, Tang XJ, Liu JH. Application of least square support vector machine based on particle swarm optimization in quantitative analysis of gas mixture[J]. Spectrosc Spect Anal(光谱学和光谱分析), 2010, 30:774-778.
[16] Ni YN, Mei MH, Kokot S. Analysis of complex, processed substances with the use of NIR spectroscopy chemometrics:classification and prediction of properties-the potato crisps example[J]. Chemom Intell Lab Syst, 2011, 105:147-156.
[17] Ghaedi M, Ghaedi AM, Ansari A, et al. Artificial neural network and particle swarm optimization for removal of methyl orange by gold nanoparticles loaded on activated carbon and Tamarisk[J]. Spectrochim Acta Part A, 2014, 132:639-654.
[18] Lin HJ, Zhang HF, GAO YQ, et al. Mahalanobis distance based hyperspectral characteristic discrimination of leaves of different desert tree species[J]. Spectrosc Spect Anal(光谱学和光谱分析), 2014, 34:3358-3362.
[19] Jin Y, Wu ZZ, Liu XS, et al. Near infrared spectroscopy in combination with chemometrics as process analytical technology(PAT) tool for on-line quantitative monitoring of alcohol precipitation[J]. J Pharm Biomed Anal, 2013:32-39.