基于机器学习及外部“探针”策略的HPLC保留时间预测的研究

技术研发

引用本文 [复制中英文]

石岩, 熊婧, 魏锋, 马双成. 基于机器学习及外部“探针”策略的HPLC保留时间预测的研究[J]. 药物分析杂志, 2019, 39(4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18.

SHI Yan, XIONG Jing, WEI Feng, MA Shuang-cheng. Prediction of HPLC retention time with the strategy based on machine learning and external "probe"[J]. Chinese Journal of Pharmaceutical Analysis, 2019, 39(4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18.

[复制英文]

第一作者

石岩, Tel:(010)67095995;E-mail:san0373@163.com。

文章历史

收稿日期：2018-05-07

Contents Abstract Full text Figures/Tables PDF

基于机器学习及外部“探针”策略的HPLC保留时间预测的研究

石岩 , 熊婧 , 魏锋 , 马双成

中国食品药品检定研究院, 北京 100050

收稿日期：2018-05-07

第一作者：石岩, Tel:(010)67095995;E-mail:san0373@163.com

摘要：目的：研究并建立径向基函数神经网络预测化合物色谱峰HPLC保留时间的方法。方法：使用Agilent TC-C₁₈色谱柱（250 mm×4.6 mm，5μm），甲醇-水为流动相等度洗脱，以毛蕊异黄酮葡萄糖苷、芒柄花素、山柰苷、山柰素、槲皮素、刺芒柄花苷、毛蕊异黄酮及异鼠李素8个化合物为研究对象，不同比例流动相洗脱条件下其中7个化合物色谱峰保留时间为特征，与待预测化合物色谱峰保留时间组成训练集各样本，生成并训练神经网络，使得该神经网络具有通过以上7个化合物色谱峰保留时间预测待预测化合物色谱峰保留时间的能力。结果：在使用同一型号色谱柱不同HPLC仪器的情况下，模型的保留时间预测误差不大于0.608 min。结论：本研究创建的方法能够对化合物保留时间进行有效和准确地预测。

关键词：机器学习径向基函数神经网络保留时间预测时间高效液相色谱

Prediction of HPLC retention time with the strategy based on machine learning and external "probe"

SHI Yan, XIONG Jing, WEI Feng, MA Shuang-cheng

National Institutes for Food and Drug Control, Beijing 100050, China

Abstract: Objective: To develop the method based on radial basis function neural network for retention time prediction in HPLC analysis.Methods: The study was performed on an Agilent TC-C₁₈ (250 mm×4.6 mm, 5 μm) column and the elution mobile phase consisted of methanol and water. In the paper, eight compounds, campanulin, formononetin, kaempferitrin, kaempferol, quercetin, ononin, calycosin and isorhamnetin, were used for the study. The retention time of peak of compound was predicted by a model with retention time of seven compounds provided after training set used in the model training process.Results: When the analyses were performed with same column but different HPLC instruments, the prediction errors were below 0.608 min.Conclusion: The method developed in this study can predict retention time in HPLC analysis in an effective and accurate way.

Keywords: machine learning radial basis function neural network retention time prediction time high performance liquid chromatography

在液相色谱分析中，对比色谱峰的保留时间（retention time，RT）是非常重要的定性手段。一般情况下，不同的化合物在相同的HPLC洗脱系统中的色谱峰往往具有不同RT，而同一化合物在不同的HPLC洗脱系统中的色谱峰RT一般也不相同，因此常常需要使用对照物质（对照品或对照提取物）来确定待分析化合物的色谱峰在HPLC系统中的RT。然而，随着中药质量标准的不断发展，以及多组分和整体模式评价方法的日益增多，对照物质的制备、标定、储存等环节都面临着挑战^[1]，对照物质在检测成本中的比重也越来越大。为了解决这一问题，一些化合物色谱峰RT预测及确定的方法应运而生，主要有相对保留时间法^[2]、双标线性校正法^[3]和定量结构性质关系（quantitative structure property relationship，QSPR）法^[4-6]等。本文利用机器学习中径向基函数神经网络（radial basis function neural network，RBFNN）的方法，对化合物色谱峰的RT进行预测研究，在建模和预测过程中，创新地加入了犹如“探针”般探测表征色谱洗脱条件的其他几个化合物，能够准确地预测多个化合物在不同等度洗脱条件下的RT。

1 原理

机器学习领域的前驱Arthur Samuel将机器学习归结为研究赋予计算机学习能力而并非直接编写程序的领域。而Tom Mitchell在《Machine Learning》一书中，对机器学习进行了更加详细地描述：计算机程序在完成以性能度量P衡量的目标T过程中，如果在经验E的影响下，对P衡量的T结果有所改进，那么该程序就是依据E在学习^[7]。图 1展示了机器学习的一个整体过程，一般来说，首先需要将已有的数据放入训练集（training set，TS），然后通过某些算法来实现计算机对TS的学习。在学习过程中，计算机需要不断调整算法参数，以达到预测结果距离目标值最接近。机器学习的结果可达到相对最优的算法参数，作为假想（hypothesis）以实现根据对未知样品的特征（feature）进行目标的预测判断。TS如图 2所示，一般需要包含m个已知样品，分别用n个特征表示，每个样品都有相应输出目标。

图 1 机器学习概况图 Fig.1 General picture of machine learning

图 2 TS组成 Fig.2 Form of TS

本研究的思路是计算机通过对m个HPLC条件n个化合物色谱峰RT及其对应的待预测化合物色谱峰RT进行学习，获得相对最优化学习成果，从而实现不同HPLC条件下对该化合物色谱峰RT的预测。与文献报道的类似方法^[4-6]不同，本文创新性地使用了n个其他化合物的色谱峰RT作为HPLC条件的特征放入学习算法的训练和预测中，这n个化合物与待预测化合物平行进样，犹如待预测化合物溶液体系外部的“探针”色谱洗脱条件表征，因此称为外部“探针”。

本文中的机器学习使用的是RBFNN，该网络是J. Moody和C. Darken于20世纪80年代提出的，是一种含单隐层的3层前馈式网络（如图 3），该网络的原理及相关实验均表明，通过基函数的运用，其可以任意精度逼近任意函数，还可以辨识非线性系统^[8]。RBFNN的3层分别为输入层、隐藏层和输出层，其中隐藏层中使用了非线性函数，对输入层信息进行非线性转换至多维隐藏空间中^[9]，隐藏层中的基函数最常用的为Gaussian函数。

图 3 RBFNN结构图 Fig.3 RBFNN structure

本研究具体是在多种等度洗脱条件下获得8个化合物的RT数据，分别将其中1个化合物RT作为目标输出，另外7个化合物RT数据作为输入特征进行模型训练，然后通过某等度洗脱条件下7个化合物的RT数据便可预测出另外的1个化合物的RT，因此本研究为了对应8个化合物的RT预测，共建立了8个预测模型。

2 方法与结果 2.1 仪器与试药

Waters高效液相色谱仪3台（编号分别为H1、H2、H3），其中H1（购于2008年）为Waters 2695分离模块，H2（购于2013年）为Waters e2695分离模块，H1和H2均配有Waters e2998 PDA检测器，H3（购于2004年）为Waters 2695，分离模块配以Waters 2996 PDA检测器。

色谱柱4根（编号分别为C1、C2、C3、C4），均为250 mm×4.6 mm规格，5 µm填料，C1（LN：MP07570002）和C2（LN：MP07570001）均为Agilent TC-C₁₈，C3为Inertsil ODS-3，C4为Phenomenex Luna C₁₈。

毛蕊异黄酮葡萄糖苷（批号111920-201505，纯度97.1%）、芒柄花素（批号111703-201504，供含量测定用）、山柰苷（批号111775-200701，供含量测定用）、山柰素（批号110861-201611，纯度95.5%）、槲皮素（批号100081-200406，供含量测定用）均来自中国食品药品检定研究院。刺芒柄花苷（批号R04J6F2，纯度98%）、毛蕊异黄酮（批号P29M6R2，纯度98%）及异鼠李素（批号P08J7F15965，纯度98%）均来自上海源叶生物科技有限公司。

黄芪（蒙古黄芪，批号120974-201110）、葶苈子（播娘蒿，批号121220-201403）、侧柏叶（批号121396-201402）3个对照药材均来自中国食品药品检定研究院。

甲醇为色谱纯（Thermo Fisher Scientific公司）；水为Millipore超纯水。

2.2 溶液的制备 2.2.1 对照品溶液

取各对照品适量，加甲醇制成每1 mL含0.1 mg的单标对照品溶液。

2.2.2 中药基质加标溶液

分别取黄芪（蒙古黄芪）、葶苈子（播娘蒿）和侧柏叶对照药材粉末各约1 mg，加甲醇5 mL，超声处理（功率300 W，频率40 kHz）20 min，放冷，过滤，分别取各药材滤液0.9 mL。取毛蕊异黄酮、山柰苷和刺芒柄花苷3种对照品溶液各0.1 mL，分别加入以上所取的0.9 mL的黄芪（蒙古黄芪）、葶苈子（播娘蒿）和侧柏叶药材溶液中，摇匀，所得溶液分别以Plus1、Plus2和Plus3表示。

2.3 色谱条件

进样量为5 µL，检测波长为254 nm，流动相流速均为1.0 mL·min^-1。甲醇（A）-水（B）为流动相等度洗脱，A与B两相的不同比例洗脱，各化合物色谱峰RT数值作为研究的特征值或目标值，使用H1及C1在洗脱条件分别为65%A、62%A、60%A、57%A、55%A、52%A、50%A、47%A、45%A、42%A、40%A、37%A和35%A下测定的对照品色谱峰RT数据组成模型TS；洗脱条件61%A、51%A和44%A下测定的对照品色谱峰RT数据作为模型验证集（validation set，VS）；洗脱条件59%A、49%A、46%A和41%A下测定的对照品色谱峰RT数据作为模型测试集（test set，TeS）；为测试模型对中药基质中化合物色谱峰的RT预测效果，49%A洗脱条件下，对3种中药基质加标溶液中对照品色谱峰RT测定数据加入模型TeS；为测试模型对同型号不同批次色谱柱和不同HPLC仪器的预测效果，使用H2+C2组合（洗脱条件为60%A、53%A和49%A）、H3+C2组合（洗脱条件为51%A）的对照品RT测定结果数据加入模型TeS；为了测试模型对不同品牌色谱柱的预测能力，在49%A洗脱条件下使用H1+C3组合、H1+C4组合测定的对照品RT数据加入模型TeS。以上模型的TS、VS和TeS详见表 1。

表 1 模型TS、VS和TeS Tab.1 TS, VS and TeS

2.4 数据的预处理

将TS中的RT数据进行归一化处理，将各对照品色谱峰RT分别与相应对照品在35%A洗脱条件下的RT比较，预处理后的数据均分布在大于0而小于等于1的范围。

2.5 RBFNN模型的建立、训练及预测

如上所述，当对某1个化合物色谱峰RT进行预测时，另外7个化合物色谱峰的RT数据作为特征值输入RBFNN模型，每个化合物色谱峰RT的预测为单独1个模型，本研究共建立有8个模型，各模型隐藏层神经元个数均选择13，Spread参数选择依据VS样本预测情况而定，毛蕊异黄酮葡萄糖苷、山柰苷、刺芒柄花苷、毛蕊异黄酮、槲皮素、山柰素、异鼠李素及芒柄花素各化合物对应模型所采用的Spread参数分别为1.5、1.0、1.0、1.5、0.5、1.0、0.5和1.5。

将TeS各样本数据依次输入各模型，可得出各化合物色谱峰RT预测数据，反归一化处理后与测定的真实RT数据求差，结果见表 2。

表 2 预测值与测定值之差（min） Tab.2 Prediction errors

TeS	毛蕊异黄酮葡萄糖苷（campanulin）	山柰苷（kaempferitrin）	刺芒柄花苷（ononin）	毛蕊异黄酮（calycosin）	槲皮素（quercetin）	山柰素（kaempferol）	异鼠李素（isorhamnetin）	芒柄花素（formononetin）
H1+C1（59%A），	0.003	0.009	-0.008	-0.012	-0.018	0.001	0.093	0.010
H1+C1（49%A）	-0.026	0.004	-0.020	0.081	-0.073	-0.043	0.372	-0.150
H1+C1（46%A）	-0.003	0.013	-0.043	0.005	-0.048	-0.066	0.421	-0.017
H1+C1（41%A）	-0.048	-0.037	0.123	0.129	0.298	0.310	-0.102	-0.608
H1+C1（49%A，Plus1）				0.076
H1+C1（49%A，Plus2）		0.015
H1+C1（49%A，Plus3）			-0.048
H2+C2（60%A）	0.039	0.051	-0.019	-0.121	-0.015	0.238	0.191	-0.320
H2+C2（53%A）	-0.044	0.105	-0.030	0.094	0.166	0.030	0.172	-0.240
H2+C2（49%A）	-0.030	0.229	-0.147	0.021	-0.031	0.318	0.494	-0.375
H3+C2（51%A）	-0.012	0.033	-0.009	0.042	0.074	0.202	0.407	-0.319
H1+C3（49%A）	0.113	-0.948	1.171	0.694	-0.038	-0.666	-4.777	2.409
H1+C4（49%A）	-1.868	-3.610	7.500	9.549	9.333	5.429	-15.570	-11.626

表 2 预测值与测定值之差（min） Tab.2 Prediction errors

3 讨论 3.1 化合物的选择

黄酮类化合物是一类重要的天然药物化学成分，在自然界中分布甚广。因此在本研究初始阶段，首选从该类化合物入手，需要说明的是，与其他RT预测研究^[4-6]不同，本研究对化合物色谱峰的RT预测的时候，并未将化合物的分子结构等相关信息纳入研究信息范畴，所以理论上来讲，本研究所创立的方法，无论是作为特征或是预测目标，都同样适合其他类别的化合物，但是本着严谨的态度，这一点需要下一步的试验进一步确证。

3.2 洗脱条件的选择

本着由简入繁的思想，选择简单的甲醇和水洗脱系统，采用等度洗脱的方式进行切入研究。在设计TS样本的时候，兼顾了实用性及样本的代表性，甲醇于流动相中的比例在65%到35%的区间，尽可能均匀地选择了13个点作为训练样本，所选择的8个化合物色谱峰RT范围为3.296~152.391 min，具有足够广的RT分布范围，TS中毛蕊异黄酮葡萄糖苷、山柰苷、刺芒柄花苷、毛蕊异黄酮、槲皮素、山柰素、异鼠李素及芒柄花素各化合物色谱峰RT范围分别为3.296~11.634、3.785~40.522、4.154~30.610、5.048~57.155、5.070~60.773、6.530~113.671、6.965~147.024和7.937~152.391 min。同样，为了优化得到的Spread参数适用性更佳，在VS样本的选取时，洗脱梯度尽可能分布更广。

此外，值得一提的是，根据本研究理论，对梯度洗脱情况下化合物色谱峰RT预测的相关研究正在进行中。

3.3 关于预测结果的解析

本研究设计的TeS共分4个部分：第1部分为使用与TS和VS完全相同的仪器（H1）与色谱柱（C1），以及对照品溶液进样的情况；第2部分为使用与TS和VS完全相同的仪器（H1）与色谱柱（C1），以及中药复杂基质提取溶液进样的情况；第3部分为使用与TS和VS完全不同的仪器（H2和H3）与同型号不同批次色谱柱（C2）的情况；第4部分为使用与TS和VS完全相同的仪器（H1）与不同厂家不同型号色谱柱（C3和C4）的情况。由表 2可知，TeS第4部分预测结果最差，而第1、第2和第3部分预测结果与实测值相比的误差均在0.608 min以内，均有良好的预测表现。

最大误差值出现在第1部分41%甲醇洗脱条件下，此时模型对芒柄花素色谱峰RT预测误差为0.608 min，该化合物RT实测值为71.366 min，属于比较极端的洗脱条件，此时另外7个化合物色谱峰RT预测值大多也有较大误差；而59%甲醇洗脱也属于比较极端洗脱条件（实测RT范围：3.560~11.805 min），但是预测误差却极小（0.001~0.093 min），可见模型预测效果有与RT成反比的趋势，分析原因可能色谱分析时间越长，受干扰因素就会增多，从而造成偶然误差增大，导致模型预测结果与实测值会出现的较大的差别，然而从本研究数据来看，71.366 min的色谱峰保留时间有着0.608 min的预测误差完全可以接受。

TeS第2部分选用的中药材黄芪、葶苈子和侧柏叶（见图 4），均是以黄酮类成分为质控指标性成分，并且分别为植物的根、种子和叶，足以代表大多数中药才的药用部位使用情况。模型对该部分TeS预测结果良好，表明本研究能够满足中药等复杂基质体系的分析要求。

1.毛蕊异黄酮（calycosin）2.山柰苷（kaempferitrin）3.刺芒柄花苷（ononin）图 4 黄芪（Ⅰ）、葶苈子（Ⅱ）和侧柏叶（Ⅲ）样品液相色谱图 Fig.4 HPLC chromatograms of Astragali Radix (Ⅰ), Descurainiae Semen (Ⅱ) and Platycladi Cacumen (Ⅲ)

对于TeS第3部分来说，是为了考察不同柱前体积、不同仪器运行状态和同型号不同批号色谱柱，模型适用情况而设。模型对于该部分预测结果良好，可见在指定型号色谱柱情况下，本研究建立的方法可应用于不同仪器。通常来讲，由于不同厂家不同型号的色谱柱键合的基团不同，色谱行为会有着较大的差异，从机器学习原理来讲，TS与TeS使用色谱柱如果差别较大，预测结果也会有较大误差，这一点也从对TeS第4部分的预测结果得到证实，可见本研究所建立的方法具有一定的色谱柱排他性。

3.4 关于模型输入特征的一些探讨

本研究使用多个化合物作为“探针”，起到探测和表征液相色谱条件特性的目的。由于本研究起到“探针”作用的化合物成分与待预测成分并未在同一分析基质体系内，故为称为外部“探针”。对于基质对化合物色谱行为影响严重的情况，可以采用人为加入法，将“探针”化合物加入待预测基质内，即为内部“探针”。从本研究原理上来看，内部“探针”的选用其实应不受基质中原有化合物的束缚，但是关于其应用效果有待进一步深入研究数据的证实。

4 展望

本研究应用机器学习理论中的神经网络模型的方法，从本质上与相对保留时间等方法^[2-3]完全不同，在模型的应用上与一些文献报道的方法^[4-6]相近，但是在特征选取上有着较大的差别，本研究并未将化合物分子结构作为模型特征，而专注于色谱条件特性的表征，创新地使用多种化合物（即“探针”）色谱峰的RT来表征色谱洗脱条件，具有简便、直观和准确的特点，不仅适用于已知结构和已知成分的色谱峰RT预测，对于未知结构或未知成分的色谱峰RT预测也同样适用，而且可实现洗脱条件在一定范围内的可调。

从本质上讲，本研究前期的模型建立与训练必不可少，在TS样本的科学设计前提下，数据时代网络化的今天给了本研究的应用提供了契机。本研究所建立的方法可应用于药物分析领域中一测多评方法的待测成分RT定位，在规定色谱柱型号的前提下，可在一定范围内对供试品溶液的洗脱条件进行优化，直到待测成分色谱峰与其他色谱峰完全分离。本研究还可应用于中药特征图谱中特征色谱峰的检测定位，在模型建立后，只需提供“探针”化合物RT数据，便可在该洗脱条件下，精确锁定特征图谱中的特征峰应出现的位置。总而言之，本研究对于价高难制备的对照物质的替代具有极大的应用前景，只需使用几个价廉易得的对照物质（或1个对照提取物）即可，对于中药的质量分析、评价与控制工作都极具意义。

参考文献

[1]	孙磊, 金红宇, 马双成, 等. 中药标准物质替代测定法技术指导原则[J]. 中国药学杂志, 2015, 50(4): 284. SUN L, JIN HY, MA SC, et al. Guideline of substitute reference substance method for evaluation of traditional Chinese medicines[J]. Chin Pharm J, 2015, 50(4): 284.
[2]	中华人民共和国药典2015年版.一部[S]. 2015: 303 ChP 2015. Vol Ⅰ[S]. 2015: 303
[3]	孙磊, 金红宇, 逄瑜, 等. 双标多测法Ⅰ—双标线性校正技术用于色谱峰的定性[J]. 药物分析杂志, 2013, 33(8): 1424. SUN L, JIN HY, PENG Y, et al. Two reference substance for determination of multiple components (Ⅰ): linear calibration using two reference substances for identification of chromatographic peaks[J]. Chin J Pharm Anal, 2013, 33(8): 1424.
[4]	MILLER TH, MUSENGA A, COWAN DA, et al. Prediction of chromatographic retention time in high-resolution anti-doping screening data using artificial neural networks[J]. Anal Chem, 2013, 85(21): 10330. DOI:10.1021/ac4024878
[5]	GORYŃSKI K, BOJKO B, NOWACZYK A, et al. Quantitative structure-retention relationships models for prediction of high performance liquid chromatography retention time of small molecules: endogenous metabolites and banned compounds[J]. Anal Chim Acta, 2013, 797: 13. DOI:10.1016/j.aca.2013.08.025
[6]	JIAO L, XUE Z, WANG G, et al. QSPR study on the relative retention time of polybrominated diphenyl ethers (PBDEs) by using molecular distance-edge vector index[J]. Chemometr Intell Lab, 2014, 137: 91. DOI:10.1016/j.chemolab.2014.06.015
[7]	MITCHELL MT. Machine Learning[M]. Westlake Village: McGraw-Hill Education, 1997: 2.
[8]	YACIN SM, CHAKRAVARTHY VS, MANIVANNAN M. Reconstruction of gastric slow wave from finger photoplethysmographic signal using radial basis function neural network[J]. Med Biol Eng Comput, 2011, 49(11): 1241. DOI:10.1007/s11517-011-0796-1
[9]	YUAN LF, DING C, GUO SH, et al. Prediction of the types of ion channel-targeted conotoxins based on radial basis function network[J]. Toxicol In Vitro, 2013, 27(2): 852. DOI:10.1016/j.tiv.2012.12.024