一种双优选的半监督回归算法

引用本文

程康明, 熊伟丽. 一种双优选的半监督回归算法[J]. 智能系统学报, 2019, 14(4): 689-696. DOI: 10.11992/tis.201805010.

CHENG Kangming, XIONG Weili. A dual-optimal semi-supervised regression algorithm[J]. CAAI Transactions on Intelligent Systems, 2019, 14(4): 689-696. DOI: 10.11992/tis.201805010.

基金项目

国家自然科学基金项目(61773182, 60712228)；江苏省自然科学基金项目(BK20170198).

通信作者

熊伟丽. E-mail: greenpre@163.com

作者简介

程康明，男，1993年生，硕士研究生，主要研究方向为工业过程建模;
熊伟丽, 女,1978年生,教授,博士,主要研究方向为复杂工业过程建模及优化、智能优化算法及应用。主持国家自然科学基金面上项目、江苏省产学研等纵向项目8项;参与国家863计划、重点研发计划等多项。发表研究学术论文60余篇

文章历史

收稿日期：2018-05-09
网络出版日期：2019-01-16

Contents Abstract Full text Figures/Tables PDF

一种双优选的半监督回归算法

程康明 ¹, 熊伟丽 ^1,2

1. 江南大学物联网工程学院，江苏无锡 214122;
2. 江南大学轻工过程先进控制教育部重点实验室，江苏无锡 214122

收稿日期：2018-05-09；网络出版日期：2019-01-16

基金项目：国家自然科学基金项目(61773182, 60712228)；江苏省自然科学基金项目(BK20170198).

作者简介：程康明，男，1993年生，硕士研究生，主要研究方向为工业过程建模;
熊伟丽, 女,1978年生,教授,博士,主要研究方向为复杂工业过程建模及优化、智能优化算法及应用。主持国家自然科学基金面上项目、江苏省产学研等纵向项目8项;参与国家863计划、重点研发计划等多项。发表研究学术论文60余篇。

通信作者：熊伟丽. E-mail: greenpre@163.com.

摘要：针对一些工业过程中存在的有标签样本少，而传统的半监督学习无法保证对无标签样本准确预测的问题，提出一种双优选的半监督回归算法。首先，确定有标签样本密集区中心，并计算无标签样本与该中心的相似度，实现对无标签样本的优选，同时根据有标签样本间相似度优选有标签样本；然后，利用高斯过程回归方法对选出的有标签样本建立辅学习器，以对优选出的无标签样本预测标签；最后，利用这些伪标签样本提升主学习器的预测效果。通过数值例子以及实际脱丁烷塔过程数据进行建模仿真，证明了所提方法在有标签样本较少的情况下有良好的预测性能。

关键词：无标签样本优选半监督回归样本密集区中心相似度高斯过程回归辅学习器主学习器脱丁烷塔过程预测性能

A dual-optimal semi-supervised regression algorithm

CHENG Kangming ¹, XIONG Weili ^1,2

1. School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China;
2. Key Laboratory of Advanced Process Control for Light Industry (Ministry of Education), Jiangnan University, Wuxi 214122, China

Abstract: Aiming at the problem that there are few label samples in some industrial processes and that the traditional semi-supervised learning cannot guarantee the accurate prediction of unlabeled samples, a dual-optimal semi-supervised regression algorithm is proposed in this paper. First, in this method, the center of the label-concentrated area is found, and the similarity between unlabeled samples and the center is calculated, and therefore, the unlabeled samples are optimized. At the same time, the labeled samples are selected according to similarity between the unlabeled samples and the center of the dense area. Second, by employing the Gaussian process regression method, an auxiliary learner is established according to the selected labeled sample, and then the labels of the selected unlabeled samples are predicted by the auxiliary learner. Finally, the performance of the main learner is improved with these pseudo-label samples. Through a simulation of the numerical case and the actual debutanizer process, the proposed method is verified to have a good prediction performance when the labeled samples are few.

Key words: unlabeled samples select semi-supervised regression center of sample dense area similarity Gaussian process regression auxiliary learner main learner debutanizer process prediction performance

针对一些工业过程存在有标签样本数据少且获取代价大，而无标签样本数据大量存在的情况，研究利用少量有标签样本和大量的无标签样本来提高学习性能的半监督学习受到了密切关注^[1-3]。如今，半监督思想已经应用于各行各业，根据半监督学习目的将其大致分为3类^[4]：半监督聚类、半监督分类和半监督回归。其中，半监督聚类与半监督分类的研究很多，而半监督回归的研究相对较少。

半监督回归根据学习方法的不同大致分为两类^[5-6]：第一类为利用流行学习的半监督回归算法；第二类为协同训练算法。其中，流行学习方面的研究有杨剑等^[7]提出的一类广义损失函数的Laplacian半监督回归方法，该方法充分利用了有标签样本的结构信息来提高回归估计的精度。协同训练的典型代表为Zhou等^[8]在2005年提出的基于协同训练的半监督回归算法，该方法通过建立两个学习器，以交互学习的方式来利用无标签样本，达到提高回归精度的目的，但是其对有标签样本两个冗余视图的假设，使得该方法在某些场合的应用受到限制。另外，一些其他的半监督回归方法也取得了不错的效果。如程玉虎等^[9]提出的一种Help-Training的半监督支持向量回归算法，通过置信度评估选出了信任的无标签样本。盛高斌等^[10]提出的基于半监督回归的选择性集成算法，考虑了如何通过对有标签样本的合理利用提高无标签样本预测的准确性。

上述方法有的从有标签样本角度出发，有的从无标签样本角度出发，本文为了更准确地利用无标签样本，同时考虑对无标签样本和有标签样本的筛选，通过定义两个优选准则，提出一种双优选的半监督回归算法。该方法首先筛选无标签样本，降低引入预测误差的可能性，同时筛选有标签样本，获得一个更有针对性的有标签样本集；然后利用高斯过程回归(GPR)方法对选出的有标签样本建立辅学习器，以对选出的无标签样本预测标签；最后利用这些伪标签样本和初始有标签样本集通过GPR方法建立主学习器，从而提升主学习器预测效果。通过两个仿真实验，验证了本文所提方法的有效性。

1 高斯过程回归

GPR是一种基于统计学习理论的非参数概率模型，适合处理高维度、小样本及非线性等数据的建模问题^[11]。

高斯过程回归算法流程简述如下，给定训练样本集 $\{ {{X}},y\} $ ，其中 ${{X}} = \{ {{{x}}_i} \in {{\rm{R}}^D}\} $ ， $y = \{ {y_i} \in {\rm{R}}\} $ ，i = 1, $2, \cdots ,{{n}}$ 分别代表D维的输入和输出数据，通常观测值 ${y_i}$ 与输入 ${{{x}}_i}$ 应满足 ${y_i} = f({{{x}}_i}) + {{\varepsilon }}$ ，其中 $f$ 为未知函数形式，高斯噪声 ${{\varepsilon }} \sim N(0,{\sigma ^2})$ 。对于一个新的输入 ${{{x}}^*}$ ，相应的预测值 ${y^*}$ 也应满足高斯分布，其均值和方差如式(1)、式(2)所示：

$\mu \left( {y^*} \right) = {{{k}}^{\rm{T}}}\left( {{{{x}}^*}} \right){{{K}}^{ - 1}}y$

(1)

${\sigma ^2}\left( {{y^*}} \right) = {{C}}\left( {{{{x}}^*},{{{x}}^*}} \right) - {{{k}}^{\rm{T}}}\left( {{{{x}}^*}} \right){{{K}}^{ - 1}}{{k}}\left( {{{{x}}^*}} \right)$

(2)

式中： ${{k}}\left( {{{{x}}^*}} \right)$ 为训练样本与测试样本的协方差矩阵； ${{K}}$ 为训练样本的自协方差矩阵； ${{C}}$ 为测试样本自协方差。

协方差函数是GPR方法中的重要组成部分。GPR方法可以选择多种协方差函数，只需保证对任意输入能够得到一个非负定协方差矩阵。本文选择常用的高斯协方差函数，定义为

${{k}}\left( {{{{x}}_i},{{{x}}_j}} \right) = {{\upsilon }}\exp \left[ { - \frac{1}{2}{{\sum\limits_{d = 1}^D {{{{\omega }}_d}\left( {{{x}}_i^d - {{x}}_j^d} \right)^2} }}} \right]$

(3)

式中： ${{\upsilon }}$ 为先验知识的总体度量； ${{{\omega }}_d}$ 表示每个成分 ${{{x}}^d}$ 的重要性程度。

利用式(1)~(3)确定均值和方差后，对测试样本输入 ${{{x}}^*}$ ，即可预测其输出 ${y^*}$ 。详细的GPR建模过程可参考文献[12]。

2 基于双优选的半监督回归策略

本文提出的双优选策略，通过定义两个优选准则来综合考虑无标签样本的筛选，有标签样本筛选以建立辅学习器两方面问题，进而达到准确预测无标签样本的目的。

2.1 双优选准则

优选准则1：给定一个阈值 ${\theta _1}$ ，利用马氏距离^[13]来度量无标签样本 ${{{x}}'_{{i}}}$ 与有标签样本密集区中心 ${{C}}$ 的相似度，若 ${{{x}}'_i}$ 与 ${{C}}$ 的距离小于 ${\theta _1}$ ，则 ${{{x}}'_i}$ 满足优选条件。

优选准则2：给定一个阈值 ${\theta _2}$ ，利用马氏距离来度量有标签样本间的相似度，统计有标签样本 ${{{x}}_i}$ 与其余有标签样本的马氏距离小于 ${\theta _2}$ 的有标签样本数量 $m$ ，若 $m$ 不小于2，则 ${{{x}}_i}$ 满足优选条件。

上述两个优选准则，优选准则1通过马氏距离选出以有标签样本密集区中心为球心 ${\theta _1}$ 为半径的球域内所有无标签样本点，利用该准则有利于选出能够被准确预测的无标签样本，剔除了可能带来较大预测噪声的无标签样本。优选准则2采用了Knoor等^[14]提出的基于距离的离群点的定义，通过马氏距离度量的相似度，剔除了阈值 ${\theta _2}$ 限定下的离群点，从而提升辅学习器的预测精度。有标签样本 ${{{x}}_i}$ 与 ${{{x}}_j}$ 之间马氏距离 $d\left( {{{{x}}_i},{{{x}}_j}} \right)$ 计算公式如下：

$d\left( {{{{x}}_i},{{{x}}_j}} \right) = {\rm sqrt}\left[ {{{\left( {{{{x}}_i} - {{{x}}_j}} \right)}^{\rm{T}}}{{{S}}^{ - 1}}\left( {{{{x}}_i} - {{{x}}_j}} \right)} \right]$

(4)

${{S}} = \frac{1}{{n - 1}}\sum\limits_{i = 1}^n {\left( {{{{x}}_i} - {\bar{ x}}} \right){{\left( {{{{x}}_i} - {\bar{ x}}} \right)}^{\rm{T}}}} $

(5)

${\bar{ x}} = \frac{1}{n}\sum\limits_{i = 1}^n {{{{x}}_i}} $

(6)

式中： ${{S}}$ 为有标签样本协方差矩阵； $n$ 为变量个数； ${\bar{ x}}$ 为有标签样本均值。

另外，优选准则1中 ${{{x}}'_i}$ 与 ${{C}}$ 的距离 ${d_i}$ 同样可用式(4)~(6)获得。

2.2 无标签样本筛选

为了选出能够被准确预测的无标签样本，利用优选准则1对无标签样本进行筛选，选出满足条件的无标签样本。而该准则能否做出有效筛选，取决于样本密集区中心是否准确，尤其在有标签样本数目比较少时，此时样本密集区中心对离群点更敏感。针对这种情况，提出一种新的寻找有标签样本密集区中心的方法。该方法首先寻找出有标签样本中属于样本密集区的样本，然后对这部分属于样本密集区有标签样本求各属性均值，得到样本密集区中心 ${{C}}$ 。其具体操作如下，依次计算每一个有标签样本与周围有标签样本间的马氏距离 $d\left( {{{{x}}_i},{{{x}}_j}} \right)$ ，然后判断 $d\left( {{{{x}}_i},{{{x}}_j}} \right)$ 是否小于阈值 ${\theta _3}$ ，统计 ${{{x}}_i}$ 周围满足条件的有标签样本数量 $h$ ，若 $h$ 大于1，则 ${{{x}}_{{i}}}$ 为有标签样本密集区样本，最后用所得样本密集区样本确定样本密集区中心。在确保准则1的筛选效果后，再利用其筛选无标签样本。具体伪代码如算法1所示。

算法1　无标签样本筛选

输入　有标签样本集 ${{S}}$ (由自变量 ${{{x}}_i}$ 与因变量 ${y_i}$ 组成)，无标签样本集 ${{M}}$ (只包含自变量 ${{{x}}'_i}$ )，阈值 ${\theta _1}$ 和 ${\theta _3}$ ，计数变量 $h$

输出　选出的无标签样本集 ${M_1}$

1) $h$ $ \leftarrow $ 0

2) for $i$ =1 to 50 do

3) for $j$ = $i$ +1 to 50 do

4) 利用公式(1)~(3)计算两样本间的马氏距离 $d({{{x}}_i},{{{x}}_j})$

5) if ( $d({{{x}}_i},{{{x}}_j})$ < ${\theta _1}$ ) then

6) $h$ $ \leftarrow $ $h$ +1

7) End if

8) End for

9) if ( $h$ >1) then

10) ${{A}}$ $ \leftarrow $ ${{{x}}_i}$

14) End if

15) $h$ $ \leftarrow $ 0

13) End for

14) ${{C}}\left( k \right)$ $ \leftarrow $ $\displaystyle\frac{1}{l}\sum\limits_{m = 1}^l {{{A}}\left( {m,k} \right)} $ $l$ 为 ${{A}}$ 中样本数量， $k$ 为样本维度

15) for $i$ =1 to 500 do

16) 利用公式(1)~(3)计算样本与密集区中心 ${{C}}$ 的马氏距离 ${d_i}$

17) if ( ${d_i}$ < ${\theta _3}$ ) then

18) ${{{M}}_1}$ $ \leftarrow $ ${{{x}}'_i}$

19) End if

20) End for

2.3 辅学习器建立

为了建立一个更有针对性的辅学习器，已知无标签样本集 ${{{M}}_1}$ 分布于有标签样本密集区中心 ${{C}}$ 周围的情况下，利用优选准则2筛选出与 ${{{M}}_1}$ 特性更相似的有标签样本，然后根据选出的有标签样本建立辅学习器，实现对 ${{{M}}_1}$ 更准确地预测。具体伪代码如算法2所示。

算法2　辅学习器建立

输入　有标签样本集 ${{S}}$ (由自变量 ${{{x}}_i}$ 与因变量 ${y_i}$ 组成)，阈值 ${\theta _2}$ ，计数变量 $h$

输出　辅学习器 ${f_1}$

1) $h$ $ \leftarrow $ 0

2) for $i$ =1 to 50 do

3) for $j$ = $i$ +1 to 50 do

4) 利用公式(1)~(3)计算两样本间的马氏距离 $d({{{x}}_i},{{{x}}_j})$

5) if ( $d({{{x}}_i},{{{x}}_j})$ < ${\theta _2}$ ) then

6) $h$ $ \leftarrow $ $h$ +1

7) End if

8) End for

9) if ( $h$ >1) then

10) ${{{A}}_1}$ $ \leftarrow $ ${x_i}$

11) ${{{B}}_1}$ $ \leftarrow $ ${y_i}$

12) End if

13) $h$ $ \leftarrow $ 0

14) End for

15) ${f_1}$ $ \leftarrow $ GPR ( ${{{A}}_1}$ , ${{{B}}_1}$ )

2.4 基于双优选的半监督算法流程

综合考虑无标签样本和有标签样本的选择，提出了一种带双优选过程的建模方法，建模流程如图1所示。具体建模步骤如下：

1) 根据优选准则1筛选出无标签样本，得到无标签样本集 ${{{M}}_1}$ 。

2) 根据优选准则2选出有标签样本，建立一个更有针对性的辅学习器 ${f_1}$ 。

3) 利用辅学习器 ${f_1}$ 对无标签样本集 ${{{M}}_1}$ 预测其标签，将所得的伪标签样本集 ${{{S}}_1}$ 添加到初始有标签样本集 ${{S}}$ 中，最后再利用GPR方法建立主学习器。

	Download: JPG larger image
图 1 总体算法步骤 Fig. 1 Overall algorithm steps

3 数值仿真实验

为了验证所提双优选方法的有效性，采用文献[15]中的非线性函数进行数值仿真：

$ \begin{array}{l} \begin{array}{*{20}{c}} {{x_1}\left( {t + 1} \right) = \left( {\displaystyle\frac{{{x_1}\left( t \right)}}{{1 + x_1^2\left( t \right)}} + 1} \right)\sin \left( {{x_2}\left( t \right)} \right)}\\ {{x_2}\left( {t + 1} \right) = {x_2}\left( t \right)\cos \left( {{x_2}\left( t \right)} \right) + {x_1}\left( t \right)\exp \left( { - \displaystyle\frac{{x_1^2\left( t \right) + x_2^2\left( t \right)}}{8}} \right) + }\\ {\displaystyle\frac{{{u^3}\left( t \right)}}{{1 + {u^2}\left( t \right) + 0.5\cos \left( {{x_1}\left( t \right) + {x_2}\left( t \right)} \right)}}}\\ {y\left( t \right) =\displaystyle \frac{{{x_1}\left( t \right)}}{{1 + 0.5\sin \left( {{x_2}\left( t \right)} \right)}} +\displaystyle \frac{{{x_2}\left( t \right)}}{{1 + 0.5\sin \left( {{x_1}\left( t \right)} \right)}} + \varepsilon \left( t \right)} \end{array} \end{array} $

式中： ${x_1}\left( t \right)$ 与 ${x_2}\left( t \right)$ 为系统状态； $u\left( t \right)$ 、 $y\left( t \right)$ 和 $\varepsilon \left( t \right)$ 分别为系统的输入、输出和白噪声。由于系统状态变量是不可测的，只能利用可测的输入输出信息来预测系统输出 $y\left( t \right)$ ，仿真模型结构如下：

$y\left( t \right) = f\left( \begin{array}{l} y\left( {t - 1} \right),y\left( {t - 2} \right),y\left( {t - 3} \right) \\ u\left( {t - 1} \right),u\left( {t - 2} \right),u\left( {t - 3} \right) \\ \end{array} \right)$

同时为了解决由于训练样本与测试样本过于相似而带来的对建模效果评价的可信度问题，仿真中通过两种不同方式分别产生训练样本和测试样本。对于训练样本，首先产生[−2,2]的随机信号 $u\left( t \right)$ 与[−2,2]的随机信号 $\varepsilon \left( t \right)$ ，然后将这两组信号作用于系统，最终得到600组数据作为训练样本；对于测试样本，首先令 $u\left( t \right) = \sin \left( {0.2{\text{π}} t} \right) + \sin \left( {0.08{\text{π}} t} \right)$ ，产生[−2,2]的随机信号 $\varepsilon \left( t \right)$ ，然后这两组信号作用于系统，最终得到200组数据作为测试样本。600组训练样本中选取50组作为有标签样本，另外550组作为无标签样本。

为了更直观地说明双优选方法的必要性，对数值仿真产生的训练样本数据进行了直方图统计，分别统计了变量在每一维度上的分布特点，具体如图2所示，其中横坐标为样本分布区间，纵坐标为样本出现的频数。

	Download: JPG larger image
图 2 有标签样本与无标签样本的直方图分布 Fig. 2 Histogram distribution about labeled and unlabeled samples

在图2中，图(a)为50组有标签样本辅助变量分布的直方图统计，图(b)为550组无标签样本每一维度分布的直方图统计。因为大量无标签样本更能够反映过程的整体特点，由图2(a)和图2(b)前3幅图的对比，发现无标签样本分布大致成一种正态分布，而图2(a)有标签样本的分布中，−5~0这段趋势明显异于整体的正态分布，可知部分初始有标签样本是游离在整体特性之外的。为保证准确性，需使建模样本与预测样本分布特性尽量一致。由图2(a)后3幅图发现，有标签样本分布在−1~1这段的数量相对较少，约占全部有标签样本的1/2，而由图2(b)后3幅图发现，无标签样本分布在−1~1这段的数量明显更多，约占全部无标签样本的3/4。由上述对比可知，仅靠现有的有标签样本，难以准确预测所有的无标签样本。因此，想要利用无标签提升建模效果，需要根据优选准则1筛选出能够被准确预测的无标签样本，剔除那些可能会带来大量噪声的无标签样本。另外，由于有标签样本很少，不符合优选准则2的有标签样本将对辅学习器的针对性产生较大影响，必须剔除以保证对无标签样本预测的准确性。通过上述分析，从数据分布的角度说明了双优选方法的必要性。

为了进一步验证方法的实际效果，分别比较了GPR(不利用无标签样本)、无优选半监督GPR(non-optimal semi-supervised GPR，NS-GPR)和本文方法(利用优选准则1和优选准则2)对真实值的跟踪效果，具体效果如图3所示。

	Download: JPG larger image
图 3 数值仿真双优选半监督预测效果 Fig. 3 Numerical simulation of double-optimal semi-supervised prediction

由图3可知，本文方法对真实值的跟踪效果远远优于GPR和NS-GPR。双优选方法在充分准确地利用无标签样本后，对测试样本真实值的跟踪效果明显加强，拟合效果有了明显的提升。具体拟合指标如表1所示。由表中数据可知，所提双优选方法跟踪效果相较GPR，均方根误差由1.109 6下降到了0.927 8，可知本文方法在有标签样本很少时也能够取得优秀的跟踪效果。

表 1 数值仿真双优选的拟合性能 Tab.1 The fitting performance of numerical simulation of dual-optimal selection

4 脱丁烷塔仿真实验

为了进一步验证本文方法性能，选用脱丁烷塔过程作为对象。脱丁烷塔装置是石油炼制生产过程中脱硫与石脑油分离装置的重要组成部分^[16]。该过程样本数据有7个辅助变量，分别为：塔顶温度 ${x_1}$ ；塔顶压力 ${x_2}$ ；塔顶回流量 ${x_3}$ ；塔顶产品流出 ${x_4}$ ；第六层塔板温度 ${x_5}$ ； ${x_6}$ 塔底温度1； ${x_7}$ 塔底温度2；主导变量为塔底丁烷浓度。详细的工艺过程描述可见文献[17]。

该实验过程数据源于真实过程的实时采样，共获得2 394组样本。选出150组作为有标签样本，选出500组作为无标签样本。在有标签样本中，50组作为建模样本，另外100组作为测试样本。

为了进一步分析本文算法性能，纵向比较了几点改进对模型跟踪效果的影响，具体方法如下。

1) GPR方法。不利用无标签样本，仅利用已有的有标签样本建立GPR模型，然后测试其对测试样本的跟踪效果。

2) NS-GPR方法。不利用优选准则做筛选，直接对有标签样本建模，获得辅学习器，然后预测无标签样本的标签，进而利用伪标签样本更新主学习器。

3) 第一类单优选半监督GPR(single-optimal semi-supervised GPR，SS-GPRa)。利用优选准则1筛选无标签样本，然后直接对有标签样本建模得到辅学习器，后续过程同方法2)。

4) 第2类单优选半监督GPR(简称SS-GPRb)。首先利用优选准则2筛选有标签样本，然后对其建模得到辅学习器，后续过程同方法2)。

5) 本文方法。

图4为不同方法的预测值与真实值的比较，纵坐标为测试样本真实值，横坐标为测试样本预测值，数据点离基准线越近，表示预测效果越好。

	Download: JPG larger image
图 4 不同方法的纵向比较 Fig. 4 Longitudinal comparison of different methods

分析图4发现，本文方法在几种方法中的效果最好。为了更直观地比较各方法的预测效果，图5通过跟踪误差表现了各方法的跟踪效果，其中，纵坐标为预测值与真实值的差值。

	Download: JPG larger image
图 5 不同方法的预测误差对比 Fig. 5 Comparison of prediction errors of different methods

综合图4和5可以看出，NS-GPR虽然考虑了无标签样本信息，但其无差别的利用将会带来大量噪声，而SS-GPRa虽然筛选了无标签样本，但是由于辅学习器建立过程中，没有考虑有标签样本的针对性，也会带来大量噪声。而SS-GPRb在考虑筛选有标签样本后，能够对部分无标签样本进行更准确的预测，因此获得了较好的模型预测效果。

本文方法在综合考虑无标签样本与有标签样本筛选后，在绝大多数测试样本的跟踪上，都有很好的效果。这是因为在利用双优选准则后，既降低引入噪声的可能性，又保证了辅学习器的针对性，因此方法的跟踪效果有了明显的提升。

上述分析均建立在各方法对真实值的跟踪效果对比上，为了更客观地对比方法之间的效果，进行了各方法预测值的直方图统计。图6分别统计了真实值与各方法预测值的分布，其中，纵坐标为分布在每一区间的样本出现的频率，横坐标为预测值与真实值分布的区间。

由图6(a)、(c)和(d)的对比可知，NS-GPR与SS-GPRa在0.1~0.15和0.5~0.6两个区域的预测值有比较明显的误差。同样，由图6(a)与图6(b)的对比发现，GPR在0.4~0.6区域的预测值的误差也较大。进一步由图6(a)与图6(e)的对比发现，SS-GPRb在0.6~0.7区域中无法实现良好跟踪。最后，综合对比图6各方法发现，本文方法在上述区域均能进行更准确地跟踪。

	Download: JPG larger image
图 6 多种方法预测值与真实值的直方图统计 Fig. 6 Histogram statistics of predicted and real values of various methods

上述分析对比，验证了本文方法的实际效果。发现同时考虑无标签样本与有标签样本的筛选，获得了更好的预测效果。各方法具体跟踪效果如表2所示。

表 2 不同模型预测效果对比 Tab.2 Comparison of prediction effects of different models

5 结束语

本文提出的带双优选过程的半监督回归算法，基于两种优选准则，一方面筛选合适的无标签样本，另一方面筛选有标签样本，从而建立更有针对性的辅学习器，实现了对无标签样本的更准确地利用，达到了提升主学习器性能的目的。将算法进行数值仿真并应用于脱丁烷塔过程，实验结果表明，所提方法在有标签样本较少时，具有良好的预测效果，为半监督回归提供了一种新思路。

参考文献

[1]	周志华. 基于分歧的半监督学习[J]. 自动化学报, 2013, 39(11): 1871-1878. ZHOU Zhihua. Disagreement-based semi-supervised learning[J]. Acta Automatica Sinica, 2013, 39(11): 1871-1878. (0)
[2]	ZHOU Zhihua, LI Ming. Semisupervised regression with cotraining-style algorithms[J]. IEEE Transactions on knowledge and data engineering, 2007, 19(11): 1479-1493. DOI:10.1109/TKDE.2007.190644 (0)
[3]	姜婷, 袭肖明, 岳厚光. 基于分布先验的半监督FCM的肺结节分类[J]. 智能系统学报, 2017, 12(5): 729-734. JIANG Ting, XI Xiaoming, YUE Houguang. Classification of pulmonary nodules by semi-supervised FCM based on prior distribution[J]. CAAI transactions on intelligent systems, 2017, 12(5): 729-734. (0)
[4]	刘建伟, 刘媛, 罗雄麟. 半监督学习方法[J]. 计算机学报, 2015, 38(8): 1592-1617. LIU Jianwei, LIU Yuan, LUO Xionglin. Semi-supervised learning methods[J]. Chinese journal of computers, 2015, 38(8): 1592-1617. (0)
[5]	刘杨磊, 梁吉业, 高嘉伟, 等. 基于Tri-training的半监督多标记学习算法[J]. 智能系统学报, 2013, 8(5): 439-445. LIU Yanglei, LIANG Jiye, GAO Jiawei, et al. Semi-supervised multi-label learning algorithm based on Tri-training[J]. CAAI Transactions on intelligent systems, 2013, 8(5): 439-445. (0)
[6]	徐蓉, 姜峰, 姚鸿勋. 流形学习概述[J]. 智能系统学报, 2006, 1(1): 44-51. XU Rong, JIANG Feng, YAO Hongxun. Overview of manifold learning[J]. CAAI transactions on intelligent systems, 2006, 1(1): 44-51. (0)
[7]	杨剑, 王珏, 钟宁. 流形上的Laplacian半监督回归[J]. 计算机研究与发展, 2007, 44(7): 1121-1127. YANG Jian, WANG Jue, ZHONG Ning. Laplacian semi-supervised regression on a manifold[J]. Journal of computer research and development, 2007, 44(7): 1121-1127. (0)
[8]	ZHOU Zhihua, LI Ming. Semi-supervised regression with co-training[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence. Edinburgh, Scotland, UK, 2005: 908–913. (0)
[9]	程玉虎, 冀杰, 王雪松. 基于Help-Training的半监督支持向量回归[J]. 控制与决策, 2012, 27(2): 205-210, 226. CHENG Yuhu, JI Jie, WANG Xuesong. Semi-supervised support vector regression based on Help-Training[J]. Control and decision, 2012, 27(2): 205-210, 226. (0)
[10]	盛高斌, 姚明海. 基于半监督回归的选择性集成算法[J]. 计算机仿真, 2009, 26(10): 198-201, 318. SHENG Gaobin, YAO Minghai. An ensemble selection algorithm based on semi - supervised regression[J]. Computer simulation, 2009, 26(10): 198-201, 318. (0)
[11]	何志昆, 刘光斌, 赵曦晶, 等. 高斯过程回归方法综述[J]. 控制与决策, 2013, 28(8): 1121-1129, 1137. HE Zhikun, LIU Guangbin, ZHAO Xijing, et al. Overview of Gaussian process regression[J]. Control and decision, 2013, 28(8): 1121-1129, 1137. (0)
[12]	熊伟丽, 李妍君, 姚乐, 等. 一种动态校正的AGMM-GPR多模型软测量建模方法[J]. 大连理工大学学报, 2016, 56(1): 77-85. XIONG Weili, LI Yanjun, YAO Le, et al. A dynamically corrected AGMM-GPR multi-model soft sensor modeling method[J]. Journal of Dalian University of Technology, 2016, 56(1): 77-85. (0)
[13]	郭帅, 马书根, 李斌, 等. VorSLAM算法中基于多规则的数据关联方法[J]. 自动化学报, 2013, 39(6): 883-894. GUO Shuai, MA Shugen, LI Bin, et al. A data association approach based on multi-rules in VorSLAM[J]. Acta automatica sinica, 2013, 39(6): 883-894. (0)
[14]	KNORR E M, NG R T. A unified notion of outliers: properties and computation[C]//Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining. Newport Beach, CA, USA, 1997: 219–222. (0)
[15]	曾静, 王军, 郭金玉. 基于向量相似度的多模型局部建模方法研究[J]. 计算机应用研究, 2012, 29(5): 1631-1633, 1640. ZENG Jing, WANG Jun, GUO Jinyu. Local multi-model method based on similarity of vector[J]. Application research of computers, 2012, 29(5): 1631-1633, 1640. DOI:10.3969/j.issn.1001-3695.2012.05.007 (0)
[16]	阮宏镁, 田学民, 王平. 基于联合互信息的动态软测量方法[J]. 化工学报, 2014, 65(11): 4497-4502. RUAN Hongmei, TIAN Xuemin, WANG Ping. Dynamic soft sensor method based on joint mutual information[J]. CIESC journal, 2014, 65(11): 4497-4502. DOI:10.3969/j.issn.0438-1157.2014.11.040 (0)
[17]	FORTUNA L, GRAZIANI S, RIZZO A, et al. Soft sensors for monitoring and control of industrial processes[M]. London: Springer, 2007: 229–231. (0)