文章信息
- 韦林
- WEI Lin
- 基于支持向量机回归算法的钢铁企业备件预测研究
- Based on Support Vector Machine Regression Algorithm Spares Prediction Research in Iron and Steel Enterprises
- 广西民族大学学报 (自然科学版), 2017, 23(1): 83-85
- Journal of Guangxi University for Nationalities (Natural Science Edition), 2017, 23(1): 83-85
-
文章历史
- 收稿日期: 2016-09-20
企业生产要求可靠和连续稳定的运行,需要合理维修和相应的配件,而设备管理从降低成本的角度出发,在能满足维修的前提下,尽量少库存或零库存.且钢铁企业设备繁多,生产环境恶劣,备件需求有着不确定性特点,较难用常规方法预测,因此对备件需求预测的研究具有理论和实际的重要意义.
备件需求反映企业生产设备对维修部件的需求程度,它不仅与备件的固有特性有关,还受到设备使用、管理、维护、运行环境等多种因素的影响,还有备件采购、审批环节、维修成本考核等因素的影响,因此备件需求具有间断性、需求原因的多样性,数据可能与实际需求有一定的偏差.基于以上特点,选择预测精度高的支持向量机函数回归 (Support Vector Regression,SVR) 进行预测.
1 支持向量机回归原理支持向量机 (SVM) 理论是近十几年来发展起来的一种统计学习理论,是机器学习研究领域的一项重大成果.其基本思想是通过某种事先选择的非线性映射,将输入量映射到一个高维的特征空间,在这个空间中构造最优分类超平面,为了得到非线性映射函数,支持向量机通过引入核函数,解决非线性分类问题.支持向量机函数回归是SVM一个重要应用方面.支持向量机回归 (SVR) 通过引入特定的损失函数从而支持向量机从分类算法推广至回归估计,它的基本思想是:对于给定的训练样本点,通过SVR训练回归一个函数f(x),使由该函数求出的每一个输入样本的输出值和输入样本对应的目标值不超过误差ε,同时使回归出的函数平滑.
2 支持向量机回归模型 2.1 线性支持向量回归模型对于线性可分的样本集,利用其中最优的超平面对样本集进行分类判断,找出其中的某个线性分类函数,就可以对样本集进行分类.设定m个训练样本,数据样本集S={xi, yi},i=1, …, l, xi为输入数据,yi为输出数据,xi∈Rd, yi∈R, 线性回归函数用线性方程f(x) 表示,即:
| $f\left( x \right) = \omega x + b$ | (1) |
图 1所示的ωx+b=0为超平面,ωx+b=-1和ωx+b=1为边缘,边缘越大,模型越简单,泛化能力越强.边缘的宽度 (正反类间隔):
|
| 图 1 SVM算法分类 Fig. 1 SVM algorithm |
| $M\;\arg {\rm{in = }}\frac{2}{{\left\| {{\omega ^2}} \right\|}}$ | (2) |
由式 (2) 可知,要使正反类的间隔最大,可对式中的
| $\begin{array}{l} \omega {x_i} + b \ge 1,{y_i} = 1\\ \omega {x_i} + b \le - 1,{y_i} = - 1 \end{array}$ | (3) |
即
| ${y_i}\left( {\omega {x_i} + b} \right) \ge 1$ | (4) |
归纳起来为:
| $\left\{ {\begin{array}{*{20}{l}} {\min \frac{{\left\| {{\omega ^2}} \right\|}}{2}}\\ {{y_i}\left( {\omega {x_i} + b} \right) \ge 1,i = 1,2, \cdots ,l} \end{array}} \right.$ | (5) |
由式 (2)~(5) 可知,寻找最优超平面转换为寻找正反类的最大间隔,目标函数是ω的二次函数,而约束是一次函数,这样的优化问题是二次规划问题,这样的二次规划问题有全局的最优解 (ω, b),对于带约束条件为不等式的条件的极值问题,要引用扩展的拉格朗日乘子理论,得到优化问题的对偶形式,把 (5) 式转换为它的对偶问题的Lagrange函数形式:
| $J\left( {\omega ,b,a} \right) = \frac{1}{2}\left( {{\omega ^T}\omega } \right) = \sum\limits_{i = 1}^l {{\alpha _i}\left[ {{y_i}\left( {\omega {x_i}} \right) + b - 1} \right]} $ | (6) |
其中αi为非负的拉格朗日乘子.对式 (6) 分别对ω, b, α求偏导,并令它们等于零,得:
| $\frac{{\partial J}}{{\partial \omega }} = 0 \Leftrightarrow \omega = \sum\limits_{i = 1}^L {{\alpha _i}{y_i}{x_i}} $ | (7) |
| $\frac{{\partial J}}{{\partial b}} = 0 \Leftrightarrow \sum\limits_{i = 1}^l {{\alpha _i}{y_i} = 0} $ | (8) |
| $\frac{{\partial J}}{{\partial {\alpha _i}}} = 0 \Leftrightarrow {\alpha _i}\left[ {{y_i}\left( {\omega {x_i}} \right) + b - 1} \right] = 0$ | (9) |
根据式 (7)~(9) 和式 (5) 中的约束条件,得到凸二次规划的对偶问题:
| $\left\{ {\begin{array}{*{20}{l}} {\max \left( {\omega \left( \alpha \right)} \right){\rm{ = }}\sum\limits_{i = 1}^l {{\alpha _i} - \frac{1}{2}\sum\limits_{i = 1,j = 1}^l {{\alpha _i}{\alpha _j}{y_i}{y_j}\left( {{x_i}{x_j}} \right)} } }\\ {\sum\limits_{i = 1}^l {{\alpha _i}{y_i} = 0,{\alpha _i} \ge 0} } \end{array}} \right.$ | (10) |
求式 (10) 最大值,解出αi,若αi*确定为最优分类面的参数关键点 (αi*为Lagrange最优乘子,它们成为“支持向量”),将αi*代入式 (7),求得最优ω*:
| ${\omega ^*} = \sum\limits_{i = 1}^l {{\alpha _i}{y_i}{x_i}} $ | (11) |
求得最优b*为:
| ${b^*} = {y_i} - \sum\limits_{i = 1}^l {\alpha _i^*{y_i}\left( {{x_i}{x_j}} \right)} $ | (12) |
由这两个最优参数得到基于最优超平面的回归函数f(x)
| $f\left( x \right) = {\omega ^*}x + {b^*} = \sum\limits_{i = 1}^l {{\alpha _i}{y_i}\left( {{x_i}x} \right) + } {b^*}$ | (13) |
对于非线性问题,先用一个非线性映射x→φ(x),把数据映射到一个高维特征空间,再在高维特征空间H进行回归,具体的函数表达式为:
| $f\left( x \right) = \left( {\omega ,\varphi \left( x \right)} \right) + b,\varphi :{R^n} \to H,\omega \in {R^n}$ | (14) |
由于非线性函数φ未知,而特征空间的维数很高 (甚至无穷),因此ω无法表达,引入核函数k(x, xi),使得函数回归绕过特征空间,直接在输入空间上求取,采用同样优化的办法可得到其对偶问题,即二次规划问题,使用拉格朗日乘子法,得到优化问题的对偶形式,在H空间的目标函数为:
| $\left\{ {\begin{array}{*{20}{l}} {\min \frac{{\left\| {{\omega ^2}} \right\|}}{2} + c\sum\limits_{i = 1}^l {{\varepsilon _i}} }\\ {{y_i}\left( {\omega \varphi \left( {{x_i}} \right)} \right) + b \ge 1 - \varepsilon ,i = 1,2, \cdots ,l}\\ {{\varepsilon _i} > 0,i = 1,2, \cdots ,l} \end{array}} \right.$ | (15) |
式中εi为松弛变量,c为惩罚因子,求式 (12) 的对偶问题,其Lagrange乘子函数为:
| $\left\{ {\begin{array}{*{20}{l}} {\min \left( {\omega \left( \alpha \right)} \right) = \frac{1}{2}\sum\limits_{i = 1,j = 1}^l {{\alpha _i}{\alpha _j}{y_i}{y_j}\left( {k\left( {{x_i}{x_j}} \right)} \right) - \sum\limits_{i = 1}^l {{\alpha _i}} } }\\ {\sum\limits_{i = 1}^l {{\alpha _i}{y_i} = 0} } \end{array}} \right.$ | (16) |
求解式 (16),得到最优因子αi*,接着求ω*,b*, 然后求基于最优超平面的回归函数f(x);
| $f\left( x \right) = \sum\limits_{i = 1}^l {\alpha _i^*{y_i}} \left( {k\left( {{x_i}x} \right) + {b^*}} \right)$ | (17) |
钢铁企业绝大部分设备都有备件需求,由于设备多,备件过多,资金压力大,备件不及时,影响生产.本文以备件需求量大的电磁阀作为预测分析案例,把备件需求的影响因素作为输入,把需求量作为输出,建立SVR备件预测模型.假设装机容量不变,将设备使用时间、运行环境、使用强度、维护管理作为影响因素输入,备件需求作为输出.
根据备件需求历史经验,由于所研究的设备为连续运行设备,每年有计划性大修和每月计划性维修,得出:设备运行时间长,备件需求量大,工作环境恶劣,备件需求量大;使用强度大,备件需求大;设备维护科学合理,备件需求少,将它们统一归一化处理为0~1之间的数值,数值越大,影响因素越大.
实际需求备件归一化处理:
| 年度 | 运行时间 | 工作环境 | 使用强度 | 设备管理 | 实际需求 | Yi |
| 2011 | 0.2 | 0.2 | 0.4 | 0.2 | 279 | 1.0 |
| 2012 | 0.1 | 0.2 | 0.1 | 0.5 | 100 | 0 |
| 2013 | 0.2 | 0.2 | 0.2 | 0.4 | 150 | 0.28 |
| 2014 | 0.2 | 0.2 | 0.32 | 0.3 | 200 | 0.56 |
| 2015 | 0.2 | 0.2 | 0.3 | 0.3 | 196 | 0.54 |
4 预测结果分析
本文采用Matlab 7.0软件,用基于SVM Matlab工具箱对数据进行试验测试,选择RBF核函数,惩罚因子c=10,松弛变量εi=0.01,以2011-2014年的数据作为训练样本,以2015年的数据作为测试样本,测试结果如下:
TEY = svroutput (tmx, tex, ker, beta, bias),
TEY = 0.55,对应的实际需求量为198,实际的需求量为196,误差率为1%.
5 结语从预测结果来看,在训练样本偏少的情况下,SVR预测出来的备件需求结果和实际需求结果仅差2.由此可见,支持向量机的样本学习能力和推广非常强,如果有一定数量的训练样本,基于SVR回归算法的备件需求预测是可行的.当然,SVR在备件预测中还有很多深入研究的地方,本文对备件需求影响因素的归一化处理是基于经验值,如果有设备维护数据库,加以统计学分析的方法找到关键影响因素和确定关联系数,能够得到更为精确的量化值,使预测结果更为准确.
| [1] | 汪家常, 郝方平. 不确定条件下钢铁企业备件需求模型建立与应用[C]//会计信息化年会2013论文集, 2013: 61-66. |
| [2] | 演克武, 朱金福. 基于支持向量机回归算法的航空公司客流量预测研究[J]. 企业经济, 2010(3): 88–90. |
| [3] | 吴峰崎, 刘龙. 基于支持向量机回归算法的疲劳寿命预测研究[J]. 起重运输机械, 2015(2): 5–8. |
| [4] | 鲁斌, 蔡志彬. 基于支持向量机的单日多类型天气短期光伏功率预测[J]. 网络安全技术与应用, 2014(10): 76–77. DOI:10.3969/j.issn.1009-6833.2014.10.045. |
2017, Vol. 23
