2. 洛阳光电技术发展中心, 河南 洛阳 471009
2. Luoyang Optoelectro Technology Development Center, Luoyang 471009, China
随着电子技术、计算机技术、通信技术等先进技术的发展,实际工程中会采集到海量的业务数据。数据挖掘技术作为一项新的知识获取技术,在故障诊断、生产优化、丰富知识库、决策支持等工程领域有着广泛的应用[1-3]。数据挖掘技术在航空航天领域也开始应用。已经建立一些用于航空航天领域的数据挖掘工具[4],在结构模态分析[5]和飞行安全分析[6]中得到初步应用。在气动研究领域中,数据挖掘已应用于气动优化设计[7]、流场分析[8]等方面。但数据挖掘技术用于飞行试验数据分析、基于飞行试验数据的气动建模和气动参数辨识结果可信度的确认等方面,还未见报道。
现有的气动建模和气动参数辨识方法主要存在以下两类问题:
(1) 基于飞行试验数据的建模问题。现有气动建模主要基于计算或者风洞试验数据[9-11]。由于飞行试验数据有限、气动力随飞行参数变化的非线性较强,采用常规方法建立基于飞行试验数据的气动数学模型难度较大。
(2) 飞行试验数据辨识结果可信度的确认问题。由于数值模拟理论和方法以及风洞试验技术的局限,气动力的地面预测结果还需要飞行试验验证。在飞行试验中,气动力不能直接测量,需要通过飞行试验数据对气动力进行辨识[12-15]。但由于飞行试验数据存在 测量误差以及气动参数辨识存在方法误差等原因,使得气动参数辨识结果存在不确定性,当辨识结果与地面预测结果不一致时,二者不能互相确认,辨识结果与地面预测 结果的可信度都不能判断。
为此,进行了数据挖掘技术在飞行试验数据分析和气动参数辨识中的应用研究。初步解决了数据挖掘技术应用于飞行试验数据处理分析中存在的部分问题,提出了利用不同时间段、不同飞行批次的飞行数据在某一划分区间的气动特性分布来检验辨识结果可信度的方法,完成了对多次飞行试验数据的整体辨识和对辨识结果的确认,初步建立了基于飞行试验数据的气动模型,为挖掘气动特性规律、开展气动特性的天地换算提供了可行的思路。
1 数据挖掘方法 1.1 数据挖掘定义数据挖掘,也称从数据库中发现知识(Knowledge Discovery in Database,简称KDD),它是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘要解决的问题就是在庞大的数据中寻找有价值的隐藏信息,加以分析,并将这些有意义的信息归纳成结构模式,以深化对数据的理解或预测未知数据。数据挖掘可以获得以下知识:
概念知识:概念知识指类别特征的概括性描述;
关联知识:反映一个事件和其他事件之间依赖或关联的知识;
分类知识:它反映同类事物共同性质的特征型知识和不向事物之间的差异型特征知识;
预测型知识:由历史和当前的数据推测未来的数据;
偏差型知识:是对差异和极端特例的描述。
1.2 数据挖掘方法当前流行的数据挖掘方法或技术可分为以下七大类:
信息论方法(决策树方法):利用信息论的原理建立决策树;
聚类方法:按照样本之间的距离进行分类;
统计分析方法:利用统计学原理分析;
仿生物技术:包括神经网络方法和遗传算法;
可视化技术:对传统的图表功能进行拓展;
模糊数学方法;
其他方法:如逻辑回归和关联规则方法等。
1.3 数据挖掘流程数据挖掘的一般流程见图 1,其中预处理包括数据清理、压缩、变换等,并将原始数据转化为挖掘算法所接受的操作数据类型;挖掘提取是采用合理的分析模型及挖掘算法,从数据中提取出有意义的结构模式 (规则、模型等);后处理包括对结果的分析及评价,并将挖掘算法结果转化为知识。
![]() |
图 1 数据挖掘通用流程 Fig. 1 General flow of data mining |
2 在飞行试验数据分析和气动参数辨识中的应用研究
某飞行器在一段时间先后进行了几十次飞行试验,以其中15次飞行试验为例,对数据挖掘技术在飞行试验数据分析和气动参数辨识中的应用进行了研究,并给出相应的方法。
先采用聚类方法,对飞行试验数据进行了划分,以获得飞行试验数据分布特性的初步认识;然后采用分类方法建立基于飞行试验数据的气动模型;再进行辨识结果的一致性检验,以及辨识结果与地面试验结果比较分析。
2.1 聚类分析针对飞行试验数据,在聚类分析中,按照飞行条 件(初步选取马赫数、攻角、气流滚转角、高度作为属性因素),将不同数据之间的差异根据数据属性加以量化,按照量化距离的大小将数据归化到不同的类别中。采用k-means算法,对飞行试验数据进行了处理,针对不同飞行条件,得到了聚类分析结果,如表 1所示。
从表 1中可以看出,所有飞行试验数据按照不同飞行条件(马赫数Ma、攻角α、气流滚转角φ、高度H)被划分为6个区域(类):(1)低空小攻角区域;(2)低空大攻角区域;(3)高空小攻角区域;(4)低空中等攻角区域;(5)高空大攻角区域;(6)中空小攻角区域。在各区域内,数据具有相似的飞行条件属性。可见,飞行试验数据主要分布在低空小攻角区域和中空小攻角区域。通过上述分析可以获得对试验数据所涵盖空域的定性认识,从而为分类分析等提供支持。
属性均值 | 全部数据 | 类1 | 类2 | 类3 | 类4 | 类5 | 类6 |
76350(100%) | 35024(46%) | 10031(13%) | 7599(10%) | 4952(6%) | 2671(3%) | 16253(21%) | |
Ma | 1.6324 | 0.9496 | 0.8917 | 4.1193 | 1.1055 | 3.0064 | 2.3326 |
α | 11.1102 | 7.7183 | 30.7979 | 5.304 | 15.2642 | 36.1718 | 3.5992 |
φ | -28.8726 | -48.2103 | -65.2851 | -45.4592 | 121.876 | 112.1 | -26.071 |
H | 8611.646 | 5559.817 | 6106.242 | 16927.93 | 5638.75 | 28873.6 | 10422.12 |
2.2 分类分析
由于飞行试验数据有限、气动力随飞行参数变化的非线性较强,采用常规方法建立基于飞行试验数据的气动数学模型难度较大。为此,先从飞行试验数据中辨识气动力系数,再利用数据挖掘中的分类学习算法,构造针对气动力系数的分类器,建立气动数学模型。下面以滚转力矩系数Cmx建模为例,给出了采用决策树学习算法和最邻近算法得到的分类模型。
2.2.1 决策树学习算法图 2中给出了采用决策树算法得到的Cmx决策树模型。决策树的每一个分支节点代表一个属性判断条件,每一个最底端叶节点则代表一个类值(即Cmx值)。以该决策树为例,当处理一组新的飞行条件参数时,从该决策树最顶端开始,首先判断滚转舵偏Dx属性值,当Dx<2.34依循左分支到达下一节点,反之则为右分支。每到达一个新节点便根据该节点的判断条件来决定下一分支,直至到达一个底端叶节点,便得到了该飞行条件下的滚转力矩系数。
![]() |
图 2 滚转力矩系数的决策树模型 Fig. 2 Decision tree model of roll moment coefficient |
图 3给出了Cmx真实值与模型预测值的对比,交叉验证表明,该模型的预测均差为0.01,均方差根为0.02,预测值与真实值的相关系数为0.9。由图 3可见,该模型存在一定的预测散布,但误差均值较小,相关系数较高,表明模型预测准确度较高。
![]() |
图 3 决策树模型预测值分布 Fig. 3 Prediction value dispersion of decision tree model |
2.2.2 最近邻算法
最近邻算法是基于类比学习的数据挖掘算法。它在实现上首先采用有效索引技术存放所有的训练样本数据,当需要处理未知样本时,最近邻算法在已有样本数据中寻找与其最为接近的已知数据实例,并将其类值指定给该未知样本。采用K-最近邻算法得到了Cmx真实值与模型预测值的对比,如图 4所示。交叉验证表明,该算法的预测均差为0.009,均方差根为0.02,预测值与真实值的相关系数为0.9。该方法在准确度上与决策树模型相当。
![]() |
图 4 K-最近邻算法预测值分布 Fig. 4 Prediction value dispersion of K-nearest model |
2.3 辨识结果的一致性检验
由于不同批次的飞行试验往往包含相近的飞行条件,通过对相近飞行条件的判断,从飞行试验数据中提取数据集,对相应数据集的辨识结果进行统计分析,若辨识结果具有一致性,则表明辨识结果整体可信度较高。图 5和图 6分别给出了法向力和滚转力矩辨识结果分布。其中Ave表平均值,Sd表标准差,Min为最小值,Max为最大值,横坐标为Ave,纵坐标包括Sd、Min、Max。由图可见,法向力辨识结果的标准差非常小,表明一致性非常好,辨识结果具有很高可靠性;滚转力矩辨识结果标准差在接近0附近标准差相对较大(但小于0.1),其余情况标准差较小,表明一致性较好,辨识结果具有较高的可靠性。这个结果与常规辨识中积累的经验是一致性的,即法向力辨识精度很高,滚转力矩要稍差一些。可见,数据挖掘技术用于飞行试验处理分析是可行和正确的,同时,数据挖掘技术给出的区间(由最大值和最小值构成)的大小表征了辨识结果可信度的高低——区间越大,可信度越低;区间越小,可信度越高。
![]() |
图 5 法向力辨识结果分布 Fig. 5 Identification result distribution of normal force |
![]() |
图 6 滚转力矩辨识结果分布 Fig. 6 Identification result distribution of roll moment |
2.4 基于数据挖掘的舵效确认
舵效是控制系统设计的关键参数,数据挖掘技术同样可以用于舵效分析。采取与2.3节中同样的方法,从飞行试验数据中提取数据集。但在试验数据样本的选取上,由于舵效表征的是舵偏引起的力矩变化量,因此选取样本时应保证样本数据舵偏变化率大于一定值,满足这一条件的试验数据通常分布在飞行状态发生剧烈变化的过程,如过载拉起或卸载过程,舵面偏转与姿态变化明显。采取如下标准进行选择:
|$\dot{δ}$ |>C
式中C为一角速率常数。
采用回归分析方法,对舵效进行辨识。采用的力矩系数回归模型如下:
Cmx,Cmy=b0+b1δ+b2sin(4φ)+b3α
Cmz=b0+b1δ+b2cos(4φ)+b3α
式中,回归系数b1表示舵效。
图 7给出了俯仰舵效分析结果,图中横坐标是风洞试验结果,纵坐标是辨识结果。如果图中的点越靠近对角线,表明风洞试验与飞行试验的结果越一致。由图 7可见,大多数点靠近对角线,表明在多数飞行区间下,辨识舵效与风洞试验结果具有较好的一致性。在全部区间下统计均值,辨识舵效约为风洞试验舵效的80%左右,处于控制系统可以稳定的范围内。
![]() |
图 7 俯仰舵效分析结果 Fig. 7 Analysis of pitch rudder efficiency |
3 结 论
本文探讨了数据挖掘技术应用于飞行试验数据分析和气动参数辨识中存在的区间划分条件、数据挖掘方法和步骤等问题,初步建立了基于飞行试验数据的建模方法、辨识结果一致性检验方法和舵效确认方法。多批次飞行试验数据分析处理表明,所发展的方法是基本可行和有效的。为进一步提高数据挖掘技术在飞行试验数据分析中的应用水平,未来还应加强数据预处理方法、区间划分原则和方法以及更适合于飞行试验数据分析的数据挖掘方法等方面的研究,为CFD和风洞试验数据的验证与确认提供基准。
[1] |
Zhu M.
Data mining[M]. Hefei: Press of University of Science and Technology of China, 2008 .
(in Chinese) 朱明. 数据挖掘[M]. 合肥: 中国科学技术大学出版社, 2008 . |
[2] |
Wang M X. Survey of data mining[J].
Software Guide, 2013, 12(10):135–137.
(in Chinese) 王梦雪. 数据挖掘综述[J]. 软件导刊, 2013, 12(10) : 135–137. |
[3] | Jeong S, Shimoyama K. Review of data mining for multi-disciplinary design optimization[C]//Proceedings of the Institution of Mechanical Engineers, Part G. Journal of Aerospace Engineering, 2011, 225(5): 469-479. |
[4] | Monroe G A, Freeman K, Jones K L. IT data mining tool uses in aerospace[R]. NASA ARC-E-DAA-TN 4694, 2012. |
[5] | Butterfield A J. Data mining of NASA Boeing 737 flight data: frequency analysis of in-flight recorded data[R]. NASA CR-2001-210641, 2001. |
[6] | Bryan M. Discovering anomalous aviation safety events using scalable data mining algorithms[J]. Journal of Aerospace Information Systems, 2014, 11(7):482–482. DOI:10.2514/1.I010211 |
[7] | Jeong S. Data mining for aerodynamic design space[R]. AIAA 2005-5079, 2005. |
[8] | Oyama A, Verburg P C, Nonomura T, et al. Flow field data mining of pareto-optimal airfoils using proper orthogonal decomposition[R]. AIAA 2010-1140, 2010. |
[9] | Murch A, Foster J. Recent NASA research on aerodynamic modeling of post-stall and spin dynamics of large transport airplanes[R]. AIAA 2007-463 2007. |
[10] | Mackman T J, Allen C B. Aerodynamic data modeling using multi-criteria adaptive sampling[R]. AIAA 2010-9194, 2010. |
[11] |
He K F, Wang W Z, Qian W Q. Mathematic modeling for the missile aerodynamics with tail-wing according to wind-tunnel test results[J].
Experiments and Measurements in Fluid Mechanics, 2004, 18(4):62–66.
(in Chinese) 何开锋, 王文正, 钱炜祺. 根据风洞试验结果建立有尾翼导弹数学模型[J]. 流体力学实验与测量, 2004, 18(4) : 62–66. |
[12] |
Cai J S, Wang Q, Wang W Z.
Identification for flying vehicle[M]. Beijing: National Defense Industry Press, 2003 .
(in Chinese) 蔡金狮, 汪清, 王文正. 飞行器系统辨识学[M]. 北京: 国防工业出版社, 2003 . |
[13] | Smith M, Moes T, Morelli E. Real-time stability and control derivative extraction from F-15 flight data[R]. NASA TM-2003-212027, 2003. |
[14] |
Wang G D, Cui E J, Chen Z L. Study on aerodynamic parameter identification method for aircraft with jet thruster control[J].
Acta Aerodynamica Sinica, 2011, 29(4):433–438.
(in Chinese) 王贵东, 崔尔杰, 陈则霖. 喷流控制飞行器气动参数辨识方法研究[J]. 空气动力学学报, 2011, 29(4) : 433–438. |
[15] |
Wang Q, Wan Z G, Qian W Q, et al. Aerodynamic parameter identification of rapid self-rotating flight vehicle[J].
Acta Aerodynamica Sinica, 2004, 22(1):1–6.
(in Chinese) 汪清, 万宗国, 钱炜祺, 等. 高速自旋飞行器气动参数辨识[J]. 空气动力学学报, 2004, 22(1) : 1–6. |