舰船科学技术  2024, Vol. 46 Issue (8): 180-184    DOI: 10.3404/j.issn.1672-7649.2024.08.034   PDF    
海上编队协同防空作战规则反演方法
李洋1,2, 刘耿1, 李奔3, 胡晓惠2, 樊垚1     
1. 中国船舶集团有限公司系统工程研究院,北京 100036;
2. 中国科学院软件研究所,北京 100190;
3. 中国船舶集团有限公司工程管理中心,北京 100101
摘要: 为解决海上编队协同防空作战中多任务多平台的协同决策问题,提出基于遗传模糊逻辑树的协同防空作战规则反演方法。设计面向威胁判断、目标分配、火力控制等指控决策的级联式模糊推理系统,采用演化学习从博弈对抗中学习和反演协同作战规则。作战仿真测试表明,该方法能够适应战场的动态变化且决策时延低于1 s。基于遗传模糊逻辑树的作战规则反演缓解了深度强化学习等面临的可解释性问题和作战仿真中的奖励稀疏问题,同时反演生成的作战规则也为剖析战场规律提供了新的知识来源。
关键词: 作战规则     模糊逻辑     演化学习     防空作战    
Maritime formation cooperative air defense combat rule inversion method
LI Yang1,2, LIU Geng1, LI Ben3, HU Xiao-hui2, FAN Yao1     
1. China State Shipbuilding Corporation Systems Engineering Research Institute, Beijing 100036, China;
2. Institute of Software at the Chinese Academy of Sciences, Beijing 100190, China;
3. China State Shipbuilding Corporation Project Management Center, Beijing 100101, China
Abstract: To solve the multi-task and multi-platform cooperative decision-making problem in the maritime formation cooperative air defense operation, a method of inversion of cooperative air defense operation rules based on genetic fuzzy logic tree was proposed. A cascading fuzzy inference system is designed for threat assessment, target weapon assignment, fire control and other C2 tasks. Evolutionary learning is used to learn and invert cooperative combat rules from Wargaming. Based on the simulation results, the method can adapt to the dynamic changes of the battlefield and the decision-making delay is less than 1 second. The inversion of combat rules based on genetic fuzzy logic tree alleviates the lack of interpretability faced by deep reinforcement learning and the problem of reward sparsity in simulation environment. At the same time, the combat rules generated by inversion also provide a new source of knowledge for analyzing the nature of naval warfare.
Key words: combat rule     fuzzy logic     evolutionary learning     air-defense operation.    
0 引 言

近年来随着人工智能技术和无人装备的飞速发展,网络中心战、分布式海上作战等作战概念已从理论研究走进了真实战场[1-2]。“部署分散、火力集中”成为了当前海上攻防对抗的典型作战样式,对海上编队各个作战平台的自主决策能力和群体协同能力提出了更高要求。海上编队协同防空作战属于合同或联合作战下的海上战术防御协同,其作战效果不仅取决于单装单平台的先进程度,更取决于体系内各作战要素之间的协同程度。如何通过合理的规划、调度使得编队在时间、空间、资源、任务等多维度上实现精准协作仍是世界性难题,也是提升海上编队防空作战能力须要克服的挑战。

传统编队协同防空作战研究主要集中在协同防空作战体系研究、协同逻辑分析以及协同武器组织等理论层面。例如,王肖飞等[3]通过对比典型分层防御与基于网络中心战的协同防空作战,强调了传感器网、指挥信息网以及武器网在协同作战中的基础核心作用,论述了数据融合技术、数据链技术、多武器系统指控技术等关键技术对协同防空作战的重要影响。李烨等[4]针对舰艇编队多平台协同防空反导的系统逻辑结构问题,提出了具有探测跟踪、指挥控制和火力打击3层的协同防空作战系统逻辑结构,并针对作战准备、作战实施以及作战总结3个不同阶段阐明了逻辑网络的功能和信息传递关系。上述研究从宏观层面阐明了海上编队协同防空作战体系组织问题的本质,但并未在技术层面上展开对协同算法或技术的讨论,距离实际应用仍有距离。

以强化学习、多智能体协同等为代表的人工智能技术为海上编队协同防空作战提供了新的技术途径[56]。朱建文等[7]开展了基于强化学习的集群多目标智能分配与决策方法研究,利用Q-Learning方法对协同攻击方案中包括导弹选取以及分配形式进行智能决策,通过仿真验证了强化学习算法效率和效果明显优于传统优化算法。王小光等[8]围绕无人集群协同作战,讨论了CTA模型以及演化计算、群体智能等智能算法在无人集群任务分配中的应用。然而,基于深度学习的智能算法由于其“黑箱”特征普遍存在可解释性问题[9],推理过程和结果难以追溯和分析,阻碍了在实战场景中的落地应用[10]

为探索上述问题的解决途径,提出基于遗传模糊逻辑树(Genetic Fuzzy Tree,GFT)的海上编队协同防空作战规则反演技术。首先,基于GFT推理系统,通过启发式算法迭代优化推理规则和隶属函数等系统内部结构和参数,从而具备生成一系列具有“如果X,则Y”结构可读且可理解的作战规则的规则反演能力[1112]。然后,基于作战仿真推演采取演化学习类强化学习算法,通过博弈对抗自主学习威胁判断、目标分配以及火力控制等海上编队协同防空作战的协同决策规律。最后,采用带有不确定性的仿真场景想定,对反演生成的作战规则效果进行验证,为海上编队协同防空作战的规划和组织提供新的决策技术途径,也为深刻挖掘战场规律提供新的算法工具。

1 基于GFT的编队协同防空作战推理系统 1.1 模糊逻辑

模糊逻辑善于表达界限不清晰的定性知识,例如“较远”、“较少”和“立即”等。其表述方式与日常自然语言接近,因此特别适合诸如作战规则等经验型知识的表征[13]。模糊逻辑是建立在模糊集合之上的推理方法,与经典集合不同模糊集合属于多值逻辑,允许集合元素存在部分的从属关系。对于模糊集合$A = \{ x,\mu (x)|x \in X\} $,其中$\mu (x)$称为集合$A$的隶属函数,表示元素$x$属于集合$A$的程度。同时,具有“如果X,则Y”形式(IF-THEN)的模糊逻辑推理规则决定了推理前件X与推理后件Y之间的映射关系,例如“如果目标距离近或目标速度为超音速,则立即发射拦截武器”。模糊集合与推理规则一同组成了模糊逻辑推理系统的核心,如图1所示。

图 1 作战规则模糊逻辑推理示例 Fig. 1 Fuzzy logic inference based on combat rule

假设模糊逻辑推理系统包含2条规则如式(1)所示。对于规则1,令${\mu _{{A_1}}}(x)$${\mu _{{B_1}}}(y)$为对输入$x、y$的模糊化操作;令${w_1}$为推理规则的激活强度,如式(2)所示;令${z^*}$为对输出的去模糊化操作,如式(3)所示[14]

$ \begin{split} & {\text{Rule 1: IF }}X\;{\text{is}}\;{A_1}\;{\text{and}}\;Y\;{\text{is}}\;{B_1}\;{\text{THEN}}\;Z\;{\text{is}}\;{C_1} \\ & {\text{Rule 2: IF }}X\;{\text{is}}\;{A_2}\;{\text{and}}\;Y\;{\text{is}}\;{B_2}\;{\text{THEN}}\;Z\;{\text{is}}\;{C_2},\end{split} $ (1)
$ {w_1} = \frac{{{\mu _{{A_1}}}(x){e^{ - k{\mu _{{A_1}}}(x)}} + {\mu _{{B_1}}}(y){e^{ - k{\mu _{{B_1}}}(y)}}}}{{{e^{ - k{\mu _{{A_1}}}(x)}} + {e^{ - k{\mu _{{B_1}}}(y)}}}},$ (2)
$ {z^*} = \frac{{{w_1}\mu _{{C_1}}^{ - 1}({w_1}) + {w_2}\mu _{{C_2}}^{ - 1}({w_2})}}{{\mu _{{C_1}}^{ - 1}({w_1}) + \mu _{{C_2}}^{ - 1}({w_2})}}。$ (3)

模糊逻辑系统通过推理前件的模糊化操作、基于推理规则的推理后件激活操作以及推理后件的聚合去模糊化操作三大流程,就可进行诸如“如果目标距离14.7 km且目标速度259 m/s,则1.7 s后发射舰空导弹”等的作战决策推理。

1.2 模糊逻辑树

模糊逻辑推理规则的数量是由推理前件和推理后件的隶属函数按照笛卡尔积的方式组合确定的,这导致在表征复杂推理过程的情况下,单一模糊推理系统的推理规则数量将出现“组合爆炸”的情况[15]。在海上编队协同防空作战中,威胁评估、目标分配和火力控制等决策任务不仅需要大量输入参数,且不同任务之间还具有复杂的交联关系。为了降低推理系统的复杂程度,可采取模糊逻辑树的形式,将多个模糊推理系统当作节点,根据作战任务的先后顺序级联形成更为复杂的推理系统,从而满足处理多要素、多维度、多约束的协同防空作战决策需求。当前,模糊逻辑树的结构主要依赖业务专家的人工设计,因此可通过结构将业务专家的作战经验注入到模糊推理系统中。

例如,图2所示为在集中式协同决策条件下,编队威胁评估、编队目标分配和本舰火力控制3种不同决策任务形成的模糊逻辑树的一种可行结构。使用该结构的编队协同防空推理系统能接收并融合所有成员的态势感知信息,并对当前来袭目标的威胁程度给出综合评判;结合作战决心和战术选择等额外输入,模糊推理系统将产生编队级的全局性目标分配方案,并下发至各水面舰艇成员执行;水面舰艇本舰收到方案后,根据剩余武器数量、火力通道占用情况等自身状态,最终生成可供具体执行的动作指令。由此可见,通过模糊逻辑树的结构本身不仅能清晰的表征作战决策的推理过程,还能通过对其推理规则和隶属函数激活状态的分析获取产生推理结果的原因,能满足指控决策领域对决策模型可解释性的要求。

图 2 集中式协同决策模糊逻辑树结构示例 Fig. 2 Example of fuzzy logic tree for centric-cooperation
1.3 遗传模糊逻辑树

为了实现基于模糊逻辑树的编队协同防空作战决策推理,除了需要基于专家经验设计推理系统的级联结构,还需针对协同防空任务构造推理规则库,并为每个推理输入输出设置隶属函数参数。随着海上编队武器类型、平台数量以及协同关系等日益复杂,作战规则和隶属函数的构造和设置已经难以由人工完成。面向解决模糊逻辑推理系统中推理规则与隶属函数的生成问题,采用遗传算法等启发式优化算法,通过迭代寻优的方法逐步改进模糊逻辑推理系统的决策效果[11]。当决策效果趋于收敛时,即可认为发现了一组由当前推理规则和隶属函数共同表征的编队协同防空作战规则,从而实现了规则的反演。

规则反演的基本流程如图3所示。其中,推理规则库(RB)由一组IF-THEN结构化规则组成并采用匹兹堡方法进行编码[16]。同时,由于推理规则编码后变为整数序列,而隶属函数参数可在实数范围内取值,这将会导致在遗传算法选择、交叉、变异等操作中面临2种不同的变量。为此,采取等比例放大并平移的方式将隶属函数参数统一到$[0,10]$区间范围内,并采用取整的方式转化为正整数[17]。实验证明,虽然取整操作降低了隶属函数的描述精细度,但同时也缩小了遗传算法的搜索空间,因此能缩短达到收敛状态的耗时。本文提出的方法采用轮盘赌算法作为选择算子,同时为了防止在优化过程中出现早熟现象,在交叉和变异操作中选择了自适应的概率设定方式。其中,交叉算子概率${p_c}$设定如式(4)所示,变异算子概率${p_m}$设定如式(5)所示[18]。通过概率的自适应调整,一方面使得适应度较高的个体在推理规则和隶属函数上保持相对的稳定,另一方面提高了适应度较低个体的交叉变异概率,能增加算法在迭代过程中的探索能力。

图 3 基于GFT的作战规则反演流程 Fig. 3 GFT-based combat rule inversion workflow
$ {p_c} = \left\{ {\begin{array}{*{20}{l}} {({f_{{\mathrm{max}}}} - f)/({f_{{\mathrm{max}}}} - \bar f)},{f \geqslant \bar f},\\ 1,{f < \bar f} 。\end{array}} \right. $ (4)
$ {p_m} = \left\{ {\begin{array}{*{20}{l}} {0.5 \cdot ({f_{{\mathrm{max}}}} - f)/({f_{{\mathrm{max}}}} - \bar f)},{f \geqslant \bar f} ,\\ {0.5},{f < \bar f} 。\end{array}} \right. $ (5)

式中:${f_{{\mathrm{max}}}}$为最大适应度,$\bar f$为平均适应度。

2 基于演化学习的模糊推理系统训练

近年来深度强化学习技术的迅猛发展,在游戏、围棋等项目中取得了超越人类的成功[19]。当前主流的强化学习一般采用马尔科夫决策过程(Markov decision process,MDP),并采用值函数概念对环境进行建模,将智能体与环境交互得到的即时奖励值作为反馈信号对智能体进行训练,从而提升智能体的决策表现。然而,面向作战场景由于并非每时每刻都能直观定义战利或战损,也不能保证持续获得有效的反馈信号,使奖励值的设计成为了制约MDP类强化学习算法的难点之一。

模糊推理系统使用演化学习算法进行训练,可直接使用作战仿真的最终胜负作为个体适应度的评价并不断改进个体决策质量,避免了奖励设计的困难以及反馈信号的稀疏问题。为了兼容MDP类强化学习和演化计算类强化学习,本文设计和采用了如图4所示的训练框架。其中,对手采用MDP类强化学习智能体控制,在本文中只进行推理。模糊推理子系统则采用演化学习类强化学习,根据种群数量并发运行多个作战仿真环境,并通过最终仿真结果体现的作战效能筛选适应度高的个体进行下一轮迭代演进,直至到达收敛状态。训练过程分为3个阶段,第1阶段只对推理规则进行训练,使得推理系统能快速启动;第2阶段只对隶属函数进行训练,在缩小搜索空间的同时提升推理系统的推理质量;第3阶段同时对推理规则和隶属函数进行训练,对推理系统进行整体性的优化。

图 4 模糊推理系统训练框架 Fig. 4 Fuzzy inference system training framework
3 编队协同防空作战规则推理实验分析 3.1 仿真环境简述

基于作战仿真平台模拟红蓝对抗,训练并测试反演生成的作战规则是否能支持编队在协同防空作战中进行有效的指控决策。想定以红方舰艇编队抗击蓝方空中编队的海上编队防空作战为背景。在整个作战过程中红方保持编队阵型不变,各个编队成员根据作战规则推理生成的指令执行协同防空行动,平衡保卫高价值目标安全和自身安全的全局和局部利益。蓝方作战力量由2类不同的飞行编队组成,包括舰载攻击机和电子战飞机,分别执行对海攻击作战任务和防空电磁压制任务。为了体现战场对抗的动态性和不确定性,蓝方兵力的机动方式、进攻方向、攻击波次等在每次对抗推演中都会发生随机变化。

3.2 实验结果讨论

在训练过程中,演化学习种群数量设置为500,经过30轮迭代后,基于GFS的模糊推理系统适应度达到收敛状态,如图5(a)所示。其中,横线代表遵循“尽早拦截、尽远拦截”的人工规则决策适应度基线。采用演化算法进行训练,最优个体最早在第12轮迭代中就超过了基线分数。最终训练产生编队协同防空作战规则,分别实现了威胁判断、目标分配和火力控制的作战决策功能。

图 5 训练和测试数据示意 Fig. 5 Experiment data during training and testing

在测试中,根据多次重复实验结果统计表面,尽管敌方来袭方向大幅度偏离了当前海上编队阵型对应的主威胁轴,攻击波次与训练场景存在显著差异,在基于GFT的编队协同防空作战推理系统指控下均能实现较好的拦截效果,体现了对战场动态性和不确定性的适应能力。同时,推理系统从探测到目标到生成协同行动指令的决策时延低于1 s,目标分配时间不超过600 ms,能满足编队协同防空反导作战的高时效性要求,如图5(b)所示。

4 结 语

本文面向海上编队协同防空作战的复杂协同决策场景,提出了基于GFT的编队协同防空作战推理系统设计方法和基于演化学习的训练方法。通过基于仿真系统的训练和测试实验证明,模糊推理系统能支持编队协同防空作战的指挥控制决策,有效提升对战场动态变化的适应能力。同时,系统通过规则反演,从博弈对抗中获取了态势感知、目标分配、火力控制等决策任务的结构化推理规则,一定程度上缓解了主流人工智能方法面临的可解释性问题,并能为指挥作战人员深入分析战争规律提供新的知识来源。

参考文献
[1]
吴勤. 美军分布式作战概念发展分析[J/OL]. 军事文摘, 2016(13): 44−47.
[2]
周玺. 未来海空分布式作战构想与力量运用初探[J/OL]. 中国电子科学研究院学报, 2020, 15(9): 856−860.
[3]
王肖飞, 严建钢, 丁伟锋, 等. 舰艇编队协同防空作战体系研究[J]. 舰船电子工程, 2011, 31(7): 1-4+62. DOI:10.3969/j.issn.1627-9730.2011.07.001
[4]
李烨, 邱志明, 郭勇. 编队多平台协同防空作战系统逻辑结构分析[J]. 指挥控制与仿真, 2013, 35(6): 12-16. DOI:10.3969/j.issn.1673-3819.2013.06.004
[5]
万里鹏, 兰旭光, 张翰博, 等. 深度强化学习理论及其应用综述[J]. 模式识别与人工智能, 2019, 32(1): 67-81.
[6]
孙彧, 曹雷, 陈希亮, 等. 多智能体深度强化学习研究综述[J]. 计算机工程与应用, 2020, 56(5): 13-24. DOI:10.3778/j.issn.1002-8331.1912-0100
[7]
朱建文, 赵长见, 李小平, 等. 基于强化学习的集群多目标分配与智能决策方法[J]. 兵工学报, 2021, 42(9): 2040-2048. DOI:10.3969/j.issn.1000-1093.2021.09.025
[8]
王小光, 胡荣, 梁文洋. 无人机群协同作战目标分配研究综述[J]. 军事文摘, 2021(7): 32-35.
[9]
刘潇, 刘书洋, 庄韫恺, 等. 强化学习可解释性基础问题探索和方法综述[J/OL]. 软件学报, 2021: 1−17.
[10]
罗荣, 王亮, 肖玉杰, 等. 深度学习技术在军事领域应用[J]. 指挥控制与仿真, 2020, 42(1): 1-5.
[11]
CORDÓN O. Genetic fuzzy systems: evolutionary tuning and learning of fuzzy knowledge bases[M]. Singapore: World Scientific, 2001.
[12]
ERNEST N, CARROLL D, SCHUMACHER C, et al. Genetic fuzzy based artificial intelligence for unmanned combat aerial vehicle control in simulated air combat missions[J]. Journal of Defense Management, 2016, 6(1): 2167-0374.1000144.
[13]
CABRERA I P, CORDERO P, OJEDA-ACIEGO M, et al. Fuzzy logic, soft computing, and applications [C/OL]//CABESTANY. Bio-Inspired Systems: Computational and Ambient Intelligence. Berlin, Heidelberg: Springer, 2009: 236−244.
CABRERA I P, CORDERO P, OJEDA-ACIEGO M, et al. Fuzzy logic,soft computing,and applications [C/OL]//CABESTANY. Bio-Inspired Systems: Computational and Ambient Intelligence. Berlin, Heidelberg: Springer, 2009: 236−244.
[14]
SHI Y, MIZUMOTO M, YUBAZAKI N, et al. A learning algorithm for tuning fuzzy rules based on the gradient descent method[C/OL]//Proceedings of IEEE 5th International Fuzzy Systems. New Orleans, LA, USA: IEEE, 1996, (1): 55−61.
SHI Y, MIZUMOTO M, YUBAZAKI N, et al. A learning algorithm for tuning fuzzy rules based on the gradient descent method[C/OL]//Proceedings of IEEE 5th International Fuzzy Systems. New Orleans, LA, USA: IEEE, 1996, (1): 55−61.
[15]
BEDE B. Mathematics of fuzzy sets and fuzzy logic[M]: Berlin, Heidelberg: Springer Berlin Heidelberg, 2013, 295: 978.3.642
BEDE B. Mathematics of fuzzy sets and fuzzy logic[M]: Berlin, Heidelberg: Springer Berlin Heidelberg, 2013, 295: 978.3.642
[16]
HERRERA F. Genetic fuzzy systems: taxonomy, current research trends and prospects[J/OL]. Evolutionary Intelligence, 2008, 1(1): 27−46.
[17]
ERNEST N D. Genetic fuzzy trees for intelligent control of unmanned combat aerial vehicles[D]. University of Cincinnati, 2015.
[18]
SRINIVAS M, PATNAIK L M. Adaptive probabilities of crossover and mutation in genetic algorithms[J/OL]. IEEE Transactions on Systems, Man, and Cybernetics, 1994, 24(4): 656−667.
[19]
刘朝阳, 穆朝絮, 孙长银. 深度强化学习算法与应用研究现状综述[J]. 智能科学与技术学报, 2020, 2(4): 314-326. DOI:10.11959/j.issn.2096-6652.202034