通信受限下多无人机协同运动目标搜索

引用本文

肖东, 江驹, 周俊, 等. 通信受限下多无人机协同运动目标搜索[J]. 哈尔滨工程大学学报, 2018, 39(11): 1823-1829. DOI: 10.11990/jheu.201705047.

XIAO Dong, JIANG Ju, ZHOU Jun, et al. Multi-UAV cooperation search for moving targets under limited communication[J]. Journal of Harbin Engineering University, 2018, 39(11): 1823-1829. DOI: 10.11990/jheu.201705047.

基金项目

国家自然科学基金项目（61673209）；南京航空航天大学研究生创新基地（实验室）开放基金项目（kfjj20160318）

通信作者

肖东, E-mail: gosty@foxmail.com

作者简介

肖东(1993-), 男, 硕士研究生;
江驹(1963-), 男, 教授, 博士生导师

文章历史

收稿日期：2017-05-10
网络出版日期：2018-07-02

Contents Abstract Full text Figures/Tables PDF

通信受限下多无人机协同运动目标搜索

肖东, 江驹, 周俊, 余朝军

南京航空航天大学自动化学院, 江苏南京 210016

收稿日期：2017-05-10；网络出版日期：2018-07-02

基金项目：国家自然科学基金项目（61673209）；南京航空航天大学研究生创新基地（实验室）开放基金项目（kfjj20160318）

作者简介：肖东(1993-), 男, 硕士研究生;
江驹(1963-), 男, 教授, 博士生导师.

通信作者：肖东, E-mail: gosty@foxmail.com.

摘要：针对搜索问题中的目标通信限制和运动特性，采用连通矩阵建立了无人机通信拓扑结构。基于贝叶斯理论利用多架无人机联合探测信息对目标存在的后验概率进行更新，通过计算目标转移概率密度得到动态时敏目标的预测概率，提高了目标存在概率图的准确性；设计了一种调度信息素，建立了数字信息素图使用方法及更新机理，增强了无人机的协作性。在此基础上设计了合理的UAV协同搜索性能指标函数，最后在分布式模型预测控制框架下对性能指标函数进行优化求解，仿真结果表明两种搜索图能够引导无人机协同搜索，加强了机间合作，提高了搜索效率。

关键词：无人机协同搜索通信受限运动目标数字信息素图贝叶斯理论

Multi-UAV cooperation search for moving targets under limited communication

XIAO Dong, JIANG Ju, ZHOU Jun, YU Chaojun

College of Automation Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China

Abstract: An unmanned aerial vehicle (UAV) communication topology structure is built by a connectivity matrix Considering the UAV communication constraints and target motion characteristics in search problems. The approach is to update the target existence posteriori probability by multi-UAV detection information based on Bayesian theory and then derive the prediction probability of the dynamic time-sensitive target by calculating the target transition probability density. The goal is to increase the accuracy of the target provability map (TPM). This paper describes designing a dispatch pheromone, establishing a digital pheromone usage method, and the updating the theory to enhance the cooperation of UAVs. On this basis, reasonable UAV cooperative search performance function is designed. At last, the approach will optimize the performance index function in the framework of distributed model predictive control (DMPC). The simulation results show that the two search graph can guide the UAV collaborative search, strengthen the cooperation between machines and improve the search efficiency.

Keywords: unmanned aerial vehicle (UAV) cooperative search limited communication moving target digital pheromone Bayesian theory

目前，无人机(unmanned aerial vehicle, UAV)已被广泛应用于侦察监视^[1]、目标跟踪^[2]、对地打击、电子对抗、战效评估等军事领域, 但从各国无人系统发展来看，侦察与监视任务仍然是当前无人系统的基本使命^[3-5]，多UAV协同搜索与监视依然是国内外多平台协同控制领域的一个研究热点^[6-8]。

多UAV协同搜索是UAV执行其他作战任务的前提条件，采用多UAV协同配合的方式能够更好地实现对任务区域的搜索。因此，设计一种有效的协同搜索方法来保证多UAV之间的协同显得尤为重要。文献[7]采用概率模型描述目标存在于空间某位置的可能性，并建立了基于概率的搜索决策方法。文献[8]设计了一种目标概率图的更新规则，建立了基于目标概率图的信息增益来衡量搜索效果的决策方法。文献[9]在时域滚动决策框架下，将集中式优化决策转化为分布式优化决策，有效的降低了搜索决策的问题规模。文献[10]构造了数字荷尔蒙信息，建立了扩展搜索图，基于扩展搜索图进行决策取得了较高的搜索效率。

目前国内外研究大都是建立在全局通信条件下，针对静态目标进行搜索^[11-12]。本文在考虑通信距离限制下针对运动目标的协同搜索建立了无人机通信拓扑建构；对传统的目标概率图更新方法进行改进，建立了探测更新、预测更新方法；设计了一种新的数字信息素——调度信息素，并建立了数字信息素图运算机理。

1 无人机协同目标搜索问题描述 1.1 搜索环境描述

任务区域D中存在N_T个运动的目标，N_V架无人机在接收到指令后前往任务区域搜索目标，已知目标部分运动状态信息，无人机之间有一定的信息交互能力。为了简化协同搜索决策空间，对任务区域进行栅格化，如图 1所示，栅格的长度选取为无人机平均平飞速度在一个决策周期内的飞行距离，无人机的寻优空间变为8个栅格。记栅格的长宽分别为L_x、L_y，单元栅格为(i, j), i∈{1, 2, …, N_x}，j∈{1, 2, …, N_y}。

	Download: JPG larger image
图 1 任务区域栅格化和无人机运动空间 Fig. 1 Gridlization of task area and UAV flight space

1.2 无人机通信拓扑

假定无人机以广播的形式相互发送信息，记UAV_i的信息传播距离为R_i，采用有向图G=﹤V, E﹥表示无人机之间的信息传递结构，其中V为无人机集合，E={(i→j)|r_ij＜R_i}，r_ij表示UAV_i与UAV_j之间的距离。其邻接矩阵为A(G)=(a_ij)_{N_v×N_v}, 其中

$ {a_{ij}} = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 1,\\ 0, \end{array}&\begin{array}{l} {r_{ij}} \le {R_i}\\ {r_{ij}} > {R_i} \end{array} \end{array}} \right. $

(1)

考虑无人机对收到信息的转发，采用连通矩阵来表示无人机群的通信拓扑。当且仅当有向图G中存在一条从i出发到j的路径，UAV_j可以接收到UAV_i发送的信息，记连通矩阵为C=(c_ij)_{N_v×N_v}，连通矩阵可以通过邻接矩阵A获得^[11]：

$ \mathit{\boldsymbol{C}} = \mathit{\boldsymbol{A}} \oplus {\mathit{\boldsymbol{A}}^2} \oplus , \cdots , \oplus {\mathit{\boldsymbol{A}}^n} $

(2)

式中：⊕为布尔和运算。c_ij=1表示UAV_i的搜索信息可以发送给UAV_j，UAV_i可以接收到信息的无人机集合Re_i为

$ {{\mathop{\rm Re}\nolimits} _i} = \left\{ {j\left| {{c_{ij}} = 1} \right.} \right\} $

(3)

2 搜索图模型 2.1 目标概率分布图

栅格(i, j)的目标存在概率为p_ij∈[0, 1]。设k时刻UAV_n保持的概率分布图矩阵(TPM)为TPM_n(k)

$ {\rm{TP}}{{\rm{M}}_n}\left( k \right) = \left\{ {{p_{ij}}\left( k \right)\left| {i = 1,2, \cdots ,{N_x},j = 1,2, \cdots ,{N_y}} \right.} \right\} $

(4)

2.1.1 概率图的初始化

UAV在接收到任务之后需要一定的时间才能到达任务区域，在这段时间内目标的概率分布是动态变化的。

根据先验信息的不同，将目标的位置散布目标分为以下四种类型^[10]：

1) 目标初始位置未知。

若目标初始位置信息未知，那么目标可能位于任务区域D中的任何一个地方，在任务区域的分布为均匀分布，其概率密度函数为

$ f\left( {x,y} \right) = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} \frac{1}{{{N_x} \cdot {N_y} \cdot {L_x} \cdot {L_y}}},\\ 0, \end{array}&\begin{array}{l} \left( {x,y} \right) \in D\\ \left( {x,y} \right) \notin D \end{array} \end{array}} \right. $

(5)

式中f(x, y)表示无人机进入目标区域时(x, y)处目标的概率密度。

2) 目标的初始位置已知，目标速度未知。

记先验信息中目标初始位置为(x_*, y_*)，考虑情报的准确性，此时目标实际的位置(x₀, y₀)为一个随机变量，x₀、y₀相互独立，且分别服从二维正态分布N=(x_*, δ₀²)，N=(y_*, δ₀²)，其中δ₀为常数，与先验信息的准确性相关，此时(x₀, y₀)的概率密度函数为

$ f\left( {{x_0},{y_0}} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}\delta _0^2}}{e^{ - \left( {\frac{{{{\left( {{x_0} - {x_ * }} \right)}^2}}}{{2\delta _0^2}} + \frac{{{{\left( {{y_0} - {y_ * }} \right)}^2}}}{{2\delta _0^2}}} \right)}} $

(6)

经过t₀时间后，UAV到达任务区域开始执行任务。这段时间内目标的位置发生了变化，目标的运动是一个独立增量过程，采用维纳随机过程描述目标的运动，X(t)~N(0, δ_e²t₀)，Y(t)~N(0, δ_e²t₀)，概率密度函数为

$ f\left( {x,y} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}\left( {\delta _0^2 - \delta _e^2{t_0}} \right)}}{e^{ - \left( {\frac{{{{\left( {x - {x_ * }} \right)}^2}}}{{2\left( {\delta _0^2 - \delta _e^2{t_0}} \right)}} + \frac{{{{\left( {y - {y_ * }} \right)}^2}}}{{2\left( {\delta _0^2 - \delta _e^2{t_0}} \right)}}} \right)}} $

(7)

式中δ_e²为常数, 表示维纳随机过程方差。

3) 目标初始位置和速度大小已知，运动方向未知。

记目标运动速度大小为v，t₀时间后UAV进入任务区域，由于目标的速度大小是固定的，目标的概率密度发生了转移，点(x, y)处的概率密度f(x, y)是由以(x, y)为圆心, vt₀为半径的圆弧上转移而来。

$ f\left( {x,y} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}v{t_0}}}\int\limits_L {{f_0}\left( {{x_0},{y_0}} \right){\rm{d}}s} $

(8)

式中:L是以(x, y)为圆心, vt₀为半径的圆，使用第一型曲线积分进行变换, 有

$ f\left( {x,y} \right) = \frac{1}{{{{\left( {2{\rm{ \mathsf{ π} }}{\delta _0}} \right)}^2}}}\int_{\theta = 0}^{2{\rm{ \mathsf{ π} }}} {{{\rm{e}}^{ - \left( {\frac{{{{\left( {x + v{t_0} \cdot \cos \theta - {x_ * }} \right)}^2}}}{{2\delta _0^2}} + \frac{{{{\left( {y + v{t_0} \cdot \sin \theta - {y_ * }} \right)}^2}}}{{2\delta _0^2}}} \right)}}{\rm{d}}\theta } $

(9)

4) 目标初始位置、运动速度和运动方向均为已知。

目标运动速度大小为v，运动方向为θ，当无人机进入任务区域时，目标位置分布相对于实际的位置(x₀, y₀)发生偏移，根据式(6)可以得概率密度函数为

$ f\left( {x,y} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}\delta _0^2}}{{\rm{e}}^{ - \left( {\frac{{{{\left( {x - v{t_0} \cdot \cos \theta - {x_ * }} \right)}^2}}}{{2\left( {\delta _0^2 + \delta _e^2} \right)}} + \frac{{{{\left( {y - v{t_0} \cdot \sin \theta - {y_ * }} \right)}^2}}}{{2\left( {\delta _0^2 + \delta _e^2} \right)}}} \right)}} $

(10)

栅格(i, j)中目标存在概率p_ij为

$ {p_{ij}} = \int_{{x_{ij}} - \frac{{{L_x}}}{2}}^{{x_{ij}} + \frac{{{L_x}}}{2}} {\int_{{y_{ij}} - \frac{{{L_y}}}{2}}^{{y_{ij}} + \frac{{{L_y}}}{2}} {f\left( {x,y} \right){\rm{d}}x{\rm{d}}y} } $

(11)

归一化处理后可得到初始目标概率分布矩阵。

2.1.2 概率图的联合搜索更新

随着搜索任务的推进, 无人机对环境和目标的认知不断加深，搜索图需要不断的更新。本文基于贝叶斯准则利用多架无人机联合搜索信息对目标概率图进行更新。

为了表示无人机协同探测更新，首先定义如下事件：A_m为目标位于栅格m处；A_m为目标不位于m处；D_mⁱ为UAV_i在栅格m处探测到目标；D_mⁱ为UAV_i在m处没有探测到目标。

记UAV的探测概率为P_D，P_D=P(D_mⁱ|A_m)，P(D_mⁱ|A_m)=1-P_D，虚警概率为P_F，P_F=P(D_mⁱ|A_m)，P(D_mⁱ|A_m)=1-P_F。

UAV_i接收信息的无人机集合为Re_i，记N_i=|Re_i|，UAV_i利用Re_i中的无人机的探测信息，对目标概率分布图进行更新，后验概率为

$ P\left( {{A_m}\left| {\left( {DA_{{n_1}}^{{i_1}},DA_{{n_2}}^{{i_2}}, \cdots ,DA_{{n_{{N_i}}}}^{{i_{{N_i}}}}} \right)} \right.} \right) $

(12)

式中:DA_{n_k}^i_k∈{D_{n_k}^i_k，D_{n_k}^i_k}，表示集合Re_i中第k架无人机对对栅格n_k的探测结果，由贝叶斯公式可知:

$ \begin{array}{*{20}{c}} {P\left( {{A_m}\left| {\left( {DA_{{n_1}}^{{i_1}},DA_{{n_2}}^{{i_2}}, \cdots ,DA_{{n_{{N_i}}}}^{{i_{{N_i}}}}} \right)} \right.} \right) = }\\ {\frac{{\left. {P\left( {\left( {DA_{{n_1}}^{{i_1}},DA_{{n_2}}^{{i_2}}, \cdots ,DA_{{n_{{N_i}}}}^{{i_{{N_i}}}}} \right)} \right)\left| {{A_m}} \right.} \right)P\left( {{A_m}} \right)}}{{P\left( {DA_{{n_1}}^1,DA_{{n_3}}^2, \cdots ,DA_{{n_{{N_i}}}}^{{N_i}}} \right)}}} \end{array} $

(13)

由于任意两架无人机的探测活动都是相互独立的，可知：

$ \left. {P\left( {\left( {DA_{{n_1}}^{{i_1}},DA_{{n_2}}^{{i_2}}, \cdots ,DA_{{n_{{N_i}}}}^{{i_{{N_i}}}}} \right)} \right)\left| {{A_m}} \right.} \right) = \prod\limits_{k = 1}^{{N_i}} {P\left( {DA_{{n_{\rm{k}}}}^{{i_k}}\left| {{A_m}} \right.} \right)} $

(14)

用全概率将P(DA_n₁¹, DA_n₃², …, DA_{n_{N_i}}^N_i)展开有

$ \begin{array}{*{20}{c}} {P\left( {DA_{{n_1}}^1,DA_{{n_3}}^2, \cdots ,DA_{{n_{{N_i}}}}^{{N_i}}} \right) = }\\ {\sum\limits_{m = 1}^{Lx \times Ly} {\left( {\prod\limits_{k = 1}^{{N_i}} {P\left( {DA_{{n_{\rm{k}}}}^{{i_k}}\left| {{A_m}} \right.} \right)P\left( {{A_m}} \right)} } \right)} } \end{array} $

(15)

结合式(13), (14), (15)可知后验概率为

$ \begin{array}{*{20}{c}} {P\left( {{A_m}\left| {\left( {DA_{{n_1}}^{{i_1}},DA_{{n_2}}^{{i_2}}, \cdots ,DA_{{n_{{N_i}}}}^{{i_{{N_i}}}}} \right)} \right.} \right) = }\\ {\frac{{\prod\nolimits_{k = 1}^{{N_i}} {P\left( {DA_{{n_{\rm{k}}}}^{{i_k}}\left| {{A_m}} \right.} \right)P\left( {{A_m}} \right)} }}{{\sum\limits_{m = 1}^{Lx \times Ly} {\left( {\prod\nolimits_{k = 1}^{{N_i}} {P\left( {DA_{{n_{\rm{k}}}}^{{i_k}}\left| {{A_m}} \right.} \right)P\left( {{A_m}} \right)} } \right)} }}} \end{array} $

(16)

2.1.3 概率图的目标预测更新

无人机两次决策时间间隔为Δt，考虑目标的时敏运动特性，在Δt这段时间内目标位置发生了变化，为了保证概率图的准确性，对无人机的运动进行预测，相应的TPM更新称为预测更新。

记k-1时刻(x, y)处目标存在概率密度为f(x^k-1, y^k-1)，k时刻概率密度f(x^k, y^k)可以通过全概率公式表示为

$ \begin{gathered} f\left( {{x^k},{y^k}} \right) = \iint {f\left( {\left( {{x^k},{y^k}} \right)\left| {\left( {{x^{k - 1}},{y^{k - 1}}} \right)} \right.} \right) \cdot } \hfill \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;f\left( {{x^{k - 1}},{y^{k - 1}}} \right){\text{d}}{x^{k - 1}}{\text{d}}{y^{k - 1}} \hfill \\ \end{gathered} $

(17)

由式(17)可知，获得k时刻目标概率密度的关键问题就在于条件概率密度f((x^k, y^k)|(x^k-1, y^k-1))，根据目标运动先验信息的不同，条件概率可以分为以下三种：

1) 速度大小和方向均未知，在这段时间内目标的运动是一个独立增量过程，采用维纳随机过程来估计k-1时刻到k时刻这Δt时间内目标的运动过程，其条件概率密度为

$ f\left( {\left( {{x^k},{y^k}} \right)\left| {\left( {{x^{k - 1}},{y^{k - 1}}} \right)} \right.} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}\delta _e^2\Delta t}}{{\rm{e}}^{ - \left( {\frac{{{{\left( {{x^k} - {x^{k - 1}}} \right)}^2}}}{{2\delta _e^2\Delta t}} + \frac{{{{\left( {{y^k} - {y^{k - 1}}} \right)}^2}}}{{2\delta _e^2\Delta t}}} \right)}} $

(18)

2) 速度大小已知方向未知，一段时间后目标均匀分布在以(x^k-1, y^k-1)为圆心，vΔt为半径的圆弧上，条件概率密度为

$ \begin{array}{*{20}{c}} {f\left( {\left( {{x^k},{y^k}} \right)\left| {\left( {{x^{k - 1}},{y^{k - 1}}} \right)} \right.} \right) = }\\ {\left\{ {\begin{array}{*{20}{c}} \begin{array}{l} \frac{1}{{2{\rm{ \mathsf{ π} }}v{t_0}}},\\ 0, \end{array}&\begin{array}{l} {\left( {x - {x_0}} \right)^2} + {\left( {y - {y_0}} \right)^2} = {\left( {v\Delta t} \right)^2}\\ 其他 \end{array} \end{array}} \right.} \end{array} $

(19)

3) 速度大小已知方向已知，此时条件概率密度为

$ \begin{array}{*{20}{c}} {f\left( {\left( {{x^k},{y^k}} \right)\left| {\left( {{x^{k - 1}},{y^{k - 1}}} \right)} \right.} \right) = }\\ {\left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 1,\\ 0, \end{array}&\begin{array}{l} {x^k} = {x^{k - 1}} + v\cos \theta ,{y^k} = {y^{k - 1}} + v\sin \theta \\ 其他 \end{array} \end{array}} \right.} \end{array} $

(20)

对概率密度f(x^k, y^k)进行积分可以得到栅格的概率，归一化后得到预测更新后的目标概率图。

2.2 数字信息素图

本文采用数字信息素策略，通过对全局栅格赋予信息素值，构成人工势场，无人机通过感知信息素的状态进行规划决策，无人机的行为再反过来对信息素的分布产生影响，最终可以产生协调的结果。

在无人机协同搜索过程中，信息素需要起到两个至关重要的作用：

1) 避免重复搜索无人机群已搜索过的栅格；

2) 合理协调无人机群避免多架无人机搜索同一栅格。

在以文献[5]为代表的文献中，设计了吸引信息素和排斥信息素。这种信息素运算机理无法调度无人机避免多架无人机探索同一栅格。当两架无人机距离较近时，由于无人机之间的信息沟通，两架无人机所获得的信息完全相同，会做出相同的决策前往同一栅格搜索。为了避免这种情况，本文设计了一种全新的信息素——调度信息素，全部信息素设定如下:

1) 调度信息素

S_d(t)=(s_d(i, j, t))_{N_x×N_y}表示t时刻调度信息素矩阵。其中s_d(i, j, t)表示t时刻栅格(i, j)的调度信息素量，初始时刻调度信息素量为0。

在时域滚动决策中, k时刻UAV_n的N步最优决策序列U_n(k)=((x₁, y₁), (x₂, y₂), …, (x_N, y_N))，U_n(k)表示在当前信息情况下, 无人机连续搜索N个栅格，所能获得的最大收益序列。在通信的过程中UAV_n会将U_n(k)发送给周围无人机。

UAV_n可以接收到信息的无人机集合为Re_n，UAV_n可以接收到其他无人机决策序列为U_m(k), m∈Re_n。定义UAV_n的k步占用矩阵

$ \mathit{\boldsymbol{D}}_n^k = {\left( {{d_{ij}}} \right)_{{N_x} \times {N_y}}} $

(21)

式中：D_n^k(d_ij), k≤N表示UAV_n所接收最优决策序列中栅格(i, j)出现在第k步中的次数。基于此t时刻UAV_n调度信息素矩阵S_d(t)定义为

$ {\mathit{\boldsymbol{S}}_\mathit{\boldsymbol{d}}}\left( \mathit{\boldsymbol{t}} \right) = \sum\limits_{k = 1}^N {\sum\limits_{l = 1}^k {{{\rm{e}}^{\frac{{1 - \left( {k - l} \right)}}{N}}}{d_d}\mathit{\boldsymbol{U}}_n^l \cdot D_n^k} } $

(22)

式中: $ {{\rm{e}}^{\frac{{1 - \left( {k - l} \right)}}{N}}} $为动态系数，d_d为调度信息素释放常量，(U_m^l)_{N_x×N_y}为0, 1矩阵, 当且仅当UAV_m在时域滚动决策中第l步经过栅格(i, j)，U_m^l(i, j)=1。在每个决策周期，无人机根据接收到的决策序列重新生成调度矩阵，在进行决策时无人机会避免朝向其他无人机可能搜索的栅格前进。

2) 吸引信息素

S_α(t)=(s_α(i, j, t))_{N_x×N_y}表示t时刻吸引信息素矩阵，其中s_α(i, j, t)表示t时刻栅格(i, j)的信息素浓度，初始化为常量d_α，其更新规则如下^[5]

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{S}}_\mathit{\boldsymbol{\alpha }}}\left( t \right) = \left( {1 - {\mathit{\boldsymbol{E}}_\alpha }} \right)\left( {\left( {1 - {\mathit{\boldsymbol{G}}_\alpha }} \right)\left[ {\left( {t - 1} \right) + } \right.} \right.}\\ {\left. {\left. {{d_\alpha }\left( {\mathit{\boldsymbol{E}} - \mathit{\boldsymbol{V}}} \right)} \right] + \mathit{\boldsymbol{G}}{\mathit{\boldsymbol{P}}_\alpha }\left( t \right)} \right)} \end{array} $

(23)

式中:E_α、G_α分别表示吸引信息素的挥发系数和传播系数，d_α为常数表示吸引信息素释放常量，GP_α(t)为信息素传播矩阵。V=(v_ij)_{N_x×N_y}是0, 1矩阵，对于UAV_n而言，当且仅当∃$\tilde n$∈Re_n，v_ij=1，使得UAV_{$\tilde n$}上一周期搜索栅格为(i, j)。吸引信息素只在无人机没有搜索过的栅格释放，通过吸引信息素可以引导无人机前往未搜索过的栅格。

3) 排斥信息素

S_r(t)=(s_r(g_ij, t))_{N_x×N_y}表示t时刻排斥信息素矩阵，其中，s_r(g_ij, t)表示t时刻栅格(i, j)的信息素浓度，更新规则如下^[4]

$ \begin{array}{l} {\mathit{\boldsymbol{S}}_r}\left( t \right) = \left( {1 - {\mathit{\boldsymbol{E}}_r}} \right)\left[ {\left( {1 - {\mathit{\boldsymbol{G}}_r}} \right)\left( {{\mathit{\boldsymbol{S}}_r}\left( {t - 1} \right) + } \right.} \right.\\ \;\;\;\;\;\;\;\;\;\;\;\left. {\left. {{d_r}\mathit{\boldsymbol{V}}} \right) + \mathit{\boldsymbol{G}}{\mathit{\boldsymbol{P}}_r}\left( {\rm{t}} \right)} \right] \end{array} $

(24)

式中：E_r、G_r分别表示吸引信息素的挥发系数和传播系数，d_r为排斥信息素释放常量，GP_α(t)为信息素传播矩阵。排斥信息素只在无人机群上一周期访问过的栅格释放，通过排斥信息素可以避免无人机搜索无人机群已搜素过的栅格。

3 基于模型预测控制的协同搜索决策 3.1 模型预测控制的决策模型

假定单架无人机的离散状态方程为

$ x\left( {k + 1} \right) = f\left( {x\left( k \right),u\left( k \right)} \right) $

(25)

$ \begin{array}{l} X\left( k \right) = \left[ {x\left( {k + 1\left| k \right.} \right),x\left( {k + 2\left| k \right.} \right), \cdots ,} \right.\\ \;\;\;\;\;\;\;\;\;\;\;\left. {x\left( {k + N\left| k \right.} \right)} \right]\\ U\left( k \right) = \left[ {u\left( {k\left| k \right.} \right),u\left( {k + 1\left| k \right.} \right), \cdots ,} \right.\\ \;\;\;\;\;\;\;\;\;\;\;\left. {x\left( {{\rm{k}} + N - 1\left| k \right.} \right)} \right] \end{array} $

(26)

在预测时域内将UAV的总体性能指标记为J(X(k)，U(k))。

综上所述，可得k时刻UAV搜索的优化模型为

$ \begin{array}{*{20}{c}} {{U^ * }\left( k \right) = \arg \mathop {\max }\limits_{U\left( k \right)} J\left( {X\left( k \right),U\left( k \right)} \right)}\\ {{\rm{s}}.{\rm{t}}.\left\{ \begin{array}{l} x\left( {k + q + 1} \right) = f\left( {x\left( {k + q\left| k \right.} \right),} \right.\\ \left. {u\left( {k + q\left| k \right.} \right)} \right),q = 0,1, \cdots ,N - 1\\ x\left( {k\left| k \right.} \right) = x\left( k \right)\\ G\left( {x\left( k \right),u\left( k \right)} \right) \le 0 \end{array} \right.} \end{array} $

(27)

U^*(k)={u^*(k|k), u^*(k+1|k), …, u^*(k+N-1|k)}为最优任务序列。G(x(k), u(k))为无人机约束条件。将最优任务决策的第一项作为无人机k时刻的当前任务决策，即u(k)=u^*(k|k)。

3.2 建立UAV搜索性能指标函数

本文综合考虑UAV发现目标能力、UAV之间协调合作能力，从而建立了发现目标收益，机间协同收益，描述如下:

1) 发现目标收益。

发现目标收益是UAV在搜索程中，通过机载传感器不断探测发现目标的可能，定义如下

$ {J_t}\left( k \right) = \sum\limits_{q = 1}^N {{e^{\frac{{1 - q}}{N}}}\log \frac{1}{{1 - p\left( {k + q} \right)}}} $

(28)

式中：p(k+q)表示在预测时域内第q个周期无人机所在栅格目标存在概率。${{\rm{e}}^{\frac{{1 - q}}{N}}}$∈[0, 1]为预测时域的动态系数，考虑到预测周期越长，概率图的准确性越低，采用这种动态系数可以平衡预测概率图准确性的影响。J_t(k)作为目标收益能够引导无人机前往目标存在概率较大的区域。

2) 机间协同收益J_c。

$ \begin{array}{l} {J_c}\left( k \right) = - \alpha {s_d}\left( k \right) + \\ \;\;\;\;\;\sum\limits_{q = 1}^N {\left[ {{e^{\frac{{1 - q}}{N}}}\left( {\beta {s_a}\left( {k + {\rm{q}}} \right) - \gamma {s_r}\left( {k + q} \right)} \right)} \right]} \end{array} $

(29)

式中：s_p(k)表示第k个周期无人机所处位置的调度信息素强度，s_a(k+q)、s_r(k+q)分别表示在预测时域内第q个周期无人机所处位置的吸引信息素强度，排斥信息素强度，${{\rm{e}}^{\frac{{1 - q}}{N}}}$为动态系数，α、β、γ为常数系数，以J_c(k)作为协同收益，可以引导无人搜索未搜索栅格，且相互协调避免前往同一栅格。

在时域滚动决策中，由本地状态X(k)和本地决策输入U(k)所产生的本地搜索效能J(X(k), U(k))为

$ J\left( {X\left( k \right),U\left( k \right)} \right) = {\lambda _1}{J_t} + {\lambda _2}{J_c} $

(30)

式中：λ₁、λ₂分别为发现目标收益和机间协同收益的系数。

4 仿真与分析

为了验证本文方法的有效性，针对运动目标建立分布式多UAV协同搜索仿真平台，设置滚动时域长度N=5，仿真参数设置如下：

1) 任务区域大小为30 km×30 km，将任务区域均匀划分成30×30的栅格，每个栅格大小为1 km×1 km。

2) 任务区域中目标个数N_T=12，四种目标各3个，目标的运动状态使用相应的概率分布随机产生，初始位置方差δ₀=10，维纳随机过程参数δ_e=8，图 2为根据先验信息生成的目标概率分布图。

	Download: JPG larger image
图 2 基于先验信息的初始目标概率图 Fig. 2 Initial target probability map based on prior information

3) 无人机个数N_v=10，广播距离R_c=10 km，探测概率P_D=0.9，虚警概率P_F=0.1，进入任务区域花费时间t₀=20 s，决策时间间隔Δt=5 s。

4) 吸引信息素挥发系数G_α=0.3，传播系数E_α=0.4，释放常量d_α=1；排斥信息素挥发系数G_r=0.3，传播系数E_r=0.4，释放常量d_r=10，调度信息素释放常量d_d=5。

图 3为某次仿真中为步长为150和300时的无人机飞行轨迹图，不同颜色的直线代表不同的无人机飞行路径，从图中可以看出各个无人机搜索的轨迹少有重合，搜索到400步时无人机已经覆盖了绝大多数栅格，图 4为仿真中无人机群发现目标数，步长为270时发现了全部目标。

	Download: JPG larger image
图 3 无人机搜索轨迹 Fig. 3 Flight path of multi-UAV cooperative search

	Download: JPG larger image
图 4 无人机群发现目标数 Fig. 4 Multi-UAV find target num

分析滚动时域信息素的作用，在10×10的任务区域放置一个目标，用两架无人机进行搜索，先验信息目标位于栅格(5, 4)处，目标速度大小和方向未知，两架无人机初始位置分别位于栅格(2, 1)、(6, 1)。目标的概率分布是以栅格(5, 4)为中心的二维正态分布。在没有调度信息素的作用下两架无人机的最优决策序列都指向了目标存在概率最大的栅格(5, 4)，如图 5(a)；在有调度信息素的作用下，由于有其他无人机搜索栅格(5, 4)，会导致其收益变小，从而使得无人机选择其他的决策序列如图 5(b)。对比有无调度信息素两种情况进行仿真，N_V=10，N_T=12，分别进行了20次仿真，取平均结果，每次仿真步长为400。由图 6可以看出，在有调度信息素仿真中平均发现目标比例高于没有调度信息素的平均发现目标比率。证明了调度信息素的有效性。

	Download: JPG larger image
图 5 调度信息素作用 Fig. 5 dispatch pheromone function

	Download: JPG larger image
图 6 有无调度信息素搜索效率对比 Fig. 6 Search efficiency comparison of use and not use dispatch pheromone

5 结论

1) 使用目标概率分布图描述了目标在任务区域的分布，建立了目标概率分布图的初始化方法，探测更新和预测更新策略，三种策略准确地描述了运动目标的分布情况和变化过程，提高了搜索效率。

2) 使用数字信息素图描述了无人机群的搜索状态，设计吸引信息素图，排斥信息素图和调度信息素图三种信息素图和更新机理，通过信息素图可以协调多架无人机搜索，加强了机间合作。

参考文献

[1]	NIGAM N. The multiple unmanned air vehicle persistent surveillance problem:a review[J]. Machines, 2014, 2(1): 13-72. DOI:10.3390/machines2010013 (0)
[2]	王林, 彭辉, 朱华勇, 等. 复杂环境下多无人机协作式地面移动目标跟踪[J]. 控制理论与应用, 2011, 28(3): 300-308. WANG Lin, PENG Hui, ZHU Huayong, et al. Cooperative tracking of ground moving target using unmanned aerial vehicles in cluttered environment[J]. Control theory & applications, 2011, 28(3): 300-308. (0)
[3]	Office of the Secretary of Defense. Unmanned systems integrated roadmap FY2013-2038[R]. Washington: United States Department of Defense, 2013. (0)
[4]	United States Air Force. RPA vector: vision and enabling concepts 2013-2038[R]. Washington: Department of Defense, 2014. (0)
[5]	JI Yong A D U, ZHANG F M B, MAO H B C, et al. Game theory based multi-UAV cooperative searching model and fast solution approach[J]. Journal of Shanghai Jiaotong University, 2013, 47(4): 667-673. (0)
[6]	沈东, 魏瑞轩, 祁晓明, 等. 基于MTPM和DPM的多无人机协同广域目标搜索滚动时域决策[J]. 自动化学报, 2014, 40(7): 1391-1403. SHEN Dong, WEI Ruixuan, QI Xiaoming, et al. Receding horizon decision method based on MTPM and DPM for multi-UAVs cooperative large area target search[J]. Acta automatica sinica, 2014, 40(7): 1391-1403. (0)
[7]	HU Jinwen, XIE Lihua, XU Jun, et al. Multi-agent cooperative target search[J]. Sensors, 2014, 14(6): 9408-9428. DOI:10.3390/s140609408 (0)
[8]	KHAN A, YANMAZ E, RINNER B. Information merging in multi-UAV cooperative search[C]//IEEE International Conference on Robotics and Automation. IEEE, 2014: 3122-3129. (0)
[9]	BERTUCCELLI L F, HOW J P. Search for dynamic targets with uncertain probability maps[C]//Proceedings of 2006 American Control Conference. Minneapolis, Minnesota, USA, 2006: 737-742. (0)
[10]	彭辉, 沈林成, 朱华勇. 基于分布式模型预测控制的多UAV协同区域搜索[J]. 航空学报, 2010, 31(3): 593-601. PENG Hui, SHEN Lincheng, ZHU Huayong. Multiple UAV cooperative area search based on distributed model predictive control[J]. Acta aeronautica et astronautica sinica, 2010, 31(3): 593-601. (0)
[11]	田菁, 陈岩, 沈林成. 不确定环境中多无人机协同搜索算法[J]. 电子与信息学报, 2007, 29(10): 2325-2328. TIAN Jing, CHEN Yan, SHEN Lincheng. Cooperative search algorithm for multi-UAVs in uncertainty environment[J]. Journal of electronics & information technology, 2007, 29(10): 2325-2328. (0)
[12]	刘重, 高晓光, 符小卫. 带信息素回访机制的多无人机分布式协同目标搜索[J]. 系统工程与电子技术, 2017, 39(9): 1998-2011. LIU Zhong, GAO Xiaoguang, FU Xiaowei. Multi-UAVs distributed cooperative target search algorithm with controllable revisit mechanism based on digital pheromone[J]. Systems engineering and electronics, 2017, 39(9): 1998-2011. (0)
[13]	PALLA N. Graph connectivity by the adjacency matrix[J]. Far east journal of applied mathematics, 2003, 12(3): 189-225. (0)