2025.06.23至2025.06.29
每周文章分享
标题: A Learning-Based Cooperative Navigation Approach for Multi-UAV Systems Under Communication Coverage
期刊: IEEE Transactions on Network Science and Engineering, vol. 12, no. 2, pp. 763 - 773, 16 December 2024
作者: Di Wu, Zhuang Cao, Xudong Lin, Feng Shu and Zikai Feng
分享人: 河海大学——郭家城
01
研究背景
多无人机系统因其灵活性和易于部署而在多个领域得到广泛应用,如农业、环境监测和灾难救援等。在通信场景中,无人机需要在飞行过程中保持与地面基站的稳定通信,同时最小化不必要的移动以优化能源效率。然而,现有的导航方法大多关注单一任务场景,忽略了无人机在导航过程中必须保持通信的情况。此外,传统的导航方法缺乏预测能力,在更复杂和未知的环境中效果有限。为了应对这些挑战,本文将合作导航问题转化为马尔可夫博弈,并引入了一种基于图神经网络(GNN)的双流图多智能体近端策略优化(双流GMAPPO)算法来解决多无人机在通信覆盖下的协同导航问题。
02
关键技术
本文提出了一种双流GMAPPO算法,该算法将MARL与GNN相结合,以解决通信覆盖下多无人机协同导航的挑战。图结构表示无人机、障碍物和目标任务点之间的关系。GNN通过聚合节点信息来提取潜在特征,从而处理这些图形结构数据。提取的特征通过双流网络与无人机的状态空间相结合,丰富了本地信息,提高了环境意识,改善了决策,并确保了更安全、更稳健的导航。
本文的主要贡献如下:
1)将通信覆盖下多无人机系统的协同导航问题被表述为马尔可夫博弈,并在包含静态和动态障碍物的环境中解决了多无人机协同导航任务。
2)将多无人机、障碍物和目标任务点建模为无人机实体图结构数据,并采用GNN提取潜在特征。这种方法使多无人机能够获得更丰富的本地信息,提高导航安全性和鲁棒性。
3)提出了一种双流GMAPPO算法,用于通信覆盖下多无人机系统的协同导航。双流网络结构集成了一个GNN模块,该模块将无人机实体图结构数据与算法的状态空间进行处理,相较于MAPPO算法,增强了状态感知并促进了更有效的合作。
03
算法介绍
(1)系统模型
图1 城市环境下通信覆盖的多无人机导航系统
如图1所示,在这种城市环境中,存在多无人机、一定数量的障碍物、目标任务点和几个地面基站。障碍物和目标任务点的位置被限制在距离边界一定距离的区域内。每架无人机在飞行区域内随机分配一个特定的目标任务点,只有当它成功到达指定目标时才会获得奖励。地面基站为多无人机系统提供通信支持,通信覆盖范围如图2所示,其中绿色阴影表示覆盖强度,深色阴影表示信号更强。在时间t,每架无人机在固定高度飞行时,仅从一个基站扇区接收通信支持。
图2 地面基站通信覆盖强度图
本文的优化目标是最大限度地提高其通信覆盖强度,并最小化到目标任务点的距离。同时保证在最佳通信覆盖范围下,保持与障碍物的安全距离以及避免与其他无人机发生碰撞。
(2)通信覆盖环境建模
首先令每个基站都位于相同高度h_BS,并分为三个扇区,每个扇区都配备一个垂直取向的八元均匀线性阵列。每个元件的辐射模式是通过组合其水平和垂直辐射模式来确定的,定义为
天线元件的总增益以dB表示为
因此,天线阵列的组合增益G以dB表示为
其中,F_ele是G_ele的算术平方根,AF表示天线阵列因子。
其次,根据环境中的建筑物是否阻碍链路,将无人机和基站扇区之间的通信链路被分为视线(LoS)或非视线(NLoS)链路。从无人机到扇区k的LoS和NLoS链路的路径损耗分别以dB表示为
在时间t时,定义H_k(t)为UAV和通信BS扇区k之间的基带等效信道。计算无人机在时间t从BS扇区k接收到的信号功率为
其中,
最后,用SINR作为评估无人机通信覆盖性能的基本标准。定义为
其中,I(t)表示在时间t为无人机提供服务的扇区,m表示当时与无人机不相关的基站。
为了在飞行中保持通信覆盖,无人机的SINR必须保持在最小阈值α以上。如果时间t的SINR低于α,则认为无人机在基站的通信覆盖范围之外。
(3)马尔可夫博弈建模
状态空间为S=(s_1,s_2,…,s_N),对于每个UAV的状态为s_i=(s_Pi,s_Ei,s_Gi)。其中s_Pi=(x_i,y_i,v_xi,v_yi,SINR_i),S_Ei=(l_gi,l_oi)表示无人机到目标任务点和附近障碍物的观测距离。s_Gi=(node,adj)表示与图相关的观察,其中node表示每个节点的观察,adj表示图的邻接矩阵。
动作空间为A=(a_1,a_2,…,a_N),对于每个UAV都有一个离散的动作空间,其初始速度定义为a_i=(v_x,v_y),并且在飞行过程中,其速度只能由于外部因素(如碰撞)而改变。
奖励函数由四部分组成,表示为
其中,
(4)双流图多智能体近邻策略优化算法
A. 图构建过程
在通信覆盖导航环境中,将无人机、目标任务点和障碍物,都定义为一个实体。在每个时间t,UAV i的实体图结构化数据表示为G_i=(V,E)。假设无人机只能观察到特定有限半径R内的障碍物或其他无人机的存在,如图3所示。
图3 通信覆盖环境下的无人机实体图
首先,图结构数据G_i中每个节点j的特征定义为
其中,p^j表示相对无人机i的位置,v^j表示相对无人机i的速度,type表示实体的类型,另外,如果实体是无人机,p^goal表示无人机与其目标任务点的距离,否则,仍然表示实体与无人机的相对位置。其次,图结构数据G_i中的每条边E都被分配了一个由邻接矩阵表示的边特征。同时将节点之间相对距离的模态值指定为边权重。
在本文中,通过嵌入层对无人机节点和边缘特征进行转换。接着使用统一消息传递(UniMP)模型对节点信息进行聚合。UniMP模型是一种图神经网络架构,它结合了图卷积网络(GCN)和图注意力网络(GAT)的优点,通过聚合邻居节点的信息来更新当前节点的特征。我们使用两层GNN架构,UniMP每层的更新定义为
其中
最后,通过UniMP模块对图结构数据进行深度特征提取的处理,UAV i聚合了其他UAV的观测信息,并获得了自己的节点特征向量S_g。
B. 具体算法
图4 双流GMAPPO算法框架
如图4所示,双流网络结构处理来自GNN的聚合节点特征S_g,在演员网络中,无人机的本地观测与节点特征Sg连接形成输入,使网络可以做出更明智的决定,生成更安全的机动,并主动避免潜在的碰撞。同时,节点特征S_g与评论网络中的全局观测信息相结合。该设计将节点特征S_g和全局观测相结合,使网络能够精确评估多无人机动作的价值。结合节点特征S_g增强了评价网络评估无人机行动有效性和准确性的能力。
04
实验结果分析
(1)实验设置
本文构建了2km×2km的城市区域场景,其中包含许多建筑物。建筑物的分布主要由α_bd=0.3,β_bd=300,γ_bd=50三个参数表示。该场景包括五个地面基站,总共有K=15个扇区。每个扇区的发射功率为P=20 dBm。φ_3dB和θ_3dB中的半功率波束宽度均设置为65°。元件增益阈值A_m为30dB。最大定向增益G_max为8 dBi。载波频率f_c为8 GHz。SINR中断阈值定义为γ_th=0 dB,噪声功率为σ^2=5 dBm。该实验涉及三架无人机、三个目标任务点、三个静态障碍物和三个动态障碍物。表I显示了双流GMAPPO算法和MARL基线算法的参数
表1 算法参数设置
(2)实验结果
A. 超参数对双流GMAPPO的影响
图5 不同学习率下双流GMAPPO的平均奖励
图5显示了双流GMAPPO算法在不同学习率lr下的平均奖励趋势。0.001的学习率提高了早期的性能增益,但导致了不稳定,表现为奖励曲线的显著波动。当学习率设置为0.0001时,算法在收敛方面遇到困难,导致进度较慢且不稳定。0.0005的学习率在效率和稳定性之间提供了最佳的权衡,产生了最高的平均回报。
图6 不同折扣系数下双流GMAPPO的平均回报
图6显示了折扣因子γ对算法平均奖励的影响。更高的折扣系数加速了早期收敛,并优先考虑长期奖励,使最终的收敛奖励值更大。相比之下,较低的折扣
侧重于短期结果,导致最终回报较低。
B. 不同MARL算法的性能比较
图7显示了多无人机协同导航任务中的平均奖励趋势。在训练的早期,所有算法都表现出奖励的下降,因为它们优先考虑探索。这一探索对于无人机建立态势感知和提高长期性能至关重要。双流GMAPPO算法收敛约24000次,平均奖励稳定在约-700,优于其他算法。相比之下,其他算法收敛速度较慢,奖励值较低,暴露了传统MARL方法在这项任务中的局限性。MADDPG算法表现最差,显示训练不稳定,奖励值约为-880。
图7 不同MARL算法的平均奖励
图8显示了使用不同MARL算法的多无人机系统在训练中通信返回的变化。通信返回评估了每种算法在复杂环境中将无人机保持在强通信覆盖区域内的能力。在早期训练过程中,由于算法处于探索阶段,执行了许多次优策略,因此通信回报较低且波动较大。在这些算法中,双流GMAPPO表现最好,通信返回收敛在8000次左右,稳定在-120次左右。相比之下,其他算法的收敛速度较慢,最终值较低。
图8 不同MARL算法的通信返回
05
总结
本文通过提出一种双流GMAPPO算法,通过采用双流网络结构,将环境中的实体建模为图结构数据,并利用GNN进行信息聚合。这种方法增强了无人机感知环境变化的能力,降低了碰撞的可能性。通过仿真实验证明了双流GMAPPO算法的优越性,该算法在收敛速度和平均奖励方面明显优于其他算法。它在通信返回方面也表现出色,减少了冲突的发生。
END
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
感谢关注!
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...