每周文章分享
2025.10.27至2025.11.02
标题: Multiagent RL-Based Joint Trajectory Scheduling and Resource Allocation in NOMA-Assisted UAV Swarm Network
期刊: IEEE INTERNET OF THINGS JOURNAL, VOL. 11, NO. 8, 15 APRIL 2024.
作者: Xunhua Dai; Zhiyu Lu; Xuehan Chen; Xinyi Xu; Fengxiao Tang.
分享人: 河海大学——谭祚伟
01
研究背景
随着5G成熟,无人机(UAV)群网络在救援、监测、数据采集等领域应用广泛,可作为机载基站、中继节点形成异构网络,但存在关键局限:有效载荷有限制约飞行与通信能力,大规模高机动场景下,下行通信链路扩散、拓扑变化频繁、系统内干扰倍增,导致网络效率下降。传统算法、单智能体强化学习(RL)仅适用于中小规模、低干扰场景,难以应对大规模高干扰问题——如直接卸载数据至地面终端会加剧频谱资源紧张,边缘链路易受干扰,多节点决策时算法收敛困难。为此,需设计融合聚类、抗干扰与智能优化的方案,解决数据传输效率、通信公平性与地面站(GS)优先级问题。
02
关键技术
本文提出了一种基于非正交多址(NOMA)、聚类和强化学习(RL)的大规模高干扰无人机(UAV)群网络下行通信方案。本文有两个目标:1)最大化网络的数据聚合率,同时确保无人机在数据聚合期间对无人机(U2U)通信的频谱接入的公平性;2)最大化网络数据卸载率,同时确保在数据卸载期间对无人机(U2G)通信的地面站优先级。为了解决这两个问题,本文分别引入上行NOMA和下行NOMA来消除部分系统内干扰。然后,提出了一个多智能体RL框架,用于优化信道、发射功率和轨迹调度(MARL-CPT)。
该方法的关键技术如下:
1)通过功率复用实现多用户同频带传输,数据聚合阶段用上行NOMA、卸载阶段用下行NOMA,结合顺序干扰消除(SIC)消除部分系统内干扰,提升频谱效率。
2)基于模糊c均值(FCM)优化,通过迭代更新隶属度矩阵与聚类中心,平衡各集群无人机数量,减少通信链路数量,降低系统复杂度并选簇头。
3)针对资源分配(信道、发射功率)与轨迹调度,构建MARL-CPT框架,分阶段解决优化问题,兼顾数据传输效率、U2U通信公平性与U2G通信GS优先级。
4)用Jain指数衡量U2U通信公平性(值越高越公平),基于GS与威胁单元的距离定义GS优先级。
03
算法介绍
(1)系统框架
图1 提出的基于多智能体强化学习方法架构
如图1所示,提出的基于多智能体强化学习方法架构主要涉及三个阶段:聚类、数据聚合决策和数据卸载决策。采用LB-FCM算法将所有无人机划分为多个集群,选择簇首和簇成员,保证每个集群中无人机成员数量均衡,在聚类的基础上基于集群,每个无人机成员与集群内的集群首领通信,集群首领对集群内收集到的所有信息进行聚合,在此阶段,无人机成员相互协作,通过MAARL算法完成数据传输任务,无人机簇头将所有数据聚合后,使用MAFRL算法将数据从空中传输到地面。
总的来说,本文的目标是在保证数据汇聚过程中无人机对U2U通信频谱接入的公平性的同时,最大限度地提高网络的数据汇聚率,此外,在保证U2G通信在数据卸载过程中的GS优先级的前提下,实现网络数据卸载速率的最大化。本文使用无人机成员贡献的数据速率定义Jain指数作为公平性指数,在数据聚合过程中,我们的目标是R_1最大化,资源分配由无人机成员完成。在数据卸载过程中,我们的目标是最大化R_2,由无人机簇头执行资源分配和轨迹调度。因此,优化问题可以表述如下:
(2)LB-FCM聚类
LB-FCM聚类是一种基于分区的聚类算法,其目的是最大化同一聚类内对象之间的相似性,同时最小化不同聚类之间的相似性,与K-means不同的是,模糊聚类的聚类结果是模糊的,属于软聚类,广泛应用于无线通信网络中。每个无人机的位置作为可观测资源给定给负责LB-FCM算法的节点。该节点可以是GS或特定的无人机,集群的数量可以根据无人机群实际执行的任务数量来确定,集群内的无人机成员执行相同的任务并收集外部环境的信息,目标函数如下:
为使目标函数J(U,V)最小化,分别更新隶属度函数u_ij和聚类中心的位置c_i。算法首先执行所有无人机的初始聚类,随后将每个无人机分配到隶属度最高的集群中。LB-FCM根据集群中无人机的数量选择最大的集群,计算该集群中的无人机与其他集群中心的距离,求出无人机j与集群中心i之间的最小距离,记为d_ij。然后,无人机j离开原来的集群,加入到新的集群i中。通过迭代这一过程,当每个集群中的无人机数量平衡时,实现负载均衡。通过最小化无人机与集群中心的距离,在每个集群中选出一个无人机簇头。
(3)MARL-CPT 框架
基于聚类结果,无人机需要完成数据聚合和数据卸载两阶段任务。无论是多个无人机成员在数据聚合阶段进行决策,还是多个无人机集群成员在数据卸载阶段进行决策,agent之间的决策相互影响,导致环境不稳定。在传统的RL方案中,每个agent之间相互竞争,以寻求最大的个体利益,由于竞争在求解大规模智能体上难以收敛,本文在多智能体数据聚合和多智能体数据卸载中都采用了共享奖励的方法,每个agent联合合作并获得合作奖励。在数据聚合过程中,不同集群的无人机成员需要做出决策,选择自己的信道,发送功率将数据传输到各自的簇头,这将影响数据聚合的和速率。在数据卸载过程中,无人机簇头可以0通过适当分配信道、发射功率和轨迹调度来提高数据卸载的总速率。这两个过程都可以建模为MDP。
A. 多智能体聚合RL(MAARL)
为了更好地为UAV成员分配信道和发射功率,MAARL将每个簇头作为管理者来控制集群中每个UAV成员的决策,每个UAV成员的决策网络部署在各自的UAV簇头上。与个体UAV成员感知环境并独立决策相比,簇头通常可以通过监测自身簇成员和其他簇头的情况来获取更多的状态信息,从而做出更优的决策。MAARL结合了聚类,是分布式学习和集中式学习之间的折衷。
在MAARL中,DQN被用作离散信道和发射功率输出的决策网络。每个UAV簇头的决策层有多个决策网络,这些决策网络对应于集群中的所有UAV成员,并输出它们所做的资源分配决策。
在数据汇聚过程中,UAV簇头可以观察到多个状态,包括信号信道、接收功率、信道增益。在UAV群网络中,当无人机之间存在通信时,这些状态在实际情况下很容易获得。UAV簇头除了接收来自集群内成员的信号外,还可以感知信号通道、到达时接收功率以及集群间成员的信道增益,因此,UAV簇头h在数据聚合过程中的输入状态s^(h)如下:
在MAARL的决策网络中,动作空间包括信道和发射功率两个离散分量,由于所有UAV成员具有相同的功能,因此所有决策网络的行动空间如下:
B. 多智能体卸载RL(MAFRL)
由于聚类后簇头数量显著减少,MAFRL可以采用独立学习将数据卸载给GS,U AV簇头可以观察信息,例如它自己的簇头、其他簇头和GS来帮助它做出更好的决策,用于决策的网络部署在每个UAV簇头中。值得注意的是,由于功率分配存在于数据卸载的连续域中,因此每个UAV簇头需要对轨迹调度、信道分配进行离散域决策,对发射功率分配进行连续域决策。因此,MAFRL是一个离散和连续领域决策的混合模型。
在MAFRL中,使用DQN和DDPG。DQN用于在离散域输出UAV簇头的信道分配和轨迹调度,DDPG用于在连续域输出其发射功率分配。DDPG网络内部采用actor-critic结构,演员用来做决策,评论家用来给演员做的决策打分。
在数据卸载过程中,无人机簇头能够感知的状态类似于数据聚合:信号信道、接收功率和信道增益,当一个簇头周期性地与网络中的其他簇头进行通信时,它可以观察到自身的信号通道、其他簇头的信号通道、以及来自IBS的干扰通道。此外,UAV簇头可以获得自身与其他GSs之间的信道增益、以及自身与其他簇头之间的信道增益。因此,UAV簇头h在数据卸载过程中的输入状态s^(h)如下:
在MAFRL中,每个UAV簇头都有一个DQN决策网络和一个DDPG决策网络,DQN的作用空间包括离散信道和轨迹调度,DDPG的作用空间包括连续功率。定义a_m,w和a_p分别表示DQN和DDPG的决策,可表示为:
在训练过程中,两个阶段共享奖励,在训练DQN时使用ε-greedy,在训练DDPG时加入AWGN等噪声来选择具有探索性的动作,本文为了提高训练效果,使用了双DQN、演员评论家网络和经验回放等技术。每当一个MDP四元组(s^(h),s^(h),At^ (h),r)完成时,将其作为样本存储在UAV簇头的内存池中,用于训练神经网络。在更新DQN/DDPG网络时,可以从池中随机抽取一批具有一定大小的样本作为学习样本。相比于获取每个样本后进行更新,经验重放效率更高。
04
实验结果分析
本文仿真场景的大小设置为1000 m×1000 m的自由面积,该区域空域有10架无人机,在聚类阶段,通过LB-FCM将其分成两个大小相等的集群,部署了4个GS在区域中心的不同位置,还设置了一个IBS作为外部信号干扰源,周期性扫频干扰一个信道,假设无人机飞行高度为50m。主要考虑执行以下四种对比算法:1) D-MAARL/D-MAFRL: MAARL和MAFRL的特征层参数不共享。2) S-MAARL/S-MAFRL: MAARL和MAFRL的特征层参数是共享的。3) SAARL/SAFRL:基于单智能体RL,我们假设每个MDP过程中只有一个智能体做出决策,分别对应于数据聚合(单个无人机成员)和数据卸载(单个无人机簇头)。4)随机决策:每个agent在每个MDP过程中随机选择自己的行为。
A. 训练奖励
图2 两个阶段的平均奖励训练 (a)数据汇总;(b)数据卸载
在图2中,展示了每1200个episode的平均训练奖励。从图2(a)中我们可以看到,无论超参数选择如何,D-MAARL和S-MAARL的训练奖励最终都会超过或接近SAARL。其中,SAARL具有较高的初始奖励,而D-MAARL和S-MAARL均具有较低的初始奖励。这是因为SAARL在MDP中只有一个agent进行决策,并且整个训练环境是稳态的,所以可以快速收敛。D-MAARL和S-MAARL在MDP中有多个智能体进行决策,其中一个智能体的决策好坏会受到其他智能体决策的影响,因此更难实现收敛。而SAARL的上升曲线平缓缓慢,而DMAARL和S-MAARL的斜率较大,这表明多智能体RL更容易找到最优解,而单智能体RL容易陷入局部最优,D-MAARL和S-MAARL将更渴望学习提高无人机通信公平性的策略,然而,SAARL无法通过提高无人机公平性来提高训练奖励。
在图2(b)中,除了考虑4个GS的默认场景外,还进一步测试了6个和8个GS的情况。通过训练,D-MAFRL和S-MAFRL的奖励逐渐超过或接近SAFRL,特别是在6个GSs的情况下,SAARL的最终奖励曲线会略高于DMAARL,SAFRL在早期训练阶段仍然达到收敛,但在后续训练中无法进一步学习到更好的策略。同时,D-MAFRL和S-MAFRL奖励曲线保持持续上升,对于不同数量的GS,S-MAARL的最终奖励高于D-MAARL。
B. 网络和速率
图3 两阶段的平均和速率测试 (a)数据汇总;(b)数据卸载
图3(a)展示了聚合过程中平均网络和速率的测试结果,与SAARL和随机决策相比,D-MAARL和S-MAARL的网络和速率远高于前两者,如预期的那样,随机决策的网络和率最低,对于SAARL,由于每一步只有一个代理做出决策,因此在重新启动的新环境中找到更好的群体决策需要多个步骤,从而导致较低的平均网络速率。图3(b)为卸载过程中平均网络和速率的测试结果,从图中可以看出,无论GS数量如何增加,总的网络速率基本保持不变,保持在400 - 1000mb /s之间,这表明,虽然GS的增加带来了更多的U2G链路,但当无人机簇头发射功率有限,干扰增加时,数据卸载的总和速率不会增加。随机决策的结果仍然是最差的。D-MAFRL和S-MAFRL在不同GS值下的表现均优于SAARL,特别是在8个GSs的情况下,S-MAARL表现出比D-MAARL更好的性能。
C. 无人机的公平性
图4 在训练过程中的平均Jain指数
图4说明了μ1和μ2与Jain指数以及训练集数量的不同关系,随着训练过程的进行, D-MAARL和S-MAARL下的Jain指数都有显著提高。无论如何选择μ1和μ2,SAARL都不会改变,这是因为SAARL在每个MDP中只有一个agent可以做出决策,而做出决策的agent试图与其他agent单方面合作。显然,这种合作是无效的,他们按照自己的想法相互合作。此外,随着μ1的减小和μ2的增大,算法将更加注重提高无人机的公平性。
D. 数据卸载期间的轨迹结果
图5 数据卸载期间的轨迹结果(两个无人机簇头)
在数据卸载过程中,本文关心不同算法到达无人机簇头最优位置需要多少步,以及最终位置在哪里。在模拟中,本文使用相同的随机种子来重置环境,两种无人机簇头在不同算法下具有相同的初始位置,无人机簇头优化其轨迹以找到最佳位置以获得最大奖励。值得注意的是,本文没有考虑Random决策方法,因为它无法获得稳定的悬停位置。图5展示了采用不同算法的两种无人机簇头轨迹,从图中可以看出D-MAFRL和S-MAFRL,SAFRL最终找到悬停位置。与SAFRL相比,D-MAFRL和S-MAFRL的飞行路径出现重叠,轨迹相对平滑。与SAFRL相比,D-MAFRL和S-MAFRL下的悬停位置更接近两个优先级更高的GSs。
05
总结
本文针对大规模高干扰无人机群网络下行通信问题,提出了一种基于多智能体强化学习方法的框架,将通信分为聚类、数据聚合、数据卸载三阶段,在聚类的基础上,将直接卸载拆分为先进行数据聚合,最后由少数簇头完成数据卸载,用LB-FCM减少链路并平衡负载,用NOMA消除部分干扰,用MAARL和MAFRL分阶段优化资源与轨迹。
END
==河海大学网络与安全实验室==
微信搜索:Hohai_Network
联系QQ:1084561742
感谢关注!
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...