团队科研成果分享
2025.05.12-2025.05.18
标题: Multi-AUV Path Planning Based on Hierarchical Opponent Multi-Actor-Attention-Critic Reinforcement Learning Framework
期刊: IEEE SENSORS JOURNAL, 2025, DOI: 10.1109/JSEN.2025.3568814
作者: Yuanbo Zhu, Guangjie Han*, Chuan Lin, Fan Zhang, and Yun Hou
分享人: 河海大学——祝远波
01
研究背景
BACKGROUND
研究背景
海洋污染监测是海洋环境保护中一个重要问题,其路径规划效率直接影响监测任务的完成速度和能源消耗。传统的多智能体路径规划算法在复杂水下通信受限环境下存在一定的局限性,比如电磁波信号衰减严重、带宽受限以及动态干扰因素多,传统算法的协作效率低,难以避免路径冲突并适应实时环境变化。因此,需要一种新颖的多智能体强化学习算法来克服这些问题。本文提出了一种基于分层对手多参与者注意力批评(HOMAAC)的路径规划算法,旨在解决水下多AUV协作场景中的动态环境感知与高效决策问题。该算法利用分层图形注意力机制和扩展对手建模(涵盖AUV与环境实体)来提高局部观测信息的聚合能力和协作策略的适应性。通过无通信依赖的集中训练与分散执行框架,该算法可以动态推断相邻AUV的意图并优化轨迹规划,减少碰撞风险,并提高任务完成率与能源效率。
02
关键技术
TECHNOLOGY
关键技术
本文利用分层图形注意力机制(HGAM)与扩展对手建模(OM)技术,通过集中训练与分散执行(CTDE)框架,以提高多AUV协作路径规划的动态环境适应能力和任务完成效率。具体来说,算法首先通过分层注意力机制对AUV、障碍物、洋流等实体进行分组建模,提取局部观测中的关键信息,并通过注意力权重分配激励对高相关性实体(如邻近障碍物)的优先级感知。这种动态交互感知机制可以鼓励AUV在复杂环境中高效避障并优化轨迹。然后,为了克服传统对手建模仅关注AUV交互的局限性,算法提出了一种环境实体扩展的对手建模方法,将洋流、地形等动态因素纳入对手策略预测。根据实体层级关系与局部观测特点,可以实现对海洋环境动态变化的实时推断,提高了协作决策的鲁棒性。
该方法的创新和贡献如下:
1)扩展对手建模:将对手概念从AUV延伸至环境实体(如洋流、障碍物),通过局部观测预测实体动态行为,提升协作冲突解决能力与轨迹安全性。
2)分层图形注意力机制(HGAM):设计多层级注意力网络,对AUV群组与环境实体分别建模,实现信息高效聚合与上下文感知,优化策略推导的精准度。
3)通信无关的协作框架:基于CTDE架构,通过集中式训练优化全局策略,结合分散式执行降低实时通信依赖,显著减少能耗并增强系统可扩展性。
03
算法介绍
ALGORITHMS
算法介绍
(1)问题描述
探讨了多自主水下航行器协同运输系统中的动态路径规划问题。研究旨在解决复杂水下环境中因通信受限、洋流干扰及障碍物动态变化导致的协作效率低与路径冲突问题,通过引入分层对手建模与注意力机制实现无通信依赖的实时环境感知与高效决策。图1展示了多AUV水下物流运输(MAULD)环境的三维仿真场景:包含海底地形、AUV群组、污染监测设备及目标污染源。图中AUV配备惯性导航系统(提供位置与速度信息)、射线投射传感器(检测障碍物)及无线电探测装置(定位其他AUV与目标)。矢量数据的前两位表示障碍物检测状态,后三位为AUV自身运动状态,其余元素表征当前AUV与目标点及其他AUV的相对距离。
图1
(2) 系统模型
图2 基于HOMAAC的多自主水下航行器协同运输系统框架
图2呈现了基于HOMAAC算法的分层协作路径规划框架。图2中展示了多AUV协同决策过程中的动态行为和关键步骤。首先,图中标识了环境状态包括局部观测向量(障碍物检测状态、AUV位置/速度、目标点距离、相邻AUV距离),并给出了全局状态信息,即所有AUV的局部观测聚合。接着,通过HOMAAC算法的分层注意力机制,即Actor网络对AUV群组与环境实体(如洋流、障碍物)分别建模,提取层级化交互特征。此外,图中还显示了集中式Critic网络,即通过联合动作价值函数(JAVF)评估多AUV协作策略的全局收益,从而指导Actor网络的策略优化。
关键要素:顺序决策问题的三个关键要素:状态、行动和奖励。
1)状态空间:局部观测包括射线投射障碍物检测结果(二进制标识)、惯性导航系统的位置/速度信息、与其他AUV及目标点的欧氏距离。全局状态为所有AUV局部观测的联合表征,支持Critic网络的全局价值评估。
2)行动选择:每个AUV基于Actor网络输出选择七种离散动作:上升、下降、前进、后退、左移、右移、静止。动作决策依赖分层注意力机制对实体动态的实时推断,避免通信依赖下的冲突路径。
3)奖励设计:接近目标奖励R_d:基于AUV与目标点距离缩短量动态计算,鼓励快速接近目标。
其中,d_{(m,t),p}表示AUV_m在时间t时与目标的欧几里得距离。
任务完成奖励R_wd:成功运输设备至污染源时触发,提升协作效率。
其中,R_{(m,t),wd}表示AUV_m在时间t运输污染监测设备所获得的奖励。
碰撞惩罚R_C:碰撞时施加高额负奖励,强化避障策略。
其中,N_{(m,t),C}表示AUV_m在时间t是否发生碰撞。
能耗惩罚R_E:与AUV克服水流阻力及维持运动所需的能量消耗成反比,激励节能路径。
其中,E_{m,total}表示AUV_m克服浮力和阻力所消耗的能量,计算方法为:
(3)HOMAAC算法
HOMAAC算法基于OM与注意力机制,通过CTDE框架实现多AUV协作路径规划。其核心包括:
Actor网络:通过HGAM动态分簇AUV与实体(障碍物、洋流),提取局部观测的层级化交互特征。扩展对手建模预测环境实体动态行为(如洋流扰动方向),优化轨迹避障策略。结合MLP生成动作,支持七种离散运动指令(如前进、左移)。
图3 Actor网络
Critic网络:利用JAVF评估全局协作收益,通过注意力权重聚合多AUV动作信息,指导Actor网络的策略优化。采用软更新机制稳定训练过程,避免策略震荡。
图4 Critic网络
04
实验结果
EXPERIMENTS
实验结果
(1)仿真参数设置
表1展示了奖励值设置,表2展示了HOMAAC算法的超参数。
表1 奖励值设置
表2 超参数设置
消融实验:1)HAMAAC, 2)ATOM , 3)MAAC;
对比算法:1)MADDPG, 2)MAPPO, 3)MASAC
性能评价指标:
1)The earliest convergence episode:指的是框架的时间复杂性。
2)Best interworking episode:指AUV之间最初协作的时间。
3)The best convergence point:指在汇聚时获得的最高奖励。
4)Collision rate:表示AUV在执行任务时发生碰撞的频率。
5)Task completion time:表示AUV完成执行任务所需的时间。
表3展示了对比算法框架对比。
表3对比框架摘要
(2)仿真结果与分析
图5 消融实验
图5展示了消融实验对比了HOMAAC框架与三种变体(HAMAAC、ATOM、MAAC)的性能差异,验证关键模块(HGAM、扩展OM)的贡献:1)HAMAAC:保留HGAM但仅建模AUV间交互,忽略环境实体动态,导致对洋流/障碍物的适应性下降。2)ATOM:仅采用传统对手建模(仅AUV间预测),缺乏分层注意力机制,协作策略易受环境干扰。3)MAAC:完全移除HGAM与OM,依赖显式通信,在复杂水下场景中协作效率显著降低。HOMAAC表现出更稳定的收敛趋势,得益于分层注意力机制与扩展对手建模的协同作用,有效平衡了环境动态与协作策略的冲突。HAMAAC在训练后期呈现周期性波动,因其缺乏环境实体建模,无法适应洋流与障碍物的动态干扰,导致策略鲁棒性不足。ATOM的奖励增长停滞较早,仅依赖传统AUV对手建模,忽略层级化实体交互,策略难以应对复杂水下环境的实时变化。MAAC性能显著落后,因其完全移除分层建模与对手预测,依赖低效通信机制,协作决策无法规避路径冲突与能耗浪费。
图5展示了对比实验将HOMAAC与主流多智能体强化学习框架(MADDPG、MAPPO、MASAC)及传统方法进行性能对比,验证其在复杂水下场景的优越性:任务完成效率:HOMAAC在20 AUV群组中任务完成时间(TCT)为2016秒,较MADDPG(6174秒)缩短67%,证明其动态分簇与能耗敏感奖励机制的高效性。冲突与能耗:HOMAAC碰撞率较MASAC降低82%,能耗减少85%,凸显分层注意力机制对路径冲突规避与节能轨迹优化的作用。通信依赖对比:传统方法(如MADDPG)依赖显式通信协调,在带宽受限场景中协作效率骤降;HOMAAC通过无通信CTDE框架保持稳定性能,验证其环境自适应性。HOMAAC与基线方法(MADDPG、MAPPO、MASAC)的训练奖励曲线对比说明通过层级化环境感知与通信无关协作机制,在收敛速度、稳定性及任务收益上全面超越传统方法,尤其适用于高动态、低通信的水下多AUV场景。
图5 收敛性对比实验
表4展示了HOMAAC在不同AUV群组规模下均展现出更早触发协作的显著优势,且规模越大性能增益越明显。主要是因为分HGA)与OM赋予算法动态适应能力,可随AUV数量增加自动优化群组分簇策略,减少冗余交互,加速协作意图推断。表5展示了HOMAAC的协作启动时间随规模扩大增幅最小,验证其强可扩展性。主要是因为无通信的CTDE框架避免带宽竞争,结合实体级对手建模减少环境干扰对决策延迟的影响,确保大规模AUV群高效协同。表6展示了HOMAAC在任务完成速度与能源效率上全面超越基线方法,实现复杂场景下高效低耗的路径规划。主要是因为分层注意力机制精准捕捉关键实体(如邻近障碍物),优化避障路径;能耗敏感奖励驱动节能轨迹选择,减少水流阻力造成的能量损耗。
表3 不同规模下AUVS在训练期间的合作情况
表4 不同规模下AUVS在训练期间的合作次数
表5 任务完成时间和能耗
05
总结
CONCLUSION
总结
本文提出了一种分层对手多参与者注意力批评(HOMAAC)框架,用于解决复杂水下环境中多自主水下航行器协同路径规划问题。首先,基于MARL与OM,提出了HGAM,以动态分簇AUV群组与环境实体(如洋流、障碍物),实现高效局部信息聚合。引入了扩展对手建模,将环境实体动态纳入策略预测,以提升协作冲突解决能力与轨迹安全性。基于集中训练-分散执行框架,提出了通信无关的协作决策架构,通过全局价值评估与分散动作执行降低实时通信依赖。在实验研究中,对动态洋流、随机障碍物分布及多AUV协同运输场景下的任务完成效率、碰撞率与能源消耗等进行了详细实验。实验结果表明,所提出的方法在复杂水下物流任务中取得了令人满意的性能。通过采用该方法,AUV群的协作效率和能源利用率得到了大幅提升,为实现高效海洋污染监测与设备部署提供了有效的解决方案。
END
扫描二维码关注我们
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...