近日,渊亭科技自主研发的“面向兵棋推演的智能决策方法、装置及存储介质”荣获国家知识产权局发明专利授权。该发明提出了一种基于“任务—行为”的多智能体强化学习分层训练方法,旨在解决兵棋推演等高维、复杂场景下的多智能体训练效率难题。
兵棋推演是多智能体系统研究的核心业务场景,作为一种模拟战争与对抗过程的复杂系统,是检验和提升指挥决策能力的重要手段。然而,将人工智能技术应用于兵棋推演面临着多重挑战:
● 大规模状态空间:兵棋推演场景通常包含数千个行动格点和多个作战单位,每个单位的状态都在不断变化,构成了超多维度的状态空间。
● 复杂的动作空间:推演过程中智能体可执行的动作繁多,如移动、射击、隐蔽、占领等,多达十几种,部分动作还带有可变参数,导致整体动作空间异常庞大 。
● 长线决策:一局完整的推演往往需要上千个决策步骤,许多关键动作的效果需要很长时间才能显现,这为模型的学习和训练带来了极大难度 。
在这样复杂的环境下,传统的多智能体强化学习算法,尤其是依赖于联合动作值函数分解的方法,往往训练效率低下,难以获得理想的决策效果。
为突破上述瓶颈,该发明提出了一种面向兵棋推演的智能决策方法。该方法的核心是基于“任务—行为”的强化学习分层训练方法(Task-Behavior Hierarchical Reinforcement Learning, TBHRL),将复杂的决策过程分解为两个层级:
该专利方法首先对兵棋推演场景进行建模,包括对兵棋推演场景的智能体集合进行定义及对状态空间、观测空间和动作空间进行建模。在此基础上,构建兵棋推演场景的上下层分层决策网络。
1
上层决策网络(任务层)
该层负责宏观策略。
该层采用基于联合动作值分解的集中式训练方式,综合所有智能体的信息,为每个单位从任务集中选择当前最优的任务(例如,移动到某个关键位置、攻击特定敌方目标等)。
通过这种方式,它首先将决策范围从无数具体动作缩小到少数几个战略性任务上,有利于智能体间的协同与配合。
2
下层决策网络(行为层)
该层负责具体执行。
它根据上层分配的任务,采用结合专家知识的独立训练方式,为每个智能体规划出执行该任务所需的具体动作(例如,向指定方向移动一步)。
这种方式简化了单步决策的难度,加快了学习速度。
通过这种“上层关注任务、下层关注动作”的模式,该方法将一个巨大且复杂的决策问题,成功地拆解成了“选择哪个宏观目标”和“如何执行具体步骤”这两个规模更小、更易于求解的子问题。
这种分层结构显著降低了模型的学习难度,从而提升了智能体在复杂场景中的训练效率和最终的决策效果。
专利步骤
针对兵棋推演这类具有高维状态空间、观测空间和动作空间的复杂训练场景,本发明提高了整体训练的效率,使多智能体能够快速学习并掌握高效的协同策略,从而实现特定兵棋推演想定下的有效决策。该方法能够有选择性地对状态特征进行提取,更好地适应不同的兵棋推演场景。
通过该专利技术训练的智能体已在兵棋推演赛事中进行了实践应用,并取得了良好的对战效果,充分验证了该技术方法的有效性。
此次发明专利的获得,是渊亭科技长期坚持核心技术自主研发、积极探索人工智能前沿应用的又一重要成果。未来,渊亭科技将继续深耕多智能体博弈与决策领域,推动相关技术在更多行业落地,为智能化时代的到来贡献更多创新力量。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...