远海多智能体空中对抗深度强化学习环境模型构建
Hu等[5]为了避免外部信息的介入, 提出基于学习的奖励塑形方法以完成对势能函数的自主学习, 但是这一类方法引入了额外的学习目标进而增加了计算量, 同时也缺乏相关理论支撑。Mirowski等[10]在导航任务中添加了深度图预测和闭环检测等辅助任务, 大大提升了原始算法的性能, 并进一步提出通过添加方向预测的辅助任务, 使智能体在城市导航任务中能够准确预测当前方向与正北方向的夹角[11], 该方法在
源自:航空兵器
作者:张原,王江南,王伟,李璇
深度强化学习系统环境模型的优劣决定其能否高效准确地学习训练出好的决策。 本文结合远海环境和多智能体空中对抗任务特点, 构建了远海空中对抗多智能体深度强化学习训练环境。 其中, 基于JSBSim及可扩展的雷达和火控系统模型构建了兼顾实际和仿真性能的智能体模型; 遴选18维状态空间和7维动作空间, 构造了包含主线和10个子目标的多元奖励体系, 解决了稀疏奖励引导性差、 维度空间高诱使算法难以收敛等问题, 并通过仿真验证了环境的合规性、 对深度强化学习经典算法的有效性, 以及对主流训练框架的兼容性。
0 引言
远海环境与常规环境相比更加艰苦、 极端情况更多、 容错率低, 为任务策略选择、 支援补给、 特情处置带来诸多挑战。 因此, 在空中智能体自主决策问题研究中, 相较于理想环境下的高动态空中对抗博弈任务, 结合远海环境特点的类似任务更加复杂, 对智能体策略学习训练环境要求更高。
一个好的环境设计可以帮助强化学习系统更快地学习和训练出更好的决策, 近年来, 一些学者针对深度强化学习训练环境相关要素展开了研究。 杨惟轶等[1]对稀疏奖励问题进行综述, 介绍了奖励设计与学习、 经验回放机制、 探索与利用、 多目标学习和辅助任务等5种解决方案。 董云龙[2]从奖励函数出发, 提出基于Lyapunov稳定性分析奖励塑形方法, 提高了训练效率; 提出基于奖励轨迹方差减少的奖励平滑塑形方法, 提高了训练稳定性; 提出基于期望最大化的奖励塑形融合方法, 降低了调参成本, 平衡了效率与稳定性。 Devlin等[3]对奖励塑形进行了扩展与延拓, 但依然没有解决势能函数如何正确选择的关键问题。 Mannion等[4]证明了奖励塑形的使用需要一定的专家知识作为支撑以对势能函数做出合理的估计。 Hu等[5]为了避免外部信息的介入, 提出基于学习的奖励塑形方法以完成对势能函数的自主学习, 但是这一类方法引入了额外的学习目标进而增加了计算量, 同时也缺乏相关理论支撑。 Xiao等[6]在训练过程中将人的交互式反馈纳入其中以实现对奖励塑形的动态调整, 从而实现更加直观的指导。 Yuan等[7]采用奖励塑形的方式以实现高效率的探索。 Rauber等[8]将HER算法与策略梯度法相结合, 使用重要性采样进行偏差校正, 将多目标机制扩展到在策略算法中。 Lanka等[9]针对HER中由于替换目标导致的偏差, 通过改变不同目标的奖励权重来进行校正, 获得了一定的效果提升。 Mirowski等[10]在导航任务中添加了深度图预测和闭环检测等辅助任务, 大大提升了原始算法的性能, 并进一步提出通过添加方向预测的辅助任务, 使智能体在城市导航任务中能够准确预测当前方向与正北方向的夹角[11], 该方法在谷歌街景导航中取得了很好的效果, 使得基于强化学习的导航算法[12]首次可以用于真实的街景导航中。
以上理论研究与实践尚未聚焦空中对抗问题, 且对环境的构建也较为理想化。 本文结合上述研究中的先进理论, 针对远海空中对抗深度强化学习问题构建训练环境模型。 重点基于JSBSim[13]构建智能体的飞行运动学和动力学模型, 并为其加入雷达和武器系统模型, 形成较为贴近实际的智能体模型; 基于OpenAI的MARL开源库PettingZoo[14]构建远海空中对抗任务环境, 在聚焦远海空中对抗任务特点和需求的基础上, 厘清状态之间内在关联, 降低空间维度, 设计了18维状态空间和7维动作空间, 构造了主线和10个子目标的多元奖励体系, 解决了环境和任务场景构建较为理想化、 稀疏奖励引导性差、 维度空间高诱使算法过拟合或难以收敛等问题。
更多推荐
所有评论(0)