今日AI-深度强化学习-2024年10月18日

发现全网最新的AI内容

知识驱动的智能博弈对抗行动序列规划

文章概要:

1. 针对基于深度强化学习方法解决实际博弈对抗规划问题中利用矛盾、奖赏信号稀疏、数据利用率低、难以稳定收敛等问题,分析了基于知识的型智能生成模式提出基于知识驱动的方法,从用规则教、从数据中学、用问题等构建了智能博弈行动序列规划模型,为提升探索-利用效率、精准奖励函数、算法收敛提供了理论支撑。
2. 对基于强化学习的智能博弈对抗问题求解的问题进行了讨论下一步深度强化学习算法走向实用的发展方向。
阅读原文

基于深度强化学习的综合航电系统安全性优化方法

文章概要:

1. 为解决传统基于人工检查的安全性设计方法难以应对航电系统大规模集成带来的可选驻留方案爆炸问题,构建航电系统分区模型、任务模型以及安全关键等级量化模型,将考虑安全性的综合化设计优化问题模型化为马尔可夫决策过程(MDP)问题,并提出一种基于Actor⁃Critic框架的柔性动作-评价(SAC)算法的优化方法。
2. 为得到SAC算法的参数选择和训练结果之间的相关性,针对算法参数灵敏度开展研究。
3. 为验证基于SAC算法的优化方法在优化考虑安全性的综合化设计方面的优越性,以深度确定性策略梯度(DDPG)算法和传统分配算法为对象,开展优化试验。
4. 在最佳的参数组合下,使用的SAC算法收敛后的最大奖励相较于其他参数组合提升近8%,同时,收敛时间缩短近16.6%。
5. 相较于DDPG算法和传统分配算法,基于SAC算法的优化方法在相同的参数设置下获得的最大奖励、约束累计违背率、分区均衡风险效果、分区资源利用以及求解时间方面最大提升分别为62%、744%、8370%、2123%和775%。
阅读原文