今日AI-深度强化学习-2024年10月8日

发现全网最新的AI内容

强化学习简介

文章概要:

1. 强化学习的核心概念:智能体、环境、状态、行动、奖励、策略、价值函数。
2. 强化学习的历史:起步阶段、1980年代、现代阶段。
3. 强化学习与监督学习/无监督学习的区别:目标、数据形式、反馈方式。
4. 用Q-Learning实现三子棋的强化学习示例:三子棋问题介绍、Q-Learning算法简介、代码实现、运行结果与说明。
5. 强化学习的探索与如何更好地利用:探索与利用的平衡、样本效率、引入人类反馈、多智能体协作、自主决策与实时学习。
阅读原文

【2024年9期】 电子科技大学:基于深度强化学习的航天器功率-信号复合网络优化算法

文章概要:

1. 为实现航天器电源系统灵活高效并网,最大化利用能量,提出基于深度强化学习的功率传输与信号复合网络拓扑优化模型,用知识蒸馏原理的多种可解释模型优化过程
2. 分析在轨运行阶段航天器母线电压调节控制域变换规律,结合节点传播性参数,建立功率传输与信号通信的复合网络拓扑模型
3. 利用A3C算法对信号传输网络路由分布、拓扑结构等方面潜在的运行可靠性风险进行自适应性优化
4. 结合多种可解释组件对已训练的DRL模型进行知识蒸馏,形成可解释的量化分析方法
5. 所提方法可指导空间电源在随机阴影影响下选择最佳并网方案,为更高任务要求和复杂环境下空间电源控制器设计提供理论支持
阅读原文

【推荐阅读】深度强化学习在无人机编队路径规划中的应用

文章概要:

1. 文章介绍了深度强化学习在无人机编队路径规划中的应用。
2. 针对强化学习模型在编队控制问题中存在收敛速度慢、奖励稀疏等不足,将人工势场法引入深度强化学习,建立了无人机编队路径规划网络训练框架。
3. 根据编队控制目标设计了编队切换奖励函数进行训练。
4. 搭建无人机强化学习编队路径规划仿真训练环境,实现在威胁区域环境中的无人机编队路径规划控制。
5. 通过对比实验验证了本文算法在编队稳定性以及碰撞率等方面相较于基线算法更优越性能以及更快的收敛速度。
阅读原文