深度强化学习-2024年10月4日最新技术资讯

【控制】基于虚拟约束与深度强化学习的三连杆二维双足步行机器人行走姿态控制对比分析Matlab代码

文章概要：

1. 本文报告基于Matlab平台搭建三连杆二维双足步行机器人模型，并采用虚拟约束方法和深度强化学习(Reinforcement Learning, RL)两种不同的控制策略对其进行
2. 建立机器人的运动学和模型，然后分别阐述基于PD控制器的虚拟约束控制方法和基于深度强化学习的控制方法的实现过程，并对RL控制器的参数进行。
3. 对两种控制器的性能进行比较，并探讨项目可能的改进方向。
4.项目对基于虚拟约束和深度强化学习连杆二维双足步行机器人控制进行了研究。实验结果表明，深度强化学习方法具有更好的鲁棒性和适应性，但需要更长的训练时间和更复杂的资源。

阅读原文

使用强化学习的无人作战飞行器机队协同规划

文章概要：

1. 基于强化学习（RL）的集中式路径规划被用于在人为的敌对环境中的无人作战飞行器（UCAV）编队。
2. 所提出的方法提供了一种新的方法，在奖励函数中使用了闭合速度和近似的时间-去向项，以获得合作运动，同时确保禁飞区（NFZs）和到达时间限制。
3. 近似策略优化（PPO）算法被用于智能体的训练阶段。
4. 系统性能在两个不同的情况下进行了评估。在案例1中，战争环境只包含目标区域，希望同时到达以获得饱和的攻击效果。在情况2中，战争除了目标区和标准的饱和攻击和避免碰撞的要求外，还包含NFZ。
5. 基于粒子群优化（PSO）的合作路径规划算法作为基线方法被实施，并在执行时间和开发的性能指标方面与提出的算法进行了比较。蒙特卡洛模拟研究被用来评估系统性能。br>6. 根据仿真结果，所提出的系统能够实时生成可行的飞行路径，同时考虑到物理和操作限制，如加速限制、NFZ限制、同时到达和防撞要求。

阅读原文

使用强化学习的无人作战飞行器机队协同规划

文章概要：

1. 本文研究基于强化学习（RL）的集中式路径规划，用于在人为敌对环境中的无人飞行器（UCAV）编队
2. 提出的方法使用闭合速度和近似的时间-去向项，确保禁飞区（NFZs）和到达时间限制
3. 近似策略优化（PPO）算法用于RL智能体的训练阶段
4. 系统性能在两个不同的情况下进行了评估
5. 基于粒子群优化（PSO）的合作路径规划算法作为基线方法被实施，并在执行时间和开发的性能指标方面与提出的算法进行了比较
6. 蒙特卡洛模拟被用来评估系统性能
7. 所提出的系统能够实时生成可行的飞行路径，同时考虑到物理和操作限制，如加速限制、NFZ限制、同时到达和防撞要求
8. 该方法为解决UCAV机群的大规模合作路径规划提供了一种新颖的、计算效率高的方法

阅读原文

【控制】基于虚拟约束与深度强化学习的三连杆二维双足步行机器人行走姿态控制对比分析Matlab代码

文章概要：

1. 报告基于Matlab平台搭建的三连杆二维双足步行机器人模型，并采用虚拟约束方法和深度强化学习(Reinforcement Learning, RL)两种不同的控制策略对其进行
2. 建立机器人的运动学和动力学模型，阐述基于PD控制器的虚拟约束控制方法和基于深度强化学习的控制方法的实现，并对RL控制器的参数进行优化。
3. 对两种控制器的性能进行，并探讨项目可能的改进方向。

阅读原文