今日AI-深度强化学习-2024年11月26日

发现全网最新的AI内容

Python深度强化学习智能体DDPG自适应股票交易策略优化道琼斯30股票数据可视化研究

文章概要:

1. 本文探索深度强化学习在优化股票交易策略以实现投资回报最大化方面的潜力,选取30只股票作为交易标的其每日价格作为训练和交易的市场环境,训练深度强化学习智能体以获得自适应交易策略,并将其性能与道琼斯工业平均指数和传统最小方差投资组合配置策略进行评估比较。
2. 本文将股票交易过程建模为马尔可夫决策过程(MDP),将交易目标表述为一个最大化问题,采用DDPG算法来最大化投资回报,DDPG是确定性策略梯度(DPG)算法的改进版本,使用神经网络作为函数逼近器。
3. 本文评估算法1中DDPG算法的性能,结果表明,使用DDPG智能体的所提出方法获得比道琼斯工业平均指数和传统最小方差投资组合配置策略更高的回报。
4. 本文在2016年1月1日的道琼斯30只股票上进行实验,使用2009年1月1日至2018年9月30日的历史每日价格来训练智能体并测试性能,结果表明,DDPG策略明显优于道琼斯工业平均指数和最小方差投资组合。
阅读原文

文献分享|燃料电池混合动力汽车深度强化学习能量管理优化

文章概要:

1. 本文提出一种基于深度强化学习的能量管理策略,以降低燃料电池混合动力汽车的总体运行成本,延长能量源寿命。
2. 文章研究了FCHEV的能量管理系统,包括燃料电池、锂电池、超级电容的输出功率和电压等。
3. 文章设计基于双深度Q学习的能量管理策略包括状态-动作空间的构造、双深度Q学习的具体算法和双深度Q网络的改进。
4. 文章在多种工况下进行了仿真,结果表明,所提出的能量管理策略能提高燃料电池工作效率和输出稳定性,有效减缓燃料电池及锂电池的退化速率,延长燃料电池及锂电池的寿命,在WLTC下与未考虑能量源退化的策略相比,氢耗量减少了11.8%。
阅读原文

【论文推荐】基于强化学习的AUV对接控制算法研究

文章概要:

1. 《数字海洋与水下攻防》主要刊载海洋环境与资源科学、海洋数据与信息技术等领域的研究和综述论文,是多本数据库的收录期刊。
2. 本文考虑终端姿态约束下的局部路径规划问题,结合AUV的自主对接控制场景,改进的深度强化学习算法(DRL)开发了一种对接控制器。
3. 考虑实际工作场景中的复杂海浪干扰,使用了非线性扰动观测器(NDO)来估计AUV三维运动中各自由度的外部扰动,并结合可测量的状态为L智能体设计了科学的及奖励函数。
4. 本文提出了基于深度强化的A对接控制,并结合扰动观测器(NDO)来估计外部扰动,提高系统的鲁棒性和对扰动的适应能力。
5. 本研究针对PPO算法中新旧策略网络概率比机械性裁切网络更新不适宜问题,提出了在真实边界内的回滚机制。
阅读原文

专题丨卫星互联网

文章概要:

1. 专题丨卫星互联网特邀策划人是刘荣科,他是北京航空航天大学长聘教授、博士生导师、IET Fellow、北京市教学名师,长期从事空天信息传输与处理方向教学科研工作。
2. 文章介绍了目前低轨卫星关于星地链路信道的标准化进展,分析了影响星地链路信道特性的因素及计算方法。
3. 针对多样化重复请求业务并发时链路负载过大、用户体验质量难以保障的问题,提出一种基于深度强化学习的多业务缓存策略。
4. 天地协同卸载需要一个有效的任务调度算法,将任务分配到适合的服务器以提升任务卸载性能。
5. 为评估星座网络拓扑结构发生变化后依然具备网络传输能力,提出了一种基于最小跳数的星座网络拓扑抗毁性分析方法。
6. 提出了一种通信载荷向量化建模方法,该方法基于前向传播思想对所有链路同时进行向量化运算对运算结果基于链路逻辑连接关系进行压缩,最终得到了包含所有可能的链路路径组合。
7. 为提高均衡算法性能,提出一种基于面向判决的最小均方算法及判决反馈均衡算法的自适应均衡技术
8. 设计了一种Multi-h CPM高速解调系统,采用了软输出维特比算法实现了Multi-h CPM信号解调,并通过早迟门和升降频门实现了时频同步功能。
9. 提出了一种可用于卫星通信和卫星遥感的透射超表面天线,该超表面天线由1bit可重构单元构成,调节单元的相位状态能产生不同模态的涡旋波,并且能实现超过60°范围的不同模态涡旋波的波束扫描。
10. 设计了面向多接口、大容量星载交换设备的地面检测系统,基于现场可编程门阵列完成了地面检测系统的软硬件开发,实现了地面检测系统的测试和大容量星载交换设备的在地功能测试。
阅读原文

入口控制:多智能体强化学习在自动驾驶中的应用研究

文章概要:

1. 自动驾驶技术虽已实现部分自动驾驶,但仍面临诸多挑战,如安全性、可靠性等问题,需要进一步优化和改进。
2. Flex和密歇根大学的研究团队开启多智能体深度强化学习(MA DRL)在高速公路匝道入口控制中的应用,通过博弈论和多智能体方法,实现车辆在到主路交通流中的自主控制,最大限度地减少碰撞风险。
3. 研究团队使用基于深度强化学习的控制器,在虚拟环境中通过自我对弈的方式,让合并车辆学习如何在匝道入口的渐变式合并过程中控制纵向位置,从而确保其安全性和稳健性。
4. 研究团队设计了一系列三车辆仿真实验,通过模拟不同的交通场景,评估自动驾驶车辆的控制策略,并确保其在复杂环境中能够安全、稳健地运行。
5. 研究团队设计并实施了全场景仿真实验,通过系统性地扩展道路场景,加入额外的交通和自合并车辆,构建了这一多智能体场景。
6. 研究团队通过对比三车辆和全场景两种仿真实验结果,发现全场景仿真实验的控制策略更为复杂,但其结果更接近实际交通状况。
7. 研究结果表明,多智能体深度强化学习在高速公路匝道入口控制中具有显著的优势,能够学习到在不同交通情境下的最优控制策略,从而提高车辆合并的成功率和安全性。
阅读原文

【RL+干扰】基于分层多Agent强化学习的协同干扰智能决策方法【附代码】

文章概要:

1. 针对认知电子战中针对频率捷变分集的智能协同干扰策略决策问题,提出了基于分层多体强化学习的智能协同干扰策略决策
2. 利用多智能体可夫决策过程(MDP了多干扰机协同决策过程
3. 建立了协同干扰频域决策模型
4. 介绍了分层强化学习(HRL)的设计思想
5. 为了寻找最优策略,采用了和树结构的基于优先级经验重深度Q网络(PER-DDQN)优化方法
6. 对基于PER-DDQN的-CJDM模型进行了性能仿真
7. 仿真结果,所提出的PER-DDQN方法在动作估计方面明显上级深度Q网络(DQN)方法,且收敛速度快于双深度Q(DDQN)方法
8. 此外,本文提出的协同干扰智能决策方法能够根据实时探测到的雷达威胁的先后顺序,出频域参数决策策略,有效地实现了频域智能决策的设计
阅读原文