今日AI-深度强化学习-2024年10月9日

发现全网最新的AI内容

【论文荐读】基于随机博弈与A3C深度强化学习的网络防御策略优选

文章概要:

1. 针对网络资源的有限和攻防对抗的动态性最优防御选取的问题,本文将深度强化学习A3算法引入攻防随机博弈建模领域,构建网络攻防博弈决策模型总体结构并设计防御策略选取算法。
2. 引入群智能体性格特征及合作系数刻画攻击者合作影响,使模型更符合。
3. 实验结果表明,方法策略求解速度现有方法,分析攻击合作关系对防御决策的影响,防御策略选取有针对性且期望防御收益更高。
阅读原文

文章推荐 | 基于DDPG的智能反射面辅助无线携能通信系统性能优化

文章概要:

1. 文章以最大化信息传输速率为目标,联合优化了基站处的波束成形向量和智能反射面的反射波束成形向量,提出了一种基于深度强化学习的深度确定性策略梯度(DDPG)算法
2. 通过仿真结果表明,DDPG算法的平均奖励与学习率有关,在选取合适的学习率的条件下,DDPG算法能获得与传统优化算法相近的平均互信息,但运行时间明显低于传统的非凸优化算法
3. 增加天线数和反射单元数,DDPG算法可以在较短的时间内收敛,说明DDPG算法能有效地提高计算效率,更适合实时性要求较高的通信业务
4. 下一步将继续研究将DDPG算法扩展到MIMO SWIPT系统,并进一步提高算法的收敛速度
阅读原文

学术前沿 | 光华管理学院、人工智能研究院彭一杰、杨耀东课题组发文研究多智能体强化学习在多级库存管理中的应用

文章概要:

1. 北京大学光华管理学院、研究院彭一杰、杨耀东课题组的文章“Multi-Agent Reinforcement Learning for Multi-Echelon Inventory Management”被Production and Operations Management接收。
2. 文章将多智能体强化学习应用到多级库存管理问题上,重点研究了中心训练分布执行在其中的独特作用。
3. 通过将多级库存管理问题建模为部分可观测马尔可夫决策过程,Heterogeneous-Agent Proximal Policy Optimization (HAPPO)多智能体强化学习算法,大量数值实验结果证明APPO优于常见启发式算法以及基于单智能体强化学习的策略。
4. HAPPO可以降低供应链的牛鞭效应,了训练分布执行在多级库存管理问题中的有效性。
阅读原文

清华提出BEV和强化学习特征网络!自动驾驶任务碰撞率降低20%!

文章概要:

1. 本文提出了一种基于鸟瞰图和环视摄像头输入的深度强化学习(DRL)特征提取网络,以获得车辆周围完整的环境信息。
2. 该网络基于经典的自动驾驶感知任务语义分割,对提出的特征提取网络从环视摄像头中提取的高维环境特征进行解码,并将解码后的信息可视化为环境中的其他车辆,提高了DRL的可解释性。
3. 作者提出了一种基于DRL的端到端自动驾驶框架,该框架集成了BEV。该系统结合了面向不同方向的摄像头的输入,并构建了驾驶环境的BEV表示。
4. 神经网络模块旨在从BEV数据中提取显著特征,捕获有关周围环境和车辆自身状态的相关信息。然后将提取的BEV特征输入到DRL代理中,该代理学习直接从感官输入中解码适当的驾驶策略,而无需对环境进行显式建模。
5. 通过结合BEV表示,所提出的框架旨在为DRL代理提供对驾驶场景的更全面和结构化的理解,并增强代理推理环境和做出更明智决策的能力,从而提高自动驾驶性能。
阅读原文

强化学习,原理、应用与未来展望

文章概要:

1. 强化学习的定义:通过与环境交互来学习行为策略的机器学习方法。br>2. 强化学习的原理:包括状态、动作、奖励、策略和价值函数等。
3. 强化学习的应用:在游戏智能、机器人控制、自动驾驶、推荐系统领域取得了显著成果。
4. 强化学习的未来展望面临着许多挑战,如高维空间、长时间训练、探索-等问题。
阅读原文

「论文欣赏」基于深度强化学习的多能虚拟电厂优化调度

文章概要:

1. 本文介绍了多能虚拟电厂(MEVPP)的概念和特点,以及其在提高能源利用率方面的优势。
2. 文章建立了MEVPP模型,包括发电单元、制热单元、储能装置以及空调负荷集群需求响应负荷等。
提出了一种基于深度强化学习(DRL)的优化调度方法,以最小化运行成本为目标,得到MEVPP优化调度策略集。
4. 通过算例结果证明了DRL在MEVPP优化调度中的可行性与策略集的可拓展性。
5. 文章还比较了不同参数的L算法在场景仿真中的优化结果和迭代过程,证明了PPO算法的有效性和优越性。br>6. 对比了继承已有场景优化调度策略集和初始策略集的PPO算法在新场景中的表现,证明了策略集可有效提升算法的速度和优化结果
阅读原文

强化学习简史:从AlphaGo到OpenAI O1

文章概要:

1. OpenAI 的 O1让强化学习再次成为焦点,展示了它在复杂任务中的强大能力。
2. 强化学习是机器学习的三大分支之一,它的难度来源于深厚的数学基础和复杂的理论模型。
3. 构建强化学习模型需要理解随机过程和马尔可夫决策过程。
4. 强化学习的现代发展,离不开两位大师的贡献:Richard S. Sutton 和 Andrew G. Barto。
5. 2019年秋,西蒙斯强化学习大会召开,确立了四大研究方向:在线强化学习、和基于模拟器的强化学习深度强化学习应用强化学习
6. OpenAI 的努力也推动了强化学习的发展,特别是 O1 模型结合了思维链推理,极大增强了模型的推理能力。
阅读原文

面向无信号交叉口的自动驾驶解决方案!涵盖强化学习的超全综述!

文章概要:

1. 目前自动驾驶系统的发展愈发成熟,但在无信号交叉路口的自动驾驶技术仍然被认为是机器学习的一个具有挑战性的应用,因为处理具有高度不确定性的复杂多智能体场景对于模型而言还是非常复杂的。
2. 对于自动驾驶系统的决策任务而言,采用了层级的结构进行表示。各个层级分别包括规划下一步要去哪里、根据车载传感器的观察结果在短期和长期时间范围内做出决策、在同一环境中与其他智能体交互的影响下做出决策、确保车辆控制安全可靠、从驾驶历史信息和自然的人类驾驶风格中学习、与其他车辆协调共同执行某些任务。
3. 在无信号交叉口做出决策是一个非常棘手的过程。复杂的驾驶行为和交通控制信号的消失使得对其他交叉口用户的运动推断极具挑战性。
4. 目前在学术界和工业界已经进行了大量研究来探讨提高无信号交叉口驾驶安全性的算法。根据我们的深入调查,我们发现所提出的决策算法可以分为三大:合作方法,包括博弈论、基于启发式的方法混合方法。然而,上述这些方法由于需要调整的规则数量众多,因此设计此类规则以适应各种可能的交叉情况是一个繁琐的过程。基于机器学习的方法,尤其是强化学习方法,侧重于从车辆与交叉路口环境之间的交互中学习驾驶策略。目前,有不少的文献中已经广泛研究了应用现代基于强化学习的方法来学习无信号交叉口的最佳驾驶策略。
5. 不确定性下的自动驾驶,无信号交叉口其他交叉口车辆运动预测的不确定性是由以下因素引起:路口使用者的未知意图、传感器观测的噪声特性、环境遮挡、感知受限。
6. 准确推断和预测无信号交叉口处驾驶员的意图对于解决事故原因和确保如此多样化的多智能体环境中的道路安全至关重要。为了开发DII应用的算法,人们进行了多项研究。这些算法将意图推理问题作为分类问题来解决,其中意图根据驾驶行为进行分类,这些DII方法可以分为两类:基于索引的方法和基于学习的方法。在基于索引的方法中,安全指标用于检查交叉路口的驾驶行为,以制定风险评估方案。另外一类基于经典机器学习分类技术也已被用于意图推理应用当中。
7. 近年来,受建模序列任务方面的有效性的启发,研究人员采用了深度结构化的循环神经网络来确定无信号交叉口处驾驶员的意图。
8. 由于深层结构神经网络在处理大型部分可观察状态-动作空间方面的优势,主要研究方向是开发基于学习的方案,以解决与穿越无信号交叉口相关的问题。因此,我们主要调研并介绍开发基于学习的不确定性决策算法所涉及的主要设计挑战,以及对相关最新解决方案的回顾。
9. 根据相关论文的深入调查,可以得出结论,最先进的决策方案侧重于高级决策层,即行为规划的高级推理,而忽略了先前提出的其他低级层包括低级运动规划和控制。此外,没有研究在真实驾驶环境中的实施和测试。实际上,由于领域不匹配,基于模拟的环境中强化模型的收敛并不一定能确保在现实场景中的可推广性。现实世界的观察在相关噪声序列和车辆动力学响应方面有所不同。因此,我们建议基于这些见解来进行相关研究的途径,以期推动研究领域的发展。
10. 本论文整体回顾了与无信号交叉口决策相关的挑战的各个方面,重点关注基于学习的相关算法模型。从解决的驾驶场景、所涉及的挑战、提出的基于学习的设计以及在模拟和现实环境中的验证等方面讨论了这些工作。
阅读原文