今日AI-深度强化学习-2024年11月1日

发现全网最新的AI内容

报告|东南大学:适于电力系统的深度强化学习方法探索,附PPT下载

文章概要:

1 2024102日,东南大学电气工程教授翔昱应邀到江苏省技术学会作学术>. 张教授针对新型电力的特性需求响应和电网韧性为案例,介绍了两种深度强化学习的改进算法框架,讨论如何强化学习训练以速度更好的策略
3. 从优化性能工程与算力等探讨了深度强化学习在工程中的应用优势
4. 关注控制网公众号,在对话框回复24101”,即可下载《适于电力系统的强化学习方法探索》PPT
阅读原文

报告|适于电力系统的深度强化学习方法探索

文章概要:

1. 2024年10月29日,东南大学电气工程教授张翔昱教授应邀电工技术学会作学术讲座
2. 张翔昱教授针对新型电力系统的复杂特性,介绍了两种深度强化学习的改进算法框架,讨论如何使强化学习训练以更快的收敛更好的策略。同时,从优化性能、工程实用性与算力需求等方面探讨了深度强化学习工程中的应用及其优势
3 报告内容分享
阅读原文

【热点与前沿】智能系统中的强化学习方法

文章概要:

1. 强化学习的发展历程始于20世纪50年代,包括Richard Bellman基于动态规划问题提出的贝尔曼方程和Minsky首次提出的强化学习概念。
2. 1978年,Sutton和Barto在时序差分思想的基础上提出了“actor-critic”构架用于解决小车平衡杆问题,之后Sutton将时序差分作为一般预测方法进行研究。
3. 1989年,Watkins将时序差分和最优控制相结合,提出了强化学习领域中里程碑式的模型Q-Learning。
4. 1992年,Williams提出了REINFORCE算法并首次引入了策略梯度方法,此后由Richard Sutton证明利用函数近似Q值时策略梯度定理成立。
5. 2015年,DeepMind发表了基于深度学习的强化学习模型“深度Q网络(deep Q-network, DQN)”的文章,随后该团队推出AlphaGo,利用蒙特卡洛树搜索策略和深度神经网络有效降低了搜索空间的复杂度。
6. 2015年,Schulman等人引入Kullback-Leibler(KL)散度,提出了置信域策略梯度优化(trustregion policy optimization, TRPO),确保了策略优化过程中的稳定性。
7. 2016年,异步优势演员-评论家(asynchronous advantage actor-critic, A3C)的出现提高了训练的效率和稳定性,而深度确定性策略梯度(deep deterministic policy gradient, DDPG)解决了高维的连续动作空间中的问题。
8. 2018年,基于最大熵的演员-评论家算法(soft actor-c, SAC)通过引入最大熵,进一步改进了策略优化,有效平衡了探索和利用之间的关系。
9. 2018年,基于循环经验回放的分布式强化学习(recurrent experience replay in distributed reinforcement learning,2D2)解决了循环神经网络和大规模分布式框架下的模型训练问题。
10. 2020年,DeepMind团队在AlphaZero算法和策略搜索的基础上提出了MuZero算法,该算法能够在无明确模型的前提下进行学习和决策。而基于自预测表示的数据高效强化学习(data-efficient reinforcement learning with self-predict representations, SPR)通过引入自预测表示增强了模型的学习效率和泛化能力。
阅读原文