深度强化学习落地二三事
文章概要:
1. 作者认为深度强化学习的落地存在争议,既不能捧杀,也一棍子,应该有客观理性的评价。
2. 深度强化学习在工业界的应用场景包括大规模AGV集团集群的路径规划与任务调度、智慧交通灯的控制、基于强化学习的神经网络结构的自动搜索、基于强化学习的数据模型、择优机械臂开门以及移动机器人的路径导航等。
3. 深度强化学习在落地实践中面临的挑战包括reality gap、客户对安全性的要求、算法对突发状况的应对能力、算法性能相对于baseline的优势等。
4. 针对这些挑战,作者提出了一些解决方案,包括在立项之前评估项目的可行性、使用优质的模拟器、因地制宜地满足安全性要求、明确性能指标以及性能和流程、持续跟踪学术界的前沿进展、充分挖掘问题定义的潜力、强化学习算法与传统方案融合>5. 作者将强化学习落地的一般流程总结为需求分析、动作空间设计、设计、规划式设计、算法选择、训练调试、性能冲刺、部署到工作环境中。
6. 作者认为需求分析需要依次回答是不是、值不值、能不能和边界在哪里四个问题。
7. 作者认为使用深度强化学习的理由有解空间太大、基于表格的传统的强化学习的算法作为信息载体难以为继、状态信息中存在一些高维的特征。
8. 作者认为在回答完值不值的问题之后,接下来就要回答能不能的问题,要回答这个问题,核心就是要抓住场景固定和数据廉价两个要点。
9. 作者认为需求的智能边界应该如何划分。
10. 作者认为深度强化学习可以被划分为model base的和model free的方法,目前model free的方法得到了广泛的应用。
11. 作者认为任何学习的算法,其实都可以被解构成四元核心组件,它们分别是基本原理、探索方式、样本管理、梯度计算。
12. 作者根据实际的经验总结了一张算法选择的一般性结论的表格,包括动作空间类型的兼容性、采样成本的容忍度、运算资源的需求、训练稳定性以及其他。
13. 作者认为回报书设计是强化学习应用中的非常重要的一环,回报函数其实就有点像面向强化学习的汇编语言一样。
14. 作者介绍了在实现这些辅助回报的过程中,由于病态的设计导致的几种常见的异常行为,包括鲁莽、贪婪和诺诺。
阅读原文
2. 深度强化学习在工业界的应用场景包括大规模AGV集团集群的路径规划与任务调度、智慧交通灯的控制、基于强化学习的神经网络结构的自动搜索、基于强化学习的数据模型、择优机械臂开门以及移动机器人的路径导航等。
3. 深度强化学习在落地实践中面临的挑战包括reality gap、客户对安全性的要求、算法对突发状况的应对能力、算法性能相对于baseline的优势等。
4. 针对这些挑战,作者提出了一些解决方案,包括在立项之前评估项目的可行性、使用优质的模拟器、因地制宜地满足安全性要求、明确性能指标以及性能和流程、持续跟踪学术界的前沿进展、充分挖掘问题定义的潜力、强化学习算法与传统方案融合>5. 作者将强化学习落地的一般流程总结为需求分析、动作空间设计、设计、规划式设计、算法选择、训练调试、性能冲刺、部署到工作环境中。
6. 作者认为需求分析需要依次回答是不是、值不值、能不能和边界在哪里四个问题。
7. 作者认为使用深度强化学习的理由有解空间太大、基于表格的传统的强化学习的算法作为信息载体难以为继、状态信息中存在一些高维的特征。
8. 作者认为在回答完值不值的问题之后,接下来就要回答能不能的问题,要回答这个问题,核心就是要抓住场景固定和数据廉价两个要点。
9. 作者认为需求的智能边界应该如何划分。
10. 作者认为深度强化学习可以被划分为model base的和model free的方法,目前model free的方法得到了广泛的应用。
11. 作者认为任何学习的算法,其实都可以被解构成四元核心组件,它们分别是基本原理、探索方式、样本管理、梯度计算。
12. 作者根据实际的经验总结了一张算法选择的一般性结论的表格,包括动作空间类型的兼容性、采样成本的容忍度、运算资源的需求、训练稳定性以及其他。
13. 作者认为回报书设计是强化学习应用中的非常重要的一环,回报函数其实就有点像面向强化学习的汇编语言一样。
14. 作者介绍了在实现这些辅助回报的过程中,由于病态的设计导致的几种常见的异常行为,包括鲁莽、贪婪和诺诺。
数字工程 | 德国莱普工业大学团队:基于深度强化学习的既有工厂规划模拟
文章概要:
1. 公众号聚焦数字孪生与数字工程研究,依托Digital Twin和 Digital Engineering期刊及DigiTwin国际会议和国内会议,最新动态、成果与行业进展,助力产业升级。
2. 该公众号北航陶飞教授发起,为研究者与从业者提供参考。
阅读原文
2. 该公众号北航陶飞教授发起,为研究者与从业者提供参考。
Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习
文章概要:
1. OpenAI创始成员Andrej Karpathy后悔没有早点带领OpenAI开创大模型时代,认为自己在很长一段时间里误入歧途,随大溜一起搞强化学习。
2. Karpathy早在201年就已经注意到了RNN的潜力,并专门写了一篇名为《RNN的不合理有效性》。
3. Kar在文章中深入探讨了循环RNN的潜力与实际应用,包括使用RNN来生成类似莎士比亚作品的文本,以及模拟编程代码和数学公式的生成。5.pathy博客中讲解了RNN的基本工作原理,并通过一个具体的字符级语言模型应用来说明操作过程。7. 2017年谷歌发布了Transformer论文,提出了注意力在这个基础上,人们逐步出大模型Scaling Laws,将AI技术向通用化,直到今天。
阅读原文
2. Karpathy早在201年就已经注意到了RNN的潜力,并专门写了一篇名为《RNN的不合理有效性》。
3. Kar在文章中深入探讨了循环RNN的潜力与实际应用,包括使用RNN来生成类似莎士比亚作品的文本,以及模拟编程代码和数学公式的生成。
撬开智能决策的基石——《深度强化学习》出版
文章概要:
1 人工智能多个产业应用增多,引领多领域变化,深度强化学习是其新兴研究热点。
2. 《深度强化学习》围绕前沿算法展开论述,定位为实用类著作,介绍算法时结合例子和代码。
3. 该书内容全面系统,涵盖基本概念和算法,平衡深度学习和强化学习内容,浅入深,关联性强。
4. 反映当前最新发展水平,实用性强,主流算法,作者提供基于Python 3.0以上的编程语言,与主流深度学习框架同步,可直接应用,且在介绍重要概念后提供实际代码。
5 应用领域广泛,指导性较强,概念可应用于多个民用实用领域。
6. 《深度强化学习》为引进版权图书,获得装备科技译著出版基金资助。
7. 该书对深度强化学习的算法与应用讲解透彻,基础理论知识丰富,对应用基础研究和工程技术研究有一定参考价值。br>8. 介绍了作者和译者的相关信息。
阅读原文
2. 《深度强化学习》围绕前沿算法展开论述,定位为实用类著作,介绍算法时结合例子和代码。
3. 该书内容全面系统,涵盖基本概念和算法,平衡深度学习和强化学习内容,浅入深,关联性强。
4. 反映当前最新发展水平,实用性强,主流算法,作者提供基于Python 3.0以上的编程语言,与主流深度学习框架同步,可直接应用,且在介绍重要概念后提供实际代码。
5 应用领域广泛,指导性较强,概念可应用于多个民用实用领域。
6. 《深度强化学习》为引进版权图书,获得装备科技译著出版基金资助。
7. 该书对深度强化学习的算法与应用讲解透彻,基础理论知识丰富,对应用基础研究和工程技术研究有一定参考价值。br>8. 介绍了作者和译者的相关信息。
Karpathy 的遗憾:2015 年已见语言模型潜力,为何却搞了强化学习多年?
文章概要:
1. Andrej Karpathy后悔自己没有早点OpenAI开创大模型时代,自己当年早已认识到回归语言模型的强大潜力却一段时间里“误入歧途”,随大溜一起强化学习> 2. Andrej Karpathy 专门写了一篇名为《RNN 的不合理有效性》文章,文章深入探讨了循环神经网络RNN)的潜力与实际应用> 3. Andrej Karpathy 在博客中讲解了NN的基本工作原理,并通过一个具体的级语言模型应用来说明其实际操作过程
4. 201年谷歌发布了Transformer论文,提出了自注意力机制。在基础上人们逐步探索出大模型的Scaling Laws,AI技术向通用化延伸,直到今天
阅读原文
4. 201年谷歌发布了Transformer论文,提出了自注意力机制。在基础上人们逐步探索出大模型的Scaling Laws,AI技术向通用化延伸,直到今天
《基于深度强化学习的安全约束分布式多无人机协同》最新130页博士论文
文章概要:
1. 本文探讨了多智能体强化学习(MAR在复杂环境无人规划和协同中的
2. 论文的第一部分介绍了单智能体强化MAR举例说明了MARL在反无人机系统(C-UAS)中的应用。
3. 论文的第二部分涉及多智能体系统的安全学习方法,了一种安全二次优化控制算法。
4. 利用MARL框架解决终端时间协调问题,成功实现了无人机同时到达避免与其他无人机和非合作飞行物(FO)发生碰撞。
阅读原文
2. 论文的第一部分介绍了单智能体强化MAR举例说明了MARL在反无人机系统(C-UAS)中的应用。
3. 论文的第二部分涉及多智能体系统的安全学习方法,了一种安全二次优化控制算法。
4. 利用MARL框架解决终端时间协调问题,成功实现了无人机同时到达避免与其他无人机和非合作飞行物(FO)发生碰撞。
【Python】Trans论文复现:基于Agent的电力市场深度决策梯度(深度强化学习)算法建模程序代码!
文章概要:
1. 程序使用深层确定性策略梯度算法对发电商进行建模,该算法使用深度神经网络来提高性能并避免/动作空间的离散化。所提出的被用于模拟几种市场场景,不同设置的发电商耐心特性、不同数量的发电商和时变负载。程序中算例丰富、注释清晰、干货满满,创新性很高。
提出了一种基于深层确定性策略梯度算法的电力市场仿真模型。深度神经网络的使用提高了所提出的模型在处理高维连续数据方面性能,避免了/动作的化<>. 提出了一种市场力量的方法。所提出模型可以通过定量调整代理的等待时间来准确地模拟不同的竞价水平,用于表征市场程度和分析潜在的市场力量
阅读原文
提出了一种基于深层确定性策略梯度算法的电力市场仿真模型。深度神经网络的使用提高了所提出的模型在处理高维连续数据方面性能,避免了/动作的化<>. 提出了一种市场力量的方法。所提出模型可以通过定量调整代理的等待时间来准确地模拟不同的竞价水平,用于表征市场程度和分析潜在的市场力量
上海交通大学 李士丹、李航、李国杰等:考虑分区与模仿学习的深度强化学习配电网电压优化策略
文章概要:
1. 现有深度强化学习方法在解决配电网电压优化问题时,信用分配难、探索效率等问题,在模型训练速度和优化效果等方面表现欠佳
2. 本文结合配电网降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度的电压优化方法
3. 通过配电网分区,解耦多智能的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体寻
4. 基于改进IEEE 33节点系统进行算例测试,结果表明,所提电压优化较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果
阅读原文
2. 本文结合配电网降损与模仿学习的思想,提出一种基于指导信号的多智能体深度确定性策略梯度的电压优化方法
3. 通过配电网分区,解耦多智能的外部奖励,并结合模仿学习,利用指导信号引入内部奖励,帮助智能体寻
4. 基于改进IEEE 33节点系统进行算例测试,结果表明,所提电压优化较传统DRL方法具有更高的样本利用率,实现了更稳定的收敛及更高的模型训练效率,提升了配电网电压的优化效果
文章推荐|地震震源机制反演的深度强化学习及其在海洋地震中的潜在应用
文章概要:
1 人工智能在地球领域得到了广泛应用,人员提出强化学习地震反演方法
2. 该方法阐述了强化学习地震反演的基本原理,并在2019年南加州7.1地震进行了实际应用>3. 强化学习在地球物理反演中广泛的应用潜力有助于监测陆地和海洋地震活动
4. 文章详细解释了该方法的具体和原理,并给出了实际应用结果和分析
. 文章最后还给出了引用格式和联系方式
阅读原文
2. 该方法阐述了强化学习地震反演的基本原理,并在2019年南加州7.1地震进行了实际应用>3. 强化学习在地球物理反演中广泛的应用潜力有助于监测陆地和海洋地震活动
4. 文章详细解释了该方法的具体和原理,并给出了实际应用结果和分析
. 文章最后还给出了引用格式和联系方式
Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习
文章概要:
1. Andrej Karpathy后悔自己没有早点带领OpenAI开创大模型时代,他认为当年早已认识到自回归语言模型的强大潜力,但却在很长一段时间里“误入歧途”,随大溜搞强化学习。
2. Karpathy提到Yann LeCun当时就不太看好强化学习,他一遍又一遍地谈论“蛋糕”,而强化学习(RL)只是蛋糕顶部最后一颗樱桃,表征学习是蛋糕主体,监督学习是锦上添花<> 3 Karpathy早在15年就已经注意到了R为此他还专门写了一篇名为《RNN的不合理有效性》文章。文章深入探讨了循环神经网络(RNN)潜力与实际应用。
阅读原文
2. Karpathy提到Yann LeCun当时就不太看好强化学习,他一遍又一遍地谈论“蛋糕”,而强化学习(RL)只是蛋糕顶部最后一颗樱桃,表征学习是蛋糕主体,监督学习是锦上添花<> 3 Karpathy早在15年就已经注意到了R为此他还专门写了一篇名为《RNN的不合理有效性》文章。文章深入探讨了循环神经网络(RNN)潜力与实际应用。