谷歌论文:使用深度强化学习的芯片布局
文章概要:
1. 本文提出一种基于学习的芯片布局方法,将布局作为强化学习(RL)问题,通过训练代理将芯片网表的节点放置到芯片蓝图上,使代理能够泛化到未见的芯片模块,在不到6小时的时间内,生成具有媲美或人工的现代加速器网表上的布局。
2. 本文将芯片布局作为强化学习(RL)问题,通过训练代理将芯片网表的节点放置到芯片蓝图上,使代理能够泛化到未见的芯片模块,在不到6小时的时间内,生成具有媲美或超过人工的现代加速器网表上的布局。
3. 本文将芯片布局作为强化学习(RL)问题,通过训练代理将芯片网表的节点放置到芯片蓝图上,使代理能够泛化到未见的芯片模块,在不到6小时的时间内,生成具有媲美或超过人工的现代加速器网表上的布局。
阅读原文
2. 本文将芯片布局作为强化学习(RL)问题,通过训练代理将芯片网表的节点放置到芯片蓝图上,使代理能够泛化到未见的芯片模块,在不到6小时的时间内,生成具有媲美或超过人工的现代加速器网表上的布局。
3. 本文将芯片布局作为强化学习(RL)问题,通过训练代理将芯片网表的节点放置到芯片蓝图上,使代理能够泛化到未见的芯片模块,在不到6小时的时间内,生成具有媲美或超过人工的现代加速器网表上的布局。
研究成果介绍:基于Actor-critic强化学习的船舶模型跟随控制器的设计与实现
文章概要:
1. 论文题目为“Design and implementation of a model-following controller for autonomous surface ships based on actor–critic reinforcement learning”,近期发表于SCI刊物《Ocean Engineering》,提出并实现了一种基于DDPG和SAC算法的模型跟踪控制策略,以提高控制器在实际环境中的适用性,在缩尺比全回转尾推进(ASD)拖轮上分别进行了虚拟仿真和物理实验验证。
2. 模型跟随控制是以在真实船舶(本船OS)上模拟或复制虚拟船(参考船RS)的动态响应为主要目标,实现实船对船三自由度(横荡、纵荡和首摇)航行状态模拟的控制策略。
3. 将模型跟随控制问题转化为马尔可夫决策过程(MDP)是基于DRL实现模型跟随控制的关键过程之一。
4. 本文选取两类典型的actor-critic 强化学习算法,DDPG和SAC,以船舶动力学模型位训练环境,构建模型跟随最优控制器。
5. 本文以“求新5号”自航缩比ASD拖轮为控制对象、以1:45缩比KVLCC2虚拟模型为参考船,分别进行虚拟仿真和物理实验,验证了本研究方法的有效性。
6. 随着航运业与人工智能等高新技术的融合,船舶航行正逐步由辅助驾驶演变为远程控制,最终将实现完全自主。在此过程中,如何突破自主控制中船舶模型精度限制、不确定环境干扰、系统自适应性差等科学问题与技术难点,增强控制的稳定性,构建安全的船舶智能航行系统成为研究重点。
阅读原文
2. 模型跟随控制是以在真实船舶(本船OS)上模拟或复制虚拟船(参考船RS)的动态响应为主要目标,实现实船对船三自由度(横荡、纵荡和首摇)航行状态模拟的控制策略。
3. 将模型跟随控制问题转化为马尔可夫决策过程(MDP)是基于DRL实现模型跟随控制的关键过程之一。
4. 本文选取两类典型的actor-critic 强化学习算法,DDPG和SAC,以船舶动力学模型位训练环境,构建模型跟随最优控制器。
5. 本文以“求新5号”自航缩比ASD拖轮为控制对象、以1:45缩比KVLCC2虚拟模型为参考船,分别进行虚拟仿真和物理实验,验证了本研究方法的有效性。
6. 随着航运业与人工智能等高新技术的融合,船舶航行正逐步由辅助驾驶演变为远程控制,最终将实现完全自主。在此过程中,如何突破自主控制中船舶模型精度限制、不确定环境干扰、系统自适应性差等科学问题与技术难点,增强控制的稳定性,构建安全的船舶智能航行系统成为研究重点。
最新成果 · 基于模型预测控制引导的深度强化学习的锂电池快充优化
文章概要:
1. 文章提出了一种MPC引导的DRL的充电框架,以应对因模型不确定性或额外干扰带来的控制挑战。该框架结合了MPC和DRL的优点,不仅能有效应对基于模型方法中不确定性导致的性能下降,还能缩小DRL的搜索空间,提高基于学习方法的样本效率。
2. 文章介绍了电池的电热耦合模型,接着全面审查了基于模型和基于学习的充电优化方法。通过综合两者的优势,提出了MPC引导的DRL方案来应对建模不确定性。最后,通过与其他策略的比较,评估了该方法的性能。结果表明,在存在建模误差的情况下,基于MPC的独立控制器不可避免地违反电压约束,而基于DRL框架的控制器则有效避免了这种违规行为。进一步的仿真结果表明,所提出的MPC引导的DRL策略不仅缩短了充电时间,还表现出更快的收敛速度、更高的样本效率和更安全的训练过程。
阅读原文
2. 文章介绍了电池的电热耦合模型,接着全面审查了基于模型和基于学习的充电优化方法。通过综合两者的优势,提出了MPC引导的DRL方案来应对建模不确定性。最后,通过与其他策略的比较,评估了该方法的性能。结果表明,在存在建模误差的情况下,基于MPC的独立控制器不可避免地违反电压约束,而基于DRL框架的控制器则有效避免了这种违规行为。进一步的仿真结果表明,所提出的MPC引导的DRL策略不仅缩短了充电时间,还表现出更快的收敛速度、更高的样本效率和更安全的训练过程。
最新成果 · 模型预测控制引导的深度强化学习用于锂电池快充优化
文章概要:
该内容者删除。
阅读原文