今日AI-深度强化学习-2024年10月12日

发现全网最新的AI内容

J. Am. Chem. Soc. | 结合深度学习与强化学习提升分子生成及反应性能

文章概要:

  1. 研究团队提出将深度强化学习(RL)与递归神经网络(RNN)生成模型相结合,开发名为“RE-EXPLORE”的新方法,用于优化化学反应的产率和选择性。通过对三种大型化学数据库(ChEMBL、ZINC和COCONUT)进行预训练,该方法探索了反应空间,并在高产率底物和高对映选择性催化剂的设计中取得了显著成果。
  2. 研究团队将强化学习(Reinforcement Learning, RL)引入到生成过程,形成了RE-EXPLORE框架。在RL框架中,生成分子过程被视为一个决策序列,模型的状态代表当前已生成的分子片段,而动作则是选择下一个分子片段。每次选择都会根据回报函数得到一个奖励值,该奖励值用于衡量生成分子的化学性能。
  3. 研究团队使用了一系列评估指标来衡量生成模型的表现,包括有效性、独特性和新颖性等。有效性用于衡量生成的分子是否符合化学规则,而独特性则评估生成分子的多样性,确保模型不会生成过多相似的分子。新颖性则用于衡量生成的分子与训练集中已知分子的差异性,确保模型能够生成创新的分子。
  4. 研究团队使用了三个化学数据库(ChBL、ZINC和COCONUT)来训练基于RNN的生成器(G)。尽管这些数据库被用于生成模型以及迁移学习,然而其在探索化学反应空间中的作用尚待确定。通过使用UMAP图对RNN编码器输出进行可视化,研究团队发现了三个明显的区域,表明这些数据库之间及其内部具有不同的特征。
  5. 研究团队的RL模型在三种不同反应中的强大性能得到了展示,包括在脱氧氟化反应中提高了多达35个单位的产率,在不对称亚胺-硫醇偶联反应中增加了20个单位的%ee,且在不对称氢化亚胺/烯烃反应中提高了近12个单位的%ee。
阅读原文

决策智能与强化学习:重放比率(replay ratio)

文章概要:

1. 本文旨在探讨重放比率与网络可塑性之间的关系,以及如何利用这一关系来改进DRL的性能和扩展能力,选取了三项代表性的研究工作进行深入分析。
2. 休眠神经元现象:随着训练进行RL agent的网络中休眠神经元的比例越来越高,进而影响了网络的表达能力,replay ratio越大,越会加剧这种效应。
3. BBF Agent:作者提出了一种基于价值的强化学习agent,称为BBF(Bigger,Better,Faster)。该agent在At 100K基准测试中取得了超越的表现。
4. 持续学习中的可塑性丧失:标准的深度学习方法在持续学习环境中逐渐失去可塑性,直到它们的学习效果与浅层网络无异。
5. 本文综合以上分析,得出高重放比率可能导致网络可塑性下降,需要通过方法如ReDo或网络重置来缓解负面影响等结论。
阅读原文

推荐阅读丨太阳能无人机深度强化学习航迹规划及半实物仿真

文章概要:

1. 针对太阳能无人机高能效飞行航迹规划试验验证问题,提出了一种基于迹规划方法,并搭建了地面实物仿真> 2. 建立太阳能无人机的运动学能量获取与消耗等模型等飞行状态与能量状态的耦合效应了太阳能无人机能量最优航迹规划问题,基于策略梯度算法开展智能体训练,并进行了有效性仿真分析
4. 搭建地面半实物测试平台,完成平台自身性能测试后,将强化进行在线部署,进而开展半实物仿真试验验证
5. 结果表明,相较于传统飞行策略,所提方法训练出的策略在200s的飞行时间内获取能量提升2.9%,消耗能量降低30.46%,积累能量提升11.36%
6. 所提策略能更加充分太阳能,降低飞行需求功率,达到提能增效的目标,可为太阳能无人机高能效飞行提供参考
阅读原文

西安交通大学的严如强等人使用深度强化学习解决了多目标优化问题,其中包括维护成本和可靠性模型

文章概要:

1. 西安交通大学的严如强等人使用深度强化学习解决了多目标优化问题,其中包括维护成本和可靠性模型
2. 该研究有效优化维护策略对于降低复杂设备的成本至关重要
3. 航空发动机维护本质上是一项风险敏感的任务,需要一种更加平衡的方法
4. 本研究使用多目标DRL优化航空发动机维修策略,优化维护和可靠性
5.提出了一种用于优化航空发动机维护策略的MOP框架
阅读原文

西安交通大学的严如强等人使用深度强化学习解决了多目标优化问题,其中包括维护成本和可靠性模型

文章概要:

1. 西安交通的严如强等人强化解决了目标问题,其中包括维护成本模型
2. 航空发动机维护本质上是一项风险敏感的任务,需要一种更加平衡的方法
3.研究使用多目标DRL航空发动机维修策略,协调优化维护成本和>4. 本中提出的方法不仅显着降低了维护成本,而且还可以通过选择不同的权重组合地根据各种目的定制优化目标
5. 针对不同目标权重的系统选择以及集群维护的是本研究需要进一步细化和优化的方面
阅读原文

每周文章分享-91

文章概要:

1. 研究背景:具有边缘计算服务器的卫星网络有望为未来卫星-地面集成网络中的物联网应用提供无处不在的低时延计算服务,作者研究了使用卫星间合作的卫星边缘计算服务迁移的任务卸载问题。
2. 关键技术:作者以最小化服务时延为目标,研究了具有动态服务需求和卫星移动性的
3. 算法介绍:作者提出了一种具有业务迁移的STIN任务卸载方案,以保持业务的连续性。在卫星边缘计算框架下,确定了时延敏感任务的卸载决策。
4. 实验结果:作者进行了大量的仿真,以验证所开发的基于D3QN的方案的性能。仿真结果表明,所设计的算法可以获得比基准测试更好的时延性能。
5. 总结:本文研究了STIN中具有业务迁移的任务卸载问题。该问题最重要的区别在于卸载决策,考虑了业务迁移影响下的卫星间合作。目标是在星载资源约束和动态服务需求下,结合低轨道卫星的高机动性和负载不平衡性,最大限度地减少服务延迟。
阅读原文