今日AI-深度强化学习-2024年9月26日

发现全网最新的AI内容

研究成果 | 耦合改进图注意力网络与深度强化学习的公共服务设施智能化选址方法

文章概要:

1. 研究提出了一种耦合设施选址图注意力网络和深度强化算法的通用图强化选址模型,通过表示和REINFORCE算法协同解决公共服务智能化选址问题。
2. 模型在不同规模的测试实例上GA表现更优,在求解上远远于。
. 随着训练集规模的,在大规模实例上的泛化效果逐渐增强。
4. 在较小规模数据上学到的知识对解决较大规模问题仍然具有和稳健性。
5. GDRL-FL充分关注到了密集的核心区域,而且在设计选址方案时,还考虑到了一些位于边缘地区的小区,这些区域适当分配了,实现了更为全面的医疗资源分配。
阅读原文

【运行调控】基于深度强化学习的城市排水系统实时控制状态选择与成本估算

文章概要:

1. 文章对排水系统中进行基于深度强化学习状态向量进行
2. 文章估算了利用深度强化学习进行城市排水控制的成本
3. 目前的研究主要集中分析DRL方法的可行性以及传统进行比较,仍需要优化DRL方法的设计和成本
4. 本文采用状态选择和成本估算分析不同状态对DRL方法性能的影响为实际应用提供相关建议
5. 以实际的流UDS为例,开发不同状态DRL模型,然后比较其控制效果和数据监控成本
6. 结果表明,当使用较少的节点信息或水位作为状态时,DRL的训练过程是困难的
7. 同时使用上行和下行节点信息输入,提高了DRL的控制效果
8. 使用上游节点上的信息作为输入状态比使用下游节点更有效
.流量作为输入比使用水位更有可能产生更好的控制效果,而同时使用流量和水位并不能进一步提高控制效果
10. 由于流量监测的成本高于水位监测,因此需要根据成本效益来平衡监测节点的数量流量/水位使用
阅读原文

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

文章概要:

1. 自我纠正(Self-correction)是大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在LLM中基本上很少。
2. Google DeepMind的研究者开发了一种无需上述任何要求有效进行纠正的方法,即通过强化学习进行自我纠正(SCoRe,Selforrection via Reinforcement Learning),只需训练一个模型,该模型既可以对推理问题做出响应,可以纠正错误,尽管没有收到任何acle
3. SCoRe原理是将标准单强化学习公式2)扩展到Zhou等人提出的分层框架下的多轮。br>4. SCoRe旨在解决上述关键挑战,其分为两个阶段,这两个通过适当初始化模型和控制后续RL使模型偏向学习自我纠正。
5. 该研究进行了一系列实验,来验证SCoRe在教M自我纠正能力方面的有效性,并通过消融探索了SCo的每个组件的影响。
阅读原文

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

文章概要:

1. 现有训练自我纠正的方法要么需要多个模型,要么依赖于更强大的模型或其他形式的监督DeepMind开发了一种无需上述任何要求即可有效进行自我纠正的方法,即通过强化学习进行自我纠正(SCoRe,Self-Correction via Reinforcement Learning),只需训练一个模型,该模型既可以推理问题做出响应,也可以错误,尽管没有收到任何 oracle 反馈
2. SCoRe标准单轮强化学习扩展到Zhou等人提出的分层框架下多轮设置,通过仔细的初始化和奖励塑造来解决这些挑战
. SCoRe旨在解决上述关键挑战,其分为两个阶段,这两个阶段都是通过适当初始化模型和控制后续RL使模型偏向学习自我纠正
4. 该研究进行了一系列实验,来验证SCoRe在教M具备自我纠正能力方面的有效性,并通过消融实验了SCoRe的每个组件的影响
5. 该研究主要关注数学和编码任务,MATH、MB和HumanEval基准来评估方法的有效性
阅读原文

CES期刊研究文章推荐 | 使用Takagi-Sugeno-Kang模糊系统进行强化学习

文章概要:

1 介绍了CES期刊精选专题文章Reinforcement learning with Takagi-Sugeno-Kang fuzzy systems。
2. 指出模糊系统可解决各种框架和中的控制问题,但在某些应用中动态模型不可用或过于复杂。
3. 强化学习(RL)可优化各种控制系统,在游戏和工业应用中取得成功,但存在可解释性缺陷。
4.解释机器学习使相关算法易于理解、透明和可信,可解释的模糊人工智能在这一领域取得进展。
5. 为开发可解释模型的RL算法,基于模糊的RL架构展现出希望,作者开发了Takagi-Sugeno-Kang(TSK)模糊系统。
6. 提出用于生成高性能Takagi-Sugeno-Kang (TSK)模糊系统的强化学习(RL)。
7. 实证研究基于RL的TSK模糊系统和ANFIS架构,作为开发可解释人工智能的解决方案。
阅读原文

【论文分享】天津大学 杨挺等《基于深度强化学习的园区综合能源系统低碳经济调度》

文章概要:

1. 天津大学杨挺等人在电网技术期刊上发表论文《基于深度强化的园区综合能源系统低碳调度》。
2 论文提出一种考虑阶梯式碳交易的园区综合能源系统低碳经济调度模型,并采用深度强化学习方法求解。
3. 所提方法无需进行负荷预测或不确定性建模,能够对源和荷的随机波动做出实时响应。
4. 最后基于多场景多算法进行算例仿真,所提方法提高系统运行经济性的同时降低了系统碳排放量。
阅读原文

山东大学 祁向龙、陈健、赵浩然等:多时间尺度协同的配电网分层深度强化学习电压控制策略

文章概要:

1. 本文提出一种多时间尺度协同的配电网分层深度强化学习电压控制策略
2. 考虑电动汽车用户需求响应特性,在日前协同调度分组投切电容器制定分时电价引导用户改变充电行为实现有序充电
3. 在日内构建具有双层结构的强化学习策略,通过双层策略实现对具有不同时间响应特性资源的协同调控以降低系统电压偏差
4. 通过对改进的IEEE 33节点系统进行算例分析验证了所策略的有效性
阅读原文