今日AI-深度强化学习-2024年9月21日

发现全网最新的AI内容

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

文章概要:

1. 大语言模型的自我纠正能力很重要,但现代LLM中基本很少这种能力。
2. 之前的研究要么依赖提示工程,要么依赖微调模型,但都有局限性。
3 Google DeepMind的研究者开发了一种无需依赖外部或额外模型的自我纠正方法,即通过强化学习进行自我纠正(SCoRe)。
4. SCoRe通过在自生成数据上进行训练来教模型具备自我纠正,而无需任何oracle。
5. SCoRe将标准单轮强化扩展到多轮设置,并通过在线RL方法解决了分布偏移和模式崩溃的问题
6. SCoRe分为两个阶段,包括训练模型初始化以防止崩溃和带有奖励多轮强化学习。
. 实验评估表明,SCo在教LLM具备自我纠正能力方面是有效的
阅读原文

论文分享|当深度强化学习来规划城市社区空间

文章概要:

1. 分享的文献《S planning of urban communities via deep reinforcement learning》,该文献为英文,发表在著名期刊Nature Computational Science。
2. 传统规划方法依赖人类专家,而本研究引入DRL和GNN技术,提出,提升规划效率和效果。
3. 研究使用OpenStreet地理数据,通过Python工具处理和预处理模型基于DRL框架,包含GNN编码器和两个独立政策网络。
4. 本研究在综合社区和现实规划,如和不同土地利用类型数量了在不同规模合成网格社区之间的转移。
5. 作者团队调查了不同土地覆盖环境下的社区改造,调整规划要求和奖励权重,生成不同样式的计划。
阅读原文

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

文章概要:

1. 现有训练自我纠正的方法存在问题,如需要多个模型、依赖更强大模型或其他形式监督等。
2. DeepMind的研究者开发了一种无需上述任何要求即可有效进行自我纠正,即通过强化学习进行自我纠正(SCoRe),只需训练一个模型,该模型既可以推理问题做出响应,也可以纠正错误,尽管没有收到任何oracle反馈。
3. SCoRe原理是将标准单轮强化学习扩展到Zhou等人提出的分层框架下的多轮设置,面临诸多挑战,作者开发了一种在线RL方法,通过仔细的初始化和奖励塑造来解决这些。
4. SCoRe分为两个阶段,包括训练模型初始化以防止崩溃和带有奖励的多轮强化学习。
5. 该研究进行了一系列实验,来验证SCoRe在教LLM具备纠正能力方面的有效性通过消融实验探索了SCoRe的每个组件的影响。
阅读原文