深度强化学习-2024年10月10日最新技术资讯

知识驱动的智能博弈对抗行动序列规划

文章概要：

1. 针对深度强化学习解决博弈序列规划问题中存在的探索利用矛盾、奖赏信号稀疏、数据利用率低、难以稳定收敛等问题，分析了基于知识的学习型生成模式，提出基于知识驱动，用规则、从数据中学、用问题等方面构建了博弈对抗行动序列规划模型。<> 2. 对基于强化学习的智能博弈对抗问题求解的难点问题进行了讨论指出下一步深度强化学习算法走向实用的

阅读原文

北京大学光华管理学院、人工智能研究院彭一杰、杨耀东课题组发文研究多智能体强化学习在多级库存管理中的应用

文章概要：

1. 北京大学光华管理学院研究院一、杨耀东发文研究多智能体强化学习在库存管理中的应用，文章被Production and Operations Management接收。
2. 供应链管理在全球经济中发挥着越来越重要的作用，库存管理是供应链管理的核心对供应链网络的水平和经济效率重大影响。<>库存管理开辟了新的机遇强化学习使用通过与环境获得的反馈来学习马尔可夫决策过程的最佳策略。
4. 此工作将多智能强化学习应用多级库存管理问题上，并重点研究了多智能体强化学习特有的中心训练执行框架在多级库存管理中的独特作用。<>5. 通过将多级库存问题建模部分可观测马尔可夫决策，此工作应用了Hogeneous-Agent Proximal Policy Optimization （HAPPO）多智能体强化学习算法。
6. 大量数值实验结果证明HAPPO优于常见启发式算法以及基于单智能体学习的策略。
7. HAPPO可以降低供应链的牛鞭效应反映了中心训练分布执行框架管理问题中的有效性。

阅读原文

基于联邦深度强化学习的无人机辅助车联网联合数据缓存和计算卸载方法

文章概要：

1. 论文题目为《Joint Data Caching and Computation Offloading in UAV-assisted Internet of Vehicles via Federated Deep Reinforcement Learning》，发表于《IEEE Transactions on Vehicular Technology》期刊。
2. 本文建立了一个联合无人机辅助的IoV，提出了一个动态数据缓存和计算卸载的联合优化问题。
3. 为了解决大规模的动态场景问题，设计了基于DRL的算法，引入一种基于联邦学习（FL）的分布式训练机制。
4. 实验结果表明，Fed-IDCCO算法能够有效地降低动态网络场景下平均任务处理延迟，最大化无人机缓存，同时加快了DRL模型的收敛速度。
5. 黄霁崴，，博士生导师，中国石油大学学院，石油数据挖掘北京市重点实验室主任。

阅读原文

《高超音速攻击中武器与目标分配的深度强化学习》

文章概要：

1. 本文讨论利用深度强化学习（RL）来优化针对多目标的多车高超音速打击的武器与目标分配（WTA）策略。
2. 目标是在每一集中最大化被摧毁目标的总价值。每个随机生成的事件都会改变高超音速打击武器（HSW）和目标的数量和初始条件、目标的价值分布以及 HSW 被拦截的概率。
3. 将此 WTA 策略的性能与非线性整数编程（NLIP）推导出的基准 WTA 策略的性能进行了比较，发现 RL WTA 策略的性能接近最优，计算速度提高了 1000 倍，允许实时操作，有利于任务终局的自主决策。

阅读原文

《高超音速攻击中武器与目标分配的深度强化学习》

文章概要：

1. 本文利用深度强化学习（RL来优化多目标的多车高超音速打击的武器目标（WTA）策略。
2. 每个随机生成改变高超音速打击武器（HSW）和的数量和初始条件、目标的价值分布以及 HSW 被拦截。
3. 将此 WTA 策略的与非线性整数编程（NLIP）推导出的基准 WTA 策略的性能进行了，发现 RL WTA 策略的性能接近最优，计算速度提高了 1000 倍，允许实时操作，有利于任务终局的自主决策。

阅读原文

一文学废一个强化学习算法：SAC

文章概要：

1. 强化学习近年来在人工智能领域取得了显著的进展，特别是在连续控制任务中，Soft Actor-Critic（SAC）算法因其稳定性和高效性受到广泛关注
2. SAC算法的核心思想是通过最大化策略的期望奖励和策略熵之和，策略网络的目标是最小化以下损失函数
3. SAC算法引入了自动调整正则化系数的机制，使策略的熵接近目标熵，为了减小值函数估计的偏差，SAC采用了双重Q网络
4. 目标网络参数通过软更新方式进行更新，在经典的Pendulum-v1环境上进行了实验，该环境的目标是通过施加力矩，使摆杆保持竖直向上
5. 运行上述代码，可以观察到智能体的回报随着训练的进行逐步提升，智能体在大约25个回合后，达到较高的平均回报，表明SAC算法在连续动作空间的控制任务中具有良好的性能
6. 本文详细介绍了Soft Actor-Critic算法的原理，并在Pendulum-v1环境上进行了实验验证，SAC通过引入策略熵和自动温度调整机制，实现了高效稳定的策略学习，非常适合处理高维连续动作空间的强化学习任务

阅读原文

我院研究员在Production and Operations Management发表多智能体强化学习的管理应用论文

文章概要：

1. 我院、北京大学人工智能研究院彭一杰、耀东课题组“Multi Deep Reinforcement Learning for Multi-Echelon Inventory Management”的被Production and Operations接收
2. Production and Operations Management涵盖有关运营管理、生产管理、管理科学、供应链管理和工程的各个方面的研究，被认为是运筹管理领域的顶级期刊之一
3. 供应链管理在全球经济中发挥着越来越的作用，库存管理是供应链管理的核心，对供应链网络的服务水平和经济效率重大影响
4. 人工智能为库存管理开辟了，此工作将多智能学习应用到多级库存管理问题上，并重点研究了多智能体强化学习特有的训练分布执行框架在多级库存管理中的作用
5. 通过将多级库存管理问题建模为部分可马尔可夫决策过程此工作应用了Heterogeneous-Agentximal Policy Optimization（HAPPO智能体强化学习算法
6. 大量实验结果HAPPO优于常见启发以及基于单智能体强化学习的策略，另外，HAP可以降低供应链的牛

阅读原文

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

文章概要：

1. 自我纠正能力对大语言模型很重要，但现代LLM中很少存在这种能力，之前的研究要么依赖提示工程，要么依赖微调模型，但都有局限性
2. Google DeepMind的研究者开发了一种无需外部反馈或额外模型，通过强化学习进行自我纠正（SCoRe）的方法，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误
3. SCoRe标准单轮强化学习扩展到多轮设置，通过在线RL方法解决了分布偏移和模式崩溃的，分为两个阶段，包括训练模型初始化以防止崩溃和带有奖励的多轮强化学习
4 该研究进行了一系列实验，验证了SCoRe在教LLM具备自我纠正能力方面的有效性，并通过消融实验探索了CoRe的每个组件的影响

阅读原文

影响因子10.6的遥感领域顶刊ISPRS论文：尺度感知深度强化学习在高分辨率遥感影像分类中的应用

文章概要：

1. 利用深度学习技术改进高空间分辨率遥感影像的土地利用/土地覆盖分类，提出基于深度强化学习的规模感知分类网络SAN。
2. 尺度控制代理通过观察图像块状态执行尺度选择动作，特征索引模块增强代理区分当前图像块的能力。
3 提出上下文引导注意力机制CAM，利用全局特征作为查询，特征作为和值，实现特征的和谐融合。
4. 定义SAN的马尔可夫决策过程框架，深度强化学习技术优化控制代理的参数，以最大化累积奖励。

阅读原文