今日AI-深度强化学习-2024年12月26日

发现全网最新的AI内容

研究专栏丨基于深度强化学习的三维变形机翼反设计方法

文章概要:

1. 强化学习在执行变形任务中具有适应的潜力根据不同的操作条件采取适当的行动。
2. 本文提出并开发了一种基于DQN的变形反设计 (reinforcement learning inverse design, RLID)框架,强化学习模块选用DQN智能体,该模块实现了各种工况环境三维变形机翼设计变量的交互。
3. 为有效训练DQN模型,经拉丁超立方抽样(Latin hypercube sampling LHS)后的样本建立深度置信网络(deep belief network, DBN)代理模型用来替代从三维机翼几何参数到气动参数的复杂、费时过程。
4. 本文使用RLID框架解决了基于三维变形机翼的空气动力学反设计与控制变形问题。
5. 未来的工作方向可以将RLID框架应用到更的翼型/机翼变形方案,同时强化学习的性能,以面对更加复杂环境。
阅读原文

论文分享 | 一小时生成局部路径规划模型!上海交通大学基于深度强化学习的Color方案设计

文章概要:

1. 论文分享上海交通大学基于深度强化学习的Color方案设计用于解决传统方法难以处理的复杂动态环境下的路径问题
2. Color方案由高性能训练框架ASL和高性能仿真平台Sparrow组成,通过提高训练样本质量、减少训练、增强Sim2Real能力和解决Task2Task问题,提高了DRL在实际应用中的和泛化能力
3. 实验结果表明,在Atari环境中,ASL已有算法相比,在样本效率和时间效率上均有明显提升
4. 结合FZMotion动捕系统,Color的有效性与先进性在现实世界中得到了验证,仅仅通过一小时的仿真训练,即可生成用于现实世界导航任务的局部路径规划模型
5. 元客视界是凌云光设立的全资子公司主要面向元宇宙虚拟现实、Web3.时代数字人、沉浸媒体、通信、计算光学成像等应用,已形成光场建模、运动捕捉、全景成像、等在内的
6. FZ光学运动捕捉系统是元客视界自主开发的运动捕捉采集与分析系统,可以实时跟踪测量并记录三维空间内点的轨迹、的运动以及人体动作,空间定位精度可以达到亚毫米级
7ZMotion动捕系统在无人机室内定位、机器人运动规划、机械臂示教学习、气浮台位姿验证、水下运动捕捉等领域得到广泛应用,目前已经清华大学、中国技术大学、北京航空航天大学、北京理工大学哈尔滨工业大学等高校开展合作> 8. 凌云光·元客视界致力于为高校提供完备的解决方案,助力科研发展
阅读原文

量化交易:深度强化学习模型有必要做轻量化吗?

文章概要:

1. 深度强化学习基础
2. 深度强化学习在量化交易中的应用
3. 模型轻量化的技术方法压缩模型
4. 模型轻量化的技术方法:模型架构优化
5. 知识蒸馏
6. 知识蒸馏示例代码
阅读原文

基于图神经网络深度强化学习的柔性机器人单元调度

文章概要:

1. 文章引入一种基于深度强化学习(DRL)的端到端实时调度方法,利用图神经网络(GNN)进行模型特征提取,并采用近端策略优化(PPO)训练调度智能体,以更好地利用运输机器人的能力,减少系统阻塞和死锁。
2. 按照机器柔性和所能加工的零件类型,可以发展历经3个阶段:单零件类型、多零件类型、多零件类型+可选机器。
3. 作者提出了一种基于端端DRL的实时调度方法,用于具有多容量运输机器人的柔性机器人单元。优化目标是最大完工时间。该方法的核心是基于一种新颖的异构析取图模型,用于表达工序和机器节点之间的成对有向析取弧从而表示运输动作。
4. 为了获得机器人单元的实时优化调度策略,本文采用了深度强化学习(DRL)方法,并基于给定机器人单元的离散事件仿真进行模拟。
5. 本文采用基于的强化学习算法框架,并通过结合有向析取弧对的特征嵌入来增强其在柔性机器人单元中的性能,采用如下网络结构。
阅读原文

CIKM 2024 | 京东电商搜索:深度强化学习的探索与落地

文章概要:

1. 京东搜索算法团队提出一个多目标深度强化学习框架,通过集成多目标Q学习、基于交叉熵方法的决策融合算法和渐进数据增强系统,优化电商平台上的流量分配。
2. 该框架由多目标Q学习(MOQ)、基于交叉熵方法的决策融合算法(DFM)和渐进数据增强系统(PDA)组成。具体来说,MOQ通过构建集成强化学习模型,每个模型专注于一个目标(如点击率、转化率等),从个体角度估计多个目标的长期价值。
3. 京东搜索算法团队在离线评估中获得收益后,进行了为期两周的在线A/B测试。与PID算法相比,特别是在集成请求维度时,MODRL-TA显著提升了量(IMP)最多增加18.0%、点击率(CTR)最多增加4.2%、转化率(CVR)最多增加5.1%。
阅读原文