从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制
文章概要:
1. Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现:在持续学习环境中,标准深度学习方法的表现竟不及浅层网络。研究指出,这一现象的主要原因是 "可塑性损失"(Plasticity Loss):深度神经网络在面对非平稳的训练目标持续更新时,会逐渐丧失从新数据中的能力。
2. 深度强化学习任务中的神经网络实际上面临着更为严峻的可塑性损失问题。这源于强化学习智能体必须通过与环境的持续互动来不断调整其策略,使得非平稳的数据流和优化目标成为深度强化学习范式中的固有特征。
3. 要突破视觉强化学习样本利用效率低下这一瓶颈,关键在于深入解构深度强化学习中神经网络可塑性损失的细节,从而明确问题的根源。针对这一挑战,来自清华大学、悉尼大学、华盛顿大学、京东探索研究院和南洋理工大学的研究人员展开了一项全面而深入的研究。他们选取视觉强化学习任务作为深度强化学习的典型代表,创新性地从数据、模块和训练阶段三个关键角度对神经网络的可塑性损失特征进行分析。
4. 研究揭示了数据增强的作用机制:简单的数据增强能够显著提升视觉强化学习的样本利用效率,其效果令人瞩目。在自动驾驶任务 CARLA 中,引入数据增强将性能提高至基准的 235%。更令人惊讶的是,在 DeepMind Control suite 的 9 种机器人控制任务中,数据增强平均将性能提升至基准的 431%。
5. 明确了样本利用效率的关键瓶颈:目前限制视觉强化学习样本利用效率的关键因素并非编码器(Encoder)的视觉表征能力,而是评价者网络(Critic)的可塑性损失。
6. 突出了训练早期干预的重要性:若未能在训练早期及时将网络可塑性恢复到高水平,将会导致训练后期难以逆转的灾难性可塑性损失。
7. 数据增强能够非常显著地缓解视觉强化学习训练过程中的可塑性损失,从而解释了为什么数据增强对于提高样本利用效率如此关键。通过有效维持神经网络的可塑性,数据增强实际上延长了神经网络的有效学习期,使其能够更充分地利用每一个训练样本。
8. 即使有了良好的视觉表征,视觉强化学习仍然存在严重的可塑性损失。这表明对于当前的视觉强化学习算法,高维视觉的表征已经不构成影响样本利用效率的关键瓶颈。更为关键的是,该实验证明了严重的可塑性损失并非发生在编码器模块,而应该是存在于 Actor 或 Critic 中。
9. Critic 严重的可塑性损失是造成视觉强化学习样本利用效率严重低下的关键原因。
10. 如果在训练早期没有通过有效干预(如数据增强)使 Critic 网络的可塑性恢复到较高水平,就会导致不可逆的灾难性可塑性损失。
阅读原文
Nature Communications论文分享:学习进化的具身智能
文章概要:
1. 斯坦福李飞飞教授团队最新研究成果登上Nature Communications,首次证明了「鲍温效应」
2. 论文介绍了深度进化强化学习 (DER:一种计算框架,它可以进化出不同的代理形态,以学习复杂环境中具有挑战性的运动和操纵任务
3. 利用DERL证明了环境复杂性、形态智能和控制的可学习性之间的几种关系
4. 环境复杂性促进了形态智能的进化,正如形态学促进新任务学习的能力所量化的那样
5. 展示了形态学鲍德温效应,即在模拟中,进化迅速选择学习速度更快的形态,从而使在早期祖先生命后期的行为能够在后代生命周期的早期表达
6. 它们通过「生存」而「进化」,但并不是「边做边学」。而是在复杂的环境中同时进行「进化」和「学习」比如有台阶丘陵、山脊和移动的地形,以便在复杂环境中进行操作
7. 通过更物理稳定和更节能的演变为上述关系提出了机械基础,因此可以促进学习和控制
阅读原文
2. 论文介绍了深度进化强化学习 (DER:一种计算框架,它可以进化出不同的代理形态,以学习复杂环境中具有挑战性的运动和操纵任务
3. 利用DERL证明了环境复杂性、形态智能和控制的可学习性之间的几种关系
4. 环境复杂性促进了形态智能的进化,正如形态学促进新任务学习的能力所量化的那样
5. 展示了形态学鲍德温效应,即在模拟中,进化迅速选择学习速度更快的形态,从而使在早期祖先生命后期的行为能够在后代生命周期的早期表达
6. 它们通过「生存」而「进化」,但并不是「边做边学」。而是在复杂的环境中同时进行「进化」和「学习」比如有台阶丘陵、山脊和移动的地形,以便在复杂环境中进行操作
7. 通过更物理稳定和更节能的演变为上述关系提出了机械基础,因此可以促进学习和控制