一文了解强化学习
文章概要:
1. 强化学习概述:强化学习想要解决的问题是体如何在复杂环境下最大化其能获得的奖励,一般分成智能体和环境两个主要部分,智能体从环境获得某个状态后,会利用该状态输出一个动作,这个动作将会在环境中被执行,而环境则会根据智能体采取的动作输出下一个状态以及对当前的动作进行评分,智能体的目的就是尽可能的从环境中获得奖励。
2. 强化学习的一些具体应用:强化学习已经在机器人应用中有了非常多的,尤其是我们拥有更多算力之后,可以做更多次的训练,训练中,智能体都从环境中获得很多信息并在环境中取得更多的奖励常见的例如机械臂抓取、机械臂翻魔方等。
3 序列决策:强化学习研究的问题是智能体与环境交互的问题。奖励是由环境给的一种标量的反馈信号,这种信号显示智能体在某一步采取某个策略的表现如何。强化学习的目的就是最大化智能体可以获得奖励,智能体在环境里面存在的目的就是最大化它的期望的累积奖励。不同的环境中,奖励也是不同的。
4. 动作空间:不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间。例如,走迷宫机器人如果只有往东、往南、往西、往北这4种移动方式,则其动作空间为离散动作空间;如果机器人可以向360度任意角度进行移动,则其动作空间为连续动作空间。
5. 强化学习智能体的组成成分和类型:策略是智能体的动作模型,它决定了智能体的动作。它其实是一个函数,用于把输入的状态变成动作。策略可分为两种:随机性策略和确定性策略。价值函数的值是对未来奖励的预测,我们用它来评估状态的好坏。模型决定了下一步的状态。下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成
6. 强化学习基础:基于价值的智能体显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体直接学习策略,我们给它一个状态,它就会输出对应动作概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了演员-评论员智能体。这一类智能体把策略和价值函数都学习了,然后通过两者的交互得到最佳的动作。
7. 有模型强化学习智能体与免模型强化学习智能体:有模型强化学习智能体通过学习状态的转移来采取动作。免模型强化学习智能体没有去直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习函数和策略函数进行决策。免模型强化学习智能体的模型里面没有环境转移的模型。
8. Gym:OpenAI的Gym库是一个环境仿真库,里面包含很多现有的环境。针对不同的场景,我们可以选择不同的环境。离散控制场景一般使用雅达利环境评估;连续控制场景一般使用MuJoCo环境评估。
阅读原文
2. 强化学习的一些具体应用:强化学习已经在机器人应用中有了非常多的,尤其是我们拥有更多算力之后,可以做更多次的训练,训练中,智能体都从环境中获得很多信息并在环境中取得更多的奖励常见的例如机械臂抓取、机械臂翻魔方等。
3 序列决策:强化学习研究的问题是智能体与环境交互的问题。奖励是由环境给的一种标量的反馈信号,这种信号显示智能体在某一步采取某个策略的表现如何。强化学习的目的就是最大化智能体可以获得奖励,智能体在环境里面存在的目的就是最大化它的期望的累积奖励。不同的环境中,奖励也是不同的。
4. 动作空间:不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间。例如,走迷宫机器人如果只有往东、往南、往西、往北这4种移动方式,则其动作空间为离散动作空间;如果机器人可以向360度任意角度进行移动,则其动作空间为连续动作空间。
5. 强化学习智能体的组成成分和类型:策略是智能体的动作模型,它决定了智能体的动作。它其实是一个函数,用于把输入的状态变成动作。策略可分为两种:随机性策略和确定性策略。价值函数的值是对未来奖励的预测,我们用它来评估状态的好坏。模型决定了下一步的状态。下一步的状态取决于当前的状态以及当前采取的动作。它由状态转移概率和奖励函数两个部分组成
6. 强化学习基础:基于价值的智能体显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体直接学习策略,我们给它一个状态,它就会输出对应动作概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了演员-评论员智能体。这一类智能体把策略和价值函数都学习了,然后通过两者的交互得到最佳的动作。
7. 有模型强化学习智能体与免模型强化学习智能体:有模型强化学习智能体通过学习状态的转移来采取动作。免模型强化学习智能体没有去直接估计状态的转移,也没有得到环境的具体转移变量,它通过学习函数和策略函数进行决策。免模型强化学习智能体的模型里面没有环境转移的模型。
8. Gym:OpenAI的Gym库是一个环境仿真库,里面包含很多现有的环境。针对不同的场景,我们可以选择不同的环境。离散控制场景一般使用雅达利环境评估;连续控制场景一般使用MuJoCo环境评估。
新手友好 | 一文了解强化学习
文章概要:
1. 强化学习基础:强化学习想要解决的问题是智能体如何在复杂环境下最大化其能获得的奖励,一般来说,强化学习分成智能体和环境两个主要部分,在整个强化学习过程中,智能体会与环境交互。
2. 强化学习的一些具体应用:强化学习已经在机器人应用中有了非常多的体现,例如机械臂 3. 奖励:奖励是由环境给的一种标量的反馈信号,这种信号可显示智能体在某一步采取某个策略的表现如何。
4. 序列决策:在一个强化学习环境里面,智能体的目的就是选取一系列的动作来最大化奖励,所以这些选取的动作必须有长期的影响。
5. 动作空间不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间。
6. 强化学习体的组成成分和类型:强化学习智能体的组成成分和类型有策略、价值函数、模型。
7. 基于价值的智能体与基于策略的智能体:根据智能体学习的事物不同,我们可以把智能体进行归类。基于价值的智能体显式地学习价值函数,隐式地学习它的策略。
8. 有模型强化学习智能体与免模型强化学习智能体:我们可以通过智能体到底有没有学习环境模型来对智能体进行分类 的 Gym库一个环境仿真库,里面包含很多现有的环境。针对不同的场景,我们可以选择不同的环境。
10. 讲师要求总3小时以上,视频内容为精品课程,确保高质量和专业性。讲师奖励为享受课程收入分成,赠送2门古月学院在售精品课程(训练营除外)。
阅读原文
2. 强化学习的一些具体应用:强化学习已经在机器人应用中有了非常多的体现,例如机械臂 3. 奖励:奖励是由环境给的一种标量的反馈信号,这种信号可显示智能体在某一步采取某个策略的表现如何。
4. 序列决策:在一个强化学习环境里面,智能体的目的就是选取一系列的动作来最大化奖励,所以这些选取的动作必须有长期的影响。
5. 动作空间不同的环境允许不同种类的动作。在给定的环境中,有效动作的集合经常被称为动作空间。
6. 强化学习体的组成成分和类型:强化学习智能体的组成成分和类型有策略、价值函数、模型。
7. 基于价值的智能体与基于策略的智能体:根据智能体学习的事物不同,我们可以把智能体进行归类。基于价值的智能体显式地学习价值函数,隐式地学习它的策略。
8. 有模型强化学习智能体与免模型强化学习智能体:我们可以通过智能体到底有没有学习环境模型来对智能体进行分类 的 Gym库一个环境仿真库,里面包含很多现有的环境。针对不同的场景,我们可以选择不同的环境。
10. 讲师要求总3小时以上,视频内容为精品课程,确保高质量和专业性。讲师奖励为享受课程收入分成,赠送2门古月学院在售精品课程(训练营除外)。