cencen_binbin-CSDN博客

原创强化学习笔记6

DDPG算法基本概念：离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。但在实际情况中，经常会遇到连续动作空间的情况，也就是输出的动作是不可数的。比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续的动作控制空间，Q-lear

2020-11-08 19:47:40 164

原创强化学习笔记6

DDPG算法基本概念：离散动作与连续动作是相对的概念，一个是可数的，一个是不可数的。在 CartPole 环境中，可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中，小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中，游戏有 6 个按键的动作可以输出。但在实际情况中，经常会遇到连续动作空间的情况，也就是输出的动作是不可数的。比如说推小车力的大小、选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。对于这些连续的动作控制空间，Q-lear

2020-11-08 19:23:14 234

原创强化学习笔记5

一、稀疏奖励基本概念：实际上用 reinforcement learning learn agent 的时候，多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下，训练 agent 是非常困难的。如果环境中的 reward 非常 sparse，reinforcement learning 的问题就会变得非常的困难，但是人类可以在非常 sparse 的 reward 上面去学习。 reward shaping：在我们的agent与environment进

2020-11-05 23:40:14 178

原创强化学习笔记4

Q学习 1、基本概念 DQN(Deep Q-Network)：基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行网络的训练。 State-value Function：本质是一种critic。其输入为actor某一时刻的state，对应的输出为一个标量，即当actor在对应的state时，预期的到过程结束时间段中

2020-11-03 21:58:54 311

原创强化学习笔记3

策略梯度 1、基本概念 policy（策略）：每一个actor中会有对应的策略，这个策略决定了actor的行为。具体来说，Policy 就是给一个外界的输入，然后它会输出 actor 现在应该要执行的行为。一般地，我们将policy写成 π。 Return（回报）：一个回合（Episode）或者试验（Trial）所得到的所有的reward的总和，也被人们称为Total reward。一般地，我们用 R 来表示它。 Trajectory：一个试验中我们将environment 输出的 s 跟 acto

2020-10-29 18:29:09 339

原创强化学习笔记2

马尔可夫决策过程（MDP） 1、基本概念：马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关，只由现在的状态决定，那么其满足马尔可夫性质。马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质（Markov property）且存在于离散的指数集（index set）和状态空间（state space）内的随机过程（stochastic process）。状态转移矩阵(State Transition Matrix): 状态转移矩阵类似于一个

2020-10-23 18:26:41 177

原创强化学习学习笔记1

强化学习基本任务： Agent如何在复杂不确定的环境中极大化所获得的的奖励。基本概念： Action: Environment接收到的Agent当前状态的输出。 State：Agent从Environment中获取到的状态。 Reward：Agent从Environment中获取的反馈信号，这个信号指定了Agent在某一步采取了某个策略以后是否得到奖励。 Exploration：在当前的情况下，继续尝试新的Action，其有可能会使你得到更高的这个奖励，也有可能使你一无所有。 Exploitation

2020-10-20 22:51:40 267