- 博客(10)
- 收藏
- 关注
原创 强化学习笔记6
DDPG算法 基本概念: 离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。 在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中,游戏有 6 个按键的动作可以输出。 但在实际情况中,经常会遇到连续动作空间的情况,也就是输出的动作是不可数的。比如说推小车力的大小、 选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。 对于这些连续的动作控制空间,Q-lear
2020-11-08 19:47:40
164
原创 强化学习笔记6
DDPG算法 基本概念: 离散动作与连续动作是相对的概念,一个是可数的,一个是不可数的。 在 CartPole 环境中,可以有向左推小车、向右推小车两个动作。在 Frozen Lake 环境中,小乌龟可以有上下左右四个动作。在 Atari 的 Pong 游戏中,游戏有 6 个按键的动作可以输出。 但在实际情况中,经常会遇到连续动作空间的情况,也就是输出的动作是不可数的。比如说推小车力的大小、 选择下一时刻方向盘的转动角度或者四轴飞行器的四个螺旋桨给的电压的大小等等。 对于这些连续的动作控制空间,Q-lear
2020-11-08 19:23:14
234
原创 强化学习笔记5
一、稀疏奖励 基本概念: 实际上用 reinforcement learning learn agent 的时候,多数的时候 agent 都是没有办法得到 reward 的。那在没有办法得到 reward 的情况下,训练 agent 是非常困难的。如果环境中的 reward 非常 sparse,reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习。 reward shaping: 在我们的agent与environment进
2020-11-05 23:40:14
178
原创 强化学习笔记4
Q学习 1、基本概念 DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行网络的训练。 State-value Function: 本质是一种critic。其输入为actor某一时刻的state,对应的输出为一个标量,即当actor在对应的state时,预期的到过程结束时间段中
2020-11-03 21:58:54
311
原创 强化学习笔记3
策略梯度 1、基本概念 policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成 π。 Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R 来表示它。 Trajectory: 一个试验中我们将environment 输出的 s 跟 acto
2020-10-29 18:29:09
339
原创 强化学习笔记2
马尔可夫决策过程(MDP) 1、基本概念: 马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关,只由现在的状态决定,那么其满足马尔可夫性质。 马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。 状态转移矩阵(State Transition Matrix): 状态转移矩阵类似于一个
2020-10-23 18:26:41
177
原创 强化学习 学习笔记1
强化学习 基本任务: Agent如何在复杂不确定的环境中极大化所获得的的奖励。 基本概念: Action: Environment接收到的Agent当前状态的输出。 State:Agent从Environment中获取到的状态。 Reward:Agent从Environment中获取的反馈信号,这个信号指定了Agent在某一步采取了某个策略以后是否得到奖励。 Exploration:在当前的情况下,继续尝试新的Action,其有可能会使你得到更高的这个奖励,也有可能使你一无所有。 Exploitation
2020-10-20 22:51:40
267
原创 pytorch深度学习笔记3
1、 批量归一化(BatchNormalization) 对输入的标准化(浅层模型) 处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。 标准化处理输入数据使各个特征的分布相近 批量归一化(深度模型) 利用小批量上的均值和标准差,不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出的数值更稳定。 1.对全连接层做批量归一化位置: 全连接层中的仿射变换和激活函数之间。 全连接:...
2020-02-25 16:59:11
271
原创 pytorch学习2
1、过拟合和欠拟合 训练误差和泛化误差在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softma...
2020-02-19 17:43:19
238
原创 pytorch深度学习
1、线性回归 模型 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系: 损失函数 在模型训练中,我们需要衡量价格预测值与真实值之间的误差。通常我们会选取一个非负数作为误差,且数值越小表示误差越小。一个常用的选择是平方函数。 它在评估索引为i的损失函数为i的样本误差的表达式...
2020-02-14 17:50:18
388
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人