CS 188 Project3(RL) Q7:Epsilon Greedy

     通过在getAction中实现epsilon-greedy贪心动作选择完成Q-learning代理,这意味着它选择的是时间epsilon的随机动作,否则将遵循当前的最佳Q-values值。请注意,选择随机动作可能会导致选择最佳动作——也就是说,您不应该选择随机次优动作,而是选择任何随机合法动作。

     您可以通过调用random.choice函数从列表中均匀地随机选择一个元素。您可以使用util.flipcoin(p)模拟一个具有成功概率p的二进制变量,该变量返回True(probability p),False(probability 1-p)。在实现getAction方法之后,观察网格世界gridworld中代理的以下行为(epsilon=0.3)。

python gridworld.py -a q -k 100 

     您的最终Q-values 值应该类似于您的值迭代代理,特别是沿着良好的路径。但是,由于随机动作和初始学习阶段的原因,您的平均回报将低于Q-value 值预测值。您还可以观察以下针对不同epsilon值的模拟情况,代理的行为是否符合您的期望?

python gridworld.py -a q -k 100 --noise 0.0 -e 0.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型与Agent智能体

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值