CS 188 Project3(RL) Q7:Epsilon Greedy

最新推荐文章于 2024-08-04 00:19:20 发布

大模型与Agent智能体

最新推荐文章于 2024-08-04 00:19:20 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： AI & Big Data案例实战课程

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/88837277

AI & Big Data案例实战课程专栏收录该内容

167 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

通过在getAction中实现epsilon-greedy贪心动作选择完成Q-learning代理，这意味着它选择的是时间epsilon的随机动作，否则将遵循当前的最佳Q-values值。请注意，选择随机动作可能会导致选择最佳动作——也就是说，您不应该选择随机次优动作，而是选择任何随机合法动作。

您可以通过调用random.choice函数从列表中均匀地随机选择一个元素。您可以使用util.flipcoin（p）模拟一个具有成功概率p的二进制变量，该变量返回True（probability p），False（probability 1-p）。在实现getAction方法之后，观察网格世界gridworld中代理的以下行为（epsilon=0.3）。

python gridworld.py -a q -k 100

您的最终Q-values 值应该类似于您的值迭代代理，特别是沿着良好的路径。但是，由于随机动作和初始学习阶段的原因，您的平均回报将低于Q-value 值预测值。您还可以观察以下针对不同epsilon值的模拟情况，代理的行为是否符合您的期望？

python gridworld.py -a q -k 100 --noise 0.0 -e 0.1

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型与Agent智能体 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。