0% found this document useful (0 votes)

13 views29 pages

PPO (v3)

Proximal Policy Optimization (PPO) is the default reinforcement learning algorithm used by OpenAI, focusing on optimizing policy while maintaining constraints on behavior. The document discusses the components of PPO, including the roles of the actor, environment, and reward, as well as the importance of using techniques like importance sampling and credit assignment. It also highlights the differences between on-policy and off-policy learning, and briefly mentions the PPO algorithm and its variants.

Uploaded by

luobin23628

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views29 pages

PPO (v3)

Uploaded by

luobin23628

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 29

Proximal Policy

Optimization (PPO)
default reinforcement learning algorithm at OpenAI

Policy Add
Gradient constraint
DeepMind https://youtu.be/gn4nRCC9TwQ
OpenAI https://blog.openai.com/o
penai-baselines-ppo/
Policy Gradient (Review)
Basic Components
You cannot control

Reward
Actor Env Function

Video Get 20 scores when

Game killing a monster

The rule
Go of GO
Policy of Actor

Take the action

based on the
left 0.7 probability.

… right 0.2 Score of an

action
…

fire 0.1
pixels
Example: Playing Video Game

(kill an alien)
Example: Playing Video Game

This is an episode.
After many turns Game Over
(spaceship destroyed)

We want the total

reward be maximized.
Actor, Environment, Reward

Env Actor Env Actor Env ……

Trajectory
Actor, Environment, Reward
updated updated

Env Actor Env Actor Env ……

Reward Reward

Expected Reward
Policy Gradient

It can even be a black box.

Policy Gradient
Update
…… Model

……
……
……

Data
Collection
only used once
Implementation

Consider as classification problem

left 1
… right 0

…
fire 0

TF, pyTorch …
Tip 1: Add a Baseline

It is probability …
Ideal
case
a b c a b c
Not The probability of the
sampled actions not sampled
Sampling
…… will decrease.
a b c a b c
Tip 2: Assign Suitable Credit

+5 +0 -2 -5 +0 -2
Tip 2: Assign Suitable Credit
Advantage
Function
Estimated by “critic” (later)

Can be state-dependent

Add discount factor

From on-policy
to off-policy
Using the experience more than once
On-policy v.s. Off-policy
• On-policy: The agent learned and the agent
interacting with the environment is the same.
• Off-policy: The agent learned and the agent
interacting with the environment is different.

阿光下棋佐為下棋、阿光在旁邊看
Importance Sampling

Importance weight
Issue of Importance Sampling
Issue of Importance Sampling

Very large weight

negative
Importance
Sampling
Gradient for update

This term is from

sampled data.

When to stop?
Add Constraint
穩紮穩打，步步為營
PPO / TRPO Constraint on behavior not parameters

Proximal Policy Optimization (PPO)

TRPO (Trust Region Policy Optimization)

PPO algorithm

Update parameters
several times

Adaptive
KL Penalty
PPO algorithm

PPO2 algorithm
PPO algorithm

PPO2 algorithm
https://arxiv.org/abs/1707.06347

Experimental Results

OM Case - Trouble at Tessei
100% (3)
OM Case - Trouble at Tessei
2 pages
Selena Bill
No ratings yet
Selena Bill
2 pages
Stable Baseline3
No ratings yet
Stable Baseline3
11 pages
Proximal Policy Optimization - Wikipedia
No ratings yet
Proximal Policy Optimization - Wikipedia
6 pages
How Does Proximal Policy Optimization (PPO) Work
No ratings yet
How Does Proximal Policy Optimization (PPO) Work
4 pages
iclr-blog-track-gi...
No ratings yet
iclr-blog-track-gi...
29 pages
A2C Is A Special Case of PPO
No ratings yet
A2C Is A Special Case of PPO
4 pages
Proximal Policy Optimization — Spinning Up Documentation
No ratings yet
Proximal Policy Optimization — Spinning Up Documentation
11 pages
2020 - Implementation Matters in DRL A Case Study On PPO and TRPO
No ratings yet
2020 - Implementation Matters in DRL A Case Study On PPO and TRPO
14 pages
PPO
No ratings yet
PPO
15 pages
five
No ratings yet
five
4 pages
Multi-Agent Proximal Policy Optimization Via Non-Fixed Value Clipping
No ratings yet
Multi-Agent Proximal Policy Optimization Via Non-Fixed Value Clipping
5 pages
CS234_A2
No ratings yet
CS234_A2
9 pages
Policy Gradient Methods-BR
No ratings yet
Policy Gradient Methods-BR
14 pages
1502.05477v5
No ratings yet
1502.05477v5
16 pages
RL Assignment1
No ratings yet
RL Assignment1
5 pages
Ppo Mcts相关概念
No ratings yet
Ppo Mcts相关概念
20 pages
3.10 Policy Gradient for Continuing Tasks
No ratings yet
3.10 Policy Gradient for Continuing Tasks
13 pages
9 Sqoop Notes
No ratings yet
9 Sqoop Notes
35 pages
Lec 5 Policy Gradients
No ratings yet
Lec 5 Policy Gradients
40 pages
cs224r_L04_Actor_Critic
No ratings yet
cs224r_L04_Actor_Critic
89 pages
Abdolmaleki et al. - 2018 - Maximum a Posteriori Policy Optimisation
No ratings yet
Abdolmaleki et al. - 2018 - Maximum a Posteriori Policy Optimisation
23 pages
Quasi Newton Trpo
No ratings yet
Quasi Newton Trpo
10 pages
L4DC PolicyOptTutorial2023
No ratings yet
L4DC PolicyOptTutorial2023
160 pages
PPO new.pptx
No ratings yet
PPO new.pptx
22 pages
An Introduction To Policy Search Methods: Thomas Furmston
No ratings yet
An Introduction To Policy Search Methods: Thomas Furmston
33 pages
cs224r_L03_MDP_PG
No ratings yet
cs224r_L03_MDP_PG
30 pages
rl5
No ratings yet
rl5
26 pages
Robotics Term Project (1)
No ratings yet
Robotics Term Project (1)
7 pages
HAMDPO算法
No ratings yet
HAMDPO算法
15 pages
Reduced Policy Optimization for Continous Control With Hard Cosntraints
No ratings yet
Reduced Policy Optimization for Continous Control With Hard Cosntraints
26 pages
Phasic Policy Gradient
No ratings yet
Phasic Policy Gradient
17 pages
Assignment 2 - Policy Gradients
No ratings yet
Assignment 2 - Policy Gradients
7 pages
13_RL_3
No ratings yet
13_RL_3
48 pages
rl-3
No ratings yet
rl-3
31 pages
Lecture 37 - Deep Deterministic Policy Gradient (DDPG)
No ratings yet
Lecture 37 - Deep Deterministic Policy Gradient (DDPG)
17 pages
Constrained Policy Opt
No ratings yet
Constrained Policy Opt
18 pages
PPO Final Hopeso
No ratings yet
PPO Final Hopeso
14 pages
【PPT】Conservative policy iteration
No ratings yet
【PPT】Conservative policy iteration
75 pages
Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization
No ratings yet
Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization
36 pages
DDPG(Deep Deterministic Policy Gradient)
No ratings yet
DDPG(Deep Deterministic Policy Gradient)
16 pages
Policy-Based Reinforcement Learning: Shusen Wang
No ratings yet
Policy-Based Reinforcement Learning: Shusen Wang
46 pages
PU学习法：Off-policy evaluation via off-policy classification
No ratings yet
PU学习法：Off-policy evaluation via off-policy classification
12 pages
NeurIPS-2022-learning-to-constrain-policy-optimization-with-virtual-trust-region-Paper-Conference
No ratings yet
NeurIPS-2022-learning-to-constrain-policy-optimization-with-virtual-trust-region-Paper-Conference
12 pages
RL_Assgn1
No ratings yet
RL_Assgn1
14 pages
Einforcement Learning
No ratings yet
Einforcement Learning
27 pages
Policy_Gradient_Theorem_Complete
No ratings yet
Policy_Gradient_Theorem_Complete
2 pages
Reinforcement Learning - Week 12
No ratings yet
Reinforcement Learning - Week 12
3 pages
You May Not Need Ratio Clipping in PPO
No ratings yet
You May Not Need Ratio Clipping in PPO
18 pages
Unit 5 - Policy Based
No ratings yet
Unit 5 - Policy Based
30 pages
SA031PL
No ratings yet
SA031PL
7 pages
COCO Sinha Vaze24
No ratings yet
COCO Sinha Vaze24
22 pages
Optimistic Linear Support and Successor Features As A Basis For Optimal Policy Transfer (Alegre, 2022)
No ratings yet
Optimistic Linear Support and Successor Features As A Basis For Optimal Policy Transfer (Alegre, 2022)
20 pages
Stock Trading Strategy Developing Based On Reinforcement Learning
No ratings yet
Stock Trading Strategy Developing Based On Reinforcement Learning
9 pages
Part 3 - Intro To Policy Optimization - Spinning Up Documentation PDF
No ratings yet
Part 3 - Intro To Policy Optimization - Spinning Up Documentation PDF
10 pages
Emergent Complexity via Multiagent Competition
No ratings yet
Emergent Complexity via Multiagent Competition
12 pages
Opinion Critic
No ratings yet
Opinion Critic
9 pages
2010.09546v2
No ratings yet
2010.09546v2
17 pages
5 - MDP
No ratings yet
5 - MDP
42 pages
RL Poster Activity
No ratings yet
RL Poster Activity
1 page
5_Policy_1
No ratings yet
5_Policy_1
51 pages
Image Classification: Step-by-step Classifying Images with Python and Techniques of Computer Vision and Machine Learning
From Everand
Image Classification: Step-by-step Classifying Images with Python and Techniques of Computer Vision and Machine Learning
Mark Magic
No ratings yet
Unit 1 Oscillation, Ultrasonics and Dieletrical Material - Physic-1
No ratings yet
Unit 1 Oscillation, Ultrasonics and Dieletrical Material - Physic-1
16 pages
PROBLEM 5.61: Solution
No ratings yet
PROBLEM 5.61: Solution
11 pages
Various Models of Consumer Behaviour
100% (1)
Various Models of Consumer Behaviour
48 pages
Guidelines for paper setting
No ratings yet
Guidelines for paper setting
8 pages
TOM Asiignment 1st and 2nd.
No ratings yet
TOM Asiignment 1st and 2nd.
2 pages
Uc Stm32H747 Oscillators Oscillators - Schdoc: Nli2C2 Nli2C2
No ratings yet
Uc Stm32H747 Oscillators Oscillators - Schdoc: Nli2C2 Nli2C2
8 pages
The State of Ecommerce 2024 Edition
No ratings yet
The State of Ecommerce 2024 Edition
38 pages
Evidence: A World of Images Marcos Andrés Angulo Correa: Idiom
No ratings yet
Evidence: A World of Images Marcos Andrés Angulo Correa: Idiom
7 pages
Positive Psych
No ratings yet
Positive Psych
8 pages
Training Operator Oil and Gas
No ratings yet
Training Operator Oil and Gas
7 pages
Anessa Latrece Woods - Raw
No ratings yet
Anessa Latrece Woods - Raw
4 pages
timetable
No ratings yet
timetable
2 pages
Analyze The Marketing Strategies of New-Tea Drinks Industry by The SWOT and PEST Tools-Take Nayuki As An Example
No ratings yet
Analyze The Marketing Strategies of New-Tea Drinks Industry by The SWOT and PEST Tools-Take Nayuki As An Example
4 pages
Fate of The Furious Script
No ratings yet
Fate of The Furious Script
51 pages
Community Involvement and Social Issues - 1
No ratings yet
Community Involvement and Social Issues - 1
4 pages
Earthmoving Vehicles Part 1
100% (1)
Earthmoving Vehicles Part 1
109 pages
Fan Et Al 2002 Testing The Efficiency and Independence of Attentional Networks
No ratings yet
Fan Et Al 2002 Testing The Efficiency and Independence of Attentional Networks
9 pages
WinForms Editor
No ratings yet
WinForms Editor
62 pages
Comparison of Means of Agricultural Experimentation Data Through Different Tests Using The Software Assistat
No ratings yet
Comparison of Means of Agricultural Experimentation Data Through Different Tests Using The Software Assistat
5 pages
Stabilization of Black Cotton Soil
No ratings yet
Stabilization of Black Cotton Soil
28 pages
Samsung Medison-Accuvix V 10
No ratings yet
Samsung Medison-Accuvix V 10
6 pages
25 Idioms 2
No ratings yet
25 Idioms 2
3 pages
Green Leaf Resume Template
No ratings yet
Green Leaf Resume Template
3 pages
ĐỀ THI CHUẨN 2023-2024
No ratings yet
ĐỀ THI CHUẨN 2023-2024
5 pages
Post-Quiz - Attempt Review Function
No ratings yet
Post-Quiz - Attempt Review Function
3 pages
Braconidae of the Middle East (Hymenoptera) Neveen S. Gadallah download
100% (1)
Braconidae of the Middle East (Hymenoptera) Neveen S. Gadallah download
56 pages
Applying Kant's "The Primacy of Time" To The Sapir-Whorf Hypothesis and Linguistic Relativity
No ratings yet
Applying Kant's "The Primacy of Time" To The Sapir-Whorf Hypothesis and Linguistic Relativity
16 pages
better-and-faster-gutsche-en-24459
No ratings yet
better-and-faster-gutsche-en-24459
5 pages