0% found this document useful (0 votes)

2 views

Policy_Approximation_Document

The document discusses policy approximation in policy gradient methods, emphasizing the use of differentiable parameterization to optimize policies for maximizing long-term rewards. It highlights the soft-max function for converting action preferences into probabilities, allowing for both deterministic and stochastic policies. The Policy Gradient Theorem is introduced as a method for optimizing policies by computing the gradient of expected returns with respect to policy parameters, particularly useful in high-dimensional reinforcement learning problems.

Uploaded by

ishwaryagundra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Policy_Approximation_Document

Uploaded by

ishwaryagundra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 2

Policy Approximation and Policy Gradient Theorem

Policy Approximation
In policy gradient methods, we can parameterize the policy in a variety of ways, as long as it
is differentiable with respect to its parameters. This allows the policy to be updated using
optimization techniques.

The goal is to learn a good policy that maximizes long-term rewards. Policy approximation
refers to approximating the policy (the action-selection rule) using a function that can be
easily adjusted and improved over time.

Common Parameterization of Policies

A common method for discrete action spaces is to use action preferences for each state-
action pair, denoted as h(s,a,θ), where θ represents the policy parameters. These
preferences are converted into probabilities using a soft-max function:

π(a|s,θ) = e^h(s,a,θ) / Σ_b e^h(s,b,θ)

This soft-max function ensures that actions with higher preferences have higher
probabilities of being chosen, while all probabilities sum to 1.

Advantages of Using Soft-Max Policy Approximation

1. Approaching Deterministic Policies: Using a soft-max parameterization, the policy can
become deterministic over time.

2. Selection of Actions with Arbitrary Probabilities: Stochastic policies can be naturally

learned, especially useful in games like Poker.

3. Easier to Approximate in Some Problems: Policies may be easier to model than action-
value functions in certain environments.

4. Injecting Prior Knowledge: Parameterizing the policy can incorporate domain knowledge
into the learning process.

Example 13.1: Stochastic Policy in a Simple Corridor Gridworld

In this example, the agent must navigate a corridor with two actions: move left or right.
Action-value methods like ϵ-greedy may struggle, while policy gradient methods can learn a
stochastic policy that maximizes expected reward.

Key Takeaways
• Policy parameterization via soft-max allows for creating deterministic or stochastic
policies.

• Policy-based methods excel when stochastic behavior is optimal.

• These methods can learn faster in simpler environments.

• Prior knowledge about optimal policies can improve learning efficiency.

The Policy Gradient Theorem

The Policy Gradient Theorem optimizes a policy by computing the gradient of a
performance measure (expected return) with respect to policy parameters. This is
especially useful in high-dimensional problems.

Reinforcement Learning Setup

In RL, an agent interacts with the environment and learns to take actions based on
observations. The policy π(a|s,θ) defines action probabilities, and the goal is to maximize
the expected return.

Objective of Policy Gradient Methods

To improve the policy πθ, we calculate the gradient of J(θ) with respect to θ and update the
parameters to improve performance.

Deriving the Policy Gradient Theorem

The theorem simplifies computing the gradient ∇θJ(θ) using expected rewards and action
probabilities.

IBDP Math Applications & Interpretation HL COURSE OUTLINES
100% (2)
IBDP Math Applications & Interpretation HL COURSE OUTLINES
23 pages
CS 188 Fall 2018 Written HW4 Soln
No ratings yet
CS 188 Fall 2018 Written HW4 Soln
6 pages
Algebra Cheat Sheets PDF
100% (1)
Algebra Cheat Sheets PDF
10 pages
rl5
No ratings yet
rl5
26 pages
Unit 5 - Policy Based
No ratings yet
Unit 5 - Policy Based
30 pages
PolicyGradient
No ratings yet
PolicyGradient
33 pages
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
No ratings yet
Chapter 13: Policy Gradient Methods: by Richard Sutton and Andrew Barto
35 pages
Policy Gradient 2020
No ratings yet
Policy Gradient 2020
76 pages
13_RL_3
No ratings yet
13_RL_3
48 pages
An Introduction To Policy Search Methods: Thomas Furmston
No ratings yet
An Introduction To Policy Search Methods: Thomas Furmston
33 pages
SRE_Report_merged
No ratings yet
SRE_Report_merged
16 pages
rl-3
No ratings yet
rl-3
31 pages
Policy-Based Reinforcement Learning: Shusen Wang
No ratings yet
Policy-Based Reinforcement Learning: Shusen Wang
46 pages
Policy_Gradient_Theorem_Complete
No ratings yet
Policy_Gradient_Theorem_Complete
2 pages
13 ML Reinforcement Learning - Policy Search
No ratings yet
13 ML Reinforcement Learning - Policy Search
10 pages
Planning and Optimal Control Policy Gradient Methods
No ratings yet
Planning and Optimal Control Policy Gradient Methods
34 pages
paper RL
No ratings yet
paper RL
61 pages
Policy Gradient Methods
No ratings yet
Policy Gradient Methods
70 pages
Lecture 7: Policy Gradient: David Silver
No ratings yet
Lecture 7: Policy Gradient: David Silver
41 pages
5 - Policy Gradient Methods
No ratings yet
5 - Policy Gradient Methods
57 pages
1 - Table of contents
No ratings yet
1 - Table of contents
6 pages
Book All in One
No ratings yet
Book All in One
288 pages
Lec 5 Policy Gradients
No ratings yet
Lec 5 Policy Gradients
40 pages
3 - Chapter 9 Policy Gradient Methods
No ratings yet
3 - Chapter 9 Policy Gradient Methods
24 pages
Book All-In-One 2
No ratings yet
Book All-In-One 2
281 pages
9 Sqoop Notes
No ratings yet
9 Sqoop Notes
35 pages
2023_week5_policy
No ratings yet
2023_week5_policy
62 pages
Policy_Gradient_Methods_for_Reinforcement_Learning
No ratings yet
Policy_Gradient_Methods_for_Reinforcement_Learning
5 pages
4 Reinforcement Learning - Basic Algorithms: - S, A) ) and The Immediate Reward Function R (R (S, A, S
No ratings yet
4 Reinforcement Learning - Basic Algorithms: - S, A) ) and The Immediate Reward Function R (R (S, A, S
16 pages
Policy Gradient Methods
No ratings yet
Policy Gradient Methods
28 pages
Lnotes 04
No ratings yet
Lnotes 04
8 pages
Bridging The Gap Between Value and Policy Based Reinforcement Learning
No ratings yet
Bridging The Gap Between Value and Policy Based Reinforcement Learning
21 pages
L4DC PolicyOptTutorial2023
No ratings yet
L4DC PolicyOptTutorial2023
160 pages
3 - Chapter 10 Actor-Critic Methods
No ratings yet
3 - Chapter 10 Actor-Critic Methods
22 pages
1、Bayesian Policy Gradient Algorithms（2006）
No ratings yet
1、Bayesian Policy Gradient Algorithms（2006）
9 pages
Policy Gradient Methods For Reinforcement Learning PDF
No ratings yet
Policy Gradient Methods For Reinforcement Learning PDF
5 pages
Natural Actor-Critic: Abstract. This Paper Investigates A Novel Model-Free Reinforcement
No ratings yet
Natural Actor-Critic: Abstract. This Paper Investigates A Novel Model-Free Reinforcement
12 pages
M 2
No ratings yet
M 2
12 pages
10 - Reinforcement Learning
No ratings yet
10 - Reinforcement Learning
24 pages
19 - Monte Carlo and Temporal Difference for Markov Decision Processes.pptx
No ratings yet
19 - Monte Carlo and Temporal Difference for Markov Decision Processes.pptx
57 pages
Deep Reinforcement Learning
No ratings yet
Deep Reinforcement Learning
93 pages
Powell UnifiedFrameworkStochasticOptimization Jan292018
No ratings yet
Powell UnifiedFrameworkStochasticOptimization Jan292018
69 pages
3 - Chapter 3 Optimal State Values and Bellman Optimality Equation
No ratings yet
3 - Chapter 3 Optimal State Values and Bellman Optimality Equation
21 pages
2.2+Model Free+Control
No ratings yet
2.2+Model Free+Control
92 pages
Part 3 - Intro To Policy Optimization - Spinning Up Documentation PDF
No ratings yet
Part 3 - Intro To Policy Optimization - Spinning Up Documentation PDF
10 pages
Chapter 10
No ratings yet
Chapter 10
17 pages
Module 04
No ratings yet
Module 04
63 pages
1910.07207v2
No ratings yet
1910.07207v2
7 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
cs224r_L04_Actor_Critic
No ratings yet
cs224r_L04_Actor_Critic
89 pages
DRL
No ratings yet
DRL
9 pages
12 ML Reinforcement Learning Value Based Control
No ratings yet
12 ML Reinforcement Learning Value Based Control
12 pages
Module 3.0
No ratings yet
Module 3.0
17 pages
Assignment 2 - Policy Gradients
No ratings yet
Assignment 2 - Policy Gradients
7 pages
Chapter 12
No ratings yet
Chapter 12
17 pages
2 - Overview of this book
No ratings yet
2 - Overview of this book
4 pages
L10 Actor Critic With Animation
No ratings yet
L10 Actor Critic With Animation
134 pages
07 Deep Reinforcement Learning (John)
No ratings yet
07 Deep Reinforcement Learning (John)
52 pages
NIPS 2012 A Unifying Perspective of Parametric Policy Search Methods For Markov Decision Processes Paper
No ratings yet
NIPS 2012 A Unifying Perspective of Parametric Policy Search Methods For Markov Decision Processes Paper
9 pages
2
No ratings yet
2
23 pages
09 - Monte Carlo Learning
No ratings yet
09 - Monte Carlo Learning
24 pages
Random Optimization: Fundamentals and Applications
From Everand
Random Optimization: Fundamentals and Applications
Fouad Sabry
No ratings yet
Ebook PDF Designs From Linear Codes by Cunsheng Ding PDF
100% (49)
Ebook PDF Designs From Linear Codes by Cunsheng Ding PDF
41 pages
Algebra1 Exponential Functions
No ratings yet
Algebra1 Exponential Functions
2 pages
Optimal Control
No ratings yet
Optimal Control
26 pages
Study Guide ch11 PDF
No ratings yet
Study Guide ch11 PDF
30 pages
State Space Analysis: A Second-Order Differential Equation
No ratings yet
State Space Analysis: A Second-Order Differential Equation
15 pages
Symplectic Geometry
No ratings yet
Symplectic Geometry
21 pages
Thoughts On Teaching Permutations, Combinations and The Binomial Theorem
No ratings yet
Thoughts On Teaching Permutations, Combinations and The Binomial Theorem
4 pages
Mathematics Hons Semester - V Final-1
No ratings yet
Mathematics Hons Semester - V Final-1
6 pages
For More Study Material & Test Papers: Manoj Chauhan Sir (Iit-Delhi) Ex. Sr. Faculty (Bansal Classes)
No ratings yet
For More Study Material & Test Papers: Manoj Chauhan Sir (Iit-Delhi) Ex. Sr. Faculty (Bansal Classes)
3 pages
TI-89 TI-92 Plus Tip List 10.0
No ratings yet
TI-89 TI-92 Plus Tip List 10.0
11 pages
Study of The New Floating-Plug Drawing Process of Thin-Walled Tubes
No ratings yet
Study of The New Floating-Plug Drawing Process of Thin-Walled Tubes
10 pages
Guided Notes
No ratings yet
Guided Notes
6 pages
Assertion Reasons
No ratings yet
Assertion Reasons
5 pages
Class 10 Maths Notes Chapter 2 Studyguide360.PDF - Google Drive
No ratings yet
Class 10 Maths Notes Chapter 2 Studyguide360.PDF - Google Drive
1 page
GATE 2017 Electronics and Communications
No ratings yet
GATE 2017 Electronics and Communications
3 pages
USA Mathematical Talent Search Solutions To Problem 5/3/19
No ratings yet
USA Mathematical Talent Search Solutions To Problem 5/3/19
3 pages
c34 Revision
No ratings yet
c34 Revision
6 pages
Introductory Mathematics For Engineers by AD Myskis
100% (1)
Introductory Mathematics For Engineers by AD Myskis
816 pages
Conic Sections
No ratings yet
Conic Sections
63 pages
Music & Algebra
No ratings yet
Music & Algebra
16 pages
Mcs Main 2022 Mathematics Paper I
No ratings yet
Mcs Main 2022 Mathematics Paper I
3 pages
Gas-Lubricated Porous Bearings Short Journal Bearings, Steady-State Solution
No ratings yet
Gas-Lubricated Porous Bearings Short Journal Bearings, Steady-State Solution
7 pages
Chapter 2 - Graphs of Functions II
No ratings yet
Chapter 2 - Graphs of Functions II
18 pages
Chapter(8)g12
No ratings yet
Chapter(8)g12
3 pages
Classification of The Real Roots of The Quartic Equation and Their Pythagorean Tunes
No ratings yet
Classification of The Real Roots of The Quartic Equation and Their Pythagorean Tunes
14 pages
2151705 (2)
No ratings yet
2151705 (2)
3 pages
MATH2
100% (2)
MATH2
5 pages
Ch6 MGT Mathematics Lecture Notes
No ratings yet
Ch6 MGT Mathematics Lecture Notes
11 pages

Policy_Approximation_Document

Uploaded by

Policy_Approximation_Document

Uploaded by

Policy Approximation and Policy Gradient Theorem

Common Parameterization of Policies

π(a|s,θ) = e^h(s,a,θ) / Σ_b e^h(s,b,θ)

Advantages of Using Soft-Max Policy Approximation

2. Selection of Actions with Arbitrary Probabilities: Stochastic policies can be naturally

Example 13.1: Stochastic Policy in a Simple Corridor Gridworld

• Policy-based methods excel when stochastic behavior is optimal.

• Prior knowledge about optimal policies can improve learning efficiency.

The Policy Gradient Theorem

Reinforcement Learning Setup

Objective of Policy Gradient Methods

Deriving the Policy Gradient Theorem

You might also like