DDPG(Deep Deterministic Policy Gradient)

Deep Deterministic Policy Gradient (DDPG) is a reinforcement learning algorithm that utilizes deep neural networks to predict optimal actions and maximize rewards through a policy gradient approach. It employs an actor-critic architecture with two networks: the actor that determines the best action and the critic that evaluates the action using the state action-value function. DDPG is applicable in various real-world scenarios such as autonomous driving, finance trading, and healthcare.

Uploaded by

Muhammad Zahran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

0 views16 pages

DDPG(Deep Deterministic Policy Gradient)

Uploaded by

Muhammad Zahran

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 16

DDPG

Osama Javid
What is Deep
deterministic policy
gradient
Deep: Refers to the use of deep neural networks.
These are powerful tools used in artificial intelligence
that can learn complex patterns and relationships from
data.
What is Deep
deterministic policy
gradient
Deterministic: This means that the algorithm tries to
directly predict the best action to take in a given
situation, rather than just guessing or exploring randomly.
It aims to be more precise and intentional in its decision-
making.
What is Deep
deterministic policy
gradient
Policy Gradient: directly optimizing the policy by some
parameter θ.
e.g. Self Driving a car (to receive only positive rewards
when we avoid hitting another car)

Updating Model θ in a way that maximizes the reward

What is Deep
deterministic policy
gradient
DDPG is an algorithm used in reinforcement learning
where
• A deep Neural Network is trained
• Predict the best action to take
• Directly estimates the Optimal Policy (π)
• Adjust Parameters (θ) for max rewards
ACTOR-CRITIC ARCH WITH TWO
NETWORKS
• Takes the state action-value function (Q), and combines it with
policy gradient
• Actor Determines the best action in the state by turning the
parameter θ
• Critic evaluate the action produced by the actor
• The critic evaluates the action using the TD error
ACTOR-CRITIC ARCH WITH TWO
NETWORKS
DDPG - ALGO
TWO NETWORKS ACTOR AND CRITIC

Actor Network represented by

01
μ(s:θ**μ)
1.Takes input and results in
action
2.θ is Actor Network weights
DDPG - ALGO
TWO NETWORKS ACTOR AND CRITIC

Critic Network
02 Q(s,a:θ**Q)

1.takes an input as a state

and action and results in the
Q value
2.θ is the weight
DDPG - ALGO
TWO NETWORKS ACTOR AND CRITIC

Target Network
03 μ(s:θ**μ/)
Q(s,a:θ**Q/)

The θ is the weights of the

target Actor and Critic
NEXT STEPS

Update Actor weights with Policy gradients

Update Critic network weight with

02 gradients calculated from the TD error
NEXT STEPS

Select action by adding exploration noise

03 N to the action produced by the actor-
network μ(s;θ**μ) + N

1.Perform an action in a state s,

04 2.Recieve a reward r,
3.move to next step

Store this transition information in a replay

buffer
FINAL STEPS
After some Iterations

01 Sample Transitions 02 Train Network

from the replay buffer

Calculate the Q value Compute TD error as:

03 04

M is number of smaples RB
Update our critic’s weight with
gradients calculated from this
L
UPDATING POLICY
GRADIENT
• We update our policy network weights using a
policy gradient,
• Then Update the weights of Actor and Critic
Network in the target network
• Soft replacement: update the θ slowly for
stability
REAL WORLD
EXAMPLES
• Tesla auto pilot
• Finance trading
• Game optimizations
• Health Care
THANK
YOU

Lecture 37 - Deep Deterministic Policy Gradient (DDPG)
No ratings yet
Lecture 37 - Deep Deterministic Policy Gradient (DDPG)
17 pages
Conservativeddpg
No ratings yet
Conservativeddpg
13 pages
9. Continuous Control
No ratings yet
9. Continuous Control
28 pages
Thesis Ram April 1
No ratings yet
Thesis Ram April 1
88 pages
Sahil Khaja Huzoor AMS 517 Report
No ratings yet
Sahil Khaja Huzoor AMS 517 Report
11 pages
lab6 (1)
No ratings yet
lab6 (1)
7 pages
Report
No ratings yet
Report
6 pages
L. Li 2023
No ratings yet
L. Li 2023
13 pages
ReinforcementLearningAssign2_1]
No ratings yet
ReinforcementLearningAssign2_1]
7 pages
2505.09029v1
No ratings yet
2505.09029v1
8 pages
Reinforcement Learning Optimization
No ratings yet
Reinforcement Learning Optimization
6 pages
Neurips 2018
No ratings yet
Neurips 2018
7 pages
07 Deep Reinforcement Learning (John)
No ratings yet
07 Deep Reinforcement Learning (John)
52 pages
rl-3
No ratings yet
rl-3
31 pages
CS234_A2
No ratings yet
CS234_A2
9 pages
MP-DQNMulti-Pass Q-Networks For Deep Reinforcement Learning With Parameterised Action Spaces
No ratings yet
MP-DQNMulti-Pass Q-Networks For Deep Reinforcement Learning With Parameterised Action Spaces
8 pages
Multi-agent_Deep_Reinforcement_Learning_based_on_Maximum_Entropy
No ratings yet
Multi-agent_Deep_Reinforcement_Learning_based_on_Maximum_Entropy
5 pages
Soft Actor-Critic:: Off-Policy Maximum Entropy Deep Reinforcement Learning With A Stochastic Actor
No ratings yet
Soft Actor-Critic:: Off-Policy Maximum Entropy Deep Reinforcement Learning With A Stochastic Actor
14 pages
Twin-Delayed Deep Deterministic Policy Gradient
No ratings yet
Twin-Delayed Deep Deterministic Policy Gradient
6 pages
Assignment 2 - Policy Gradients
No ratings yet
Assignment 2 - Policy Gradients
7 pages
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
No ratings yet
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
10 pages
Twin Delayed Multi-Agent Deep Deterministic Policy Gradient
No ratings yet
Twin Delayed Multi-Agent Deep Deterministic Policy Gradient
5 pages
Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization
No ratings yet
Towards Delivering a Coherent Self-Contained Explanation of Proximal Policy Optimization
36 pages
13_RL_4
No ratings yet
13_RL_4
48 pages
An Introduction To Deep ReinforcementLearning
No ratings yet
An Introduction To Deep ReinforcementLearning
65 pages
Final MSC Report Divyam Rastogi
No ratings yet
Final MSC Report Divyam Rastogi
78 pages
drl_v5
No ratings yet
drl_v5
64 pages
DRL
No ratings yet
DRL
9 pages
Recursive Least Squares Advantage Actor-Critic Algorithms: Yuan Wang, Chunyuan Zhang, Tianzong Yu, Meng Ma
No ratings yet
Recursive Least Squares Advantage Actor-Critic Algorithms: Yuan Wang, Chunyuan Zhang, Tianzong Yu, Meng Ma
13 pages
RL-1
No ratings yet
RL-1
30 pages
RL Complete Unit-5
No ratings yet
RL Complete Unit-5
30 pages
Download Full Foundations of Deep Reinforcement Learning Theory and Practice in Python First Edition Laura Graesser PDF All Chapters
100% (4)
Download Full Foundations of Deep Reinforcement Learning Theory and Practice in Python First Edition Laura Graesser PDF All Chapters
62 pages
Lecture_12_slides_-_after
No ratings yet
Lecture_12_slides_-_after
50 pages
Stable Baseline3
No ratings yet
Stable Baseline3
11 pages
PowerPoint Presentation
No ratings yet
PowerPoint Presentation
35 pages
Lecture2 Drl A
No ratings yet
Lecture2 Drl A
39 pages
Deep Reinforcement Learning in Large Discrete Action Spaces
No ratings yet
Deep Reinforcement Learning in Large Discrete Action Spaces
11 pages
16 RL PDF
No ratings yet
16 RL PDF
87 pages
Full Download Foundations of Deep Reinforcement Learning Theory and Practice in Python First Edition Laura Graesser PDF
100% (5)
Full Download Foundations of Deep Reinforcement Learning Theory and Practice in Python First Edition Laura Graesser PDF
62 pages
QPGAO RL UAVQ Rev1 Fix-1
No ratings yet
QPGAO RL UAVQ Rev1 Fix-1
15 pages
Continuous Time 2
No ratings yet
Continuous Time 2
91 pages
advanced_systemdesign_2023
No ratings yet
advanced_systemdesign_2023
65 pages
An Introduction To Policy Search Methods: Thomas Furmston
No ratings yet
An Introduction To Policy Search Methods: Thomas Furmston
33 pages
22 Reinforcement Learning
No ratings yet
22 Reinforcement Learning
18 pages
unit7-RL
No ratings yet
unit7-RL
7 pages
Foundations of Deep Reinforcement Learning Theory and Practice in Python First Edition Laura Graesser instant download
100% (1)
Foundations of Deep Reinforcement Learning Theory and Practice in Python First Edition Laura Graesser instant download
62 pages
Lec 5 Policy Gradients
No ratings yet
Lec 5 Policy Gradients
40 pages
[1] Computational missile guidance a deep reinforcement learning approach
No ratings yet
[1] Computational missile guidance a deep reinforcement learning approach
12 pages
13_RL_3
No ratings yet
13_RL_3
48 pages
Origins of Life Questions and Debates
No ratings yet
Origins of Life Questions and Debates
12 pages
A2C Is A Special Case of PPO
No ratings yet
A2C Is A Special Case of PPO
4 pages
unit 4
No ratings yet
unit 4
23 pages
04_RL_DP
No ratings yet
04_RL_DP
76 pages
Autonomous Car Racing in Simulation Environment Using Deep Reinforcement Learning
No ratings yet
Autonomous Car Racing in Simulation Environment Using Deep Reinforcement Learning
6 pages
rl5
No ratings yet
rl5
26 pages
Reinforcement Learning Toolbox™ Release Notes
No ratings yet
Reinforcement Learning Toolbox™ Release Notes
48 pages
RL Course Report
No ratings yet
RL Course Report
10 pages
electronics-12-00327-v2
No ratings yet
electronics-12-00327-v2
13 pages
Reinforcement Learning Explained - A Step-by-Step Guide to Reward-Driven AI
From Everand
Reinforcement Learning Explained - A Step-by-Step Guide to Reward-Driven AI
Luka Nikolic
No ratings yet
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
Neural Network Types
No ratings yet
Neural Network Types
26 pages
Hyper Parameters
No ratings yet
Hyper Parameters
7 pages
LUDecomposition Partial Total Pivoting 19
No ratings yet
LUDecomposition Partial Total Pivoting 19
28 pages
Activation Function
No ratings yet
Activation Function
31 pages
Object Detection With Deep Learning: A Review
No ratings yet
Object Detection With Deep Learning: A Review
21 pages
A Prlmal Algorithm For Interval Linear-Programming Problems
No ratings yet
A Prlmal Algorithm For Interval Linear-Programming Problems
14 pages
Matrix Chain Multiplication
No ratings yet
Matrix Chain Multiplication
11 pages
18.1-Artificial-Intelligence-AI
No ratings yet
18.1-Artificial-Intelligence-AI
14 pages
Learning Bayesian Network Structure Based On Ant Colony Optimization and Differential Evolution
No ratings yet
Learning Bayesian Network Structure Based On Ant Colony Optimization and Differential Evolution
24 pages
Group 3 (Seksyen4) (1) (Repaired)
No ratings yet
Group 3 (Seksyen4) (1) (Repaired)
15 pages
Faddeev Leverrier
No ratings yet
Faddeev Leverrier
6 pages
Computational Fluid Dynamics
100% (1)
Computational Fluid Dynamics
10 pages
Chuong 3
No ratings yet
Chuong 3
133 pages
Lecture 5 31032024 123913pm
No ratings yet
Lecture 5 31032024 123913pm
7 pages
Bharathi Education Trust G. Madegowda Institute of Technology (Gmit)
No ratings yet
Bharathi Education Trust G. Madegowda Institute of Technology (Gmit)
11 pages
CSC 308 EXAM 2024
No ratings yet
CSC 308 EXAM 2024
2 pages
Mat 540 Quiz 5 With Answers
100% (5)
Mat 540 Quiz 5 With Answers
9 pages
3 MARK TYPE (POLYNOMIALS)
No ratings yet
3 MARK TYPE (POLYNOMIALS)
9 pages
6 - SDOF - General Loading
100% (1)
6 - SDOF - General Loading
19 pages
Systems of Linear Equations Reviewer
No ratings yet
Systems of Linear Equations Reviewer
6 pages
Numerical Integration
No ratings yet
Numerical Integration
28 pages
Machine Learning Unit 4
No ratings yet
Machine Learning Unit 4
21 pages
Penerapan Algoritma Convolutional Neural Network Dalam Klasifikasi Telur Ayam Fertil Dan Infertil Berdasarkan Hasil Candling
No ratings yet
Penerapan Algoritma Convolutional Neural Network Dalam Klasifikasi Telur Ayam Fertil Dan Infertil Berdasarkan Hasil Candling
9 pages
Prelim Quiz 1 - Attempt Review 9outof10
No ratings yet
Prelim Quiz 1 - Attempt Review 9outof10
4 pages
Rodocodo Computational Thinking Posters
No ratings yet
Rodocodo Computational Thinking Posters
5 pages
03 Iterative Methods PDF
No ratings yet
03 Iterative Methods PDF
19 pages
Integer Programming: The Branch & Bound Method
100% (2)
Integer Programming: The Branch & Bound Method
19 pages
Assignment NeuralNetwork
No ratings yet
Assignment NeuralNetwork
8 pages
Quantitative Management-Assignment Model
No ratings yet
Quantitative Management-Assignment Model
2 pages
DAA Qbank
No ratings yet
DAA Qbank
10 pages