0% found this document useful (0 votes)

14 views11 pages

Session 7

The document contains comprehensive class notes on deep learning, covering topics such as training processes, optimization algorithms, activation functions, and weight initialization. Key concepts include forward propagation, loss functions, gradient descent methods, and various optimizers like Adam and RMSProp. Additionally, it highlights important exam points and probable questions related to these topics.

Uploaded by

2024da04053

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views11 pages

Session 7

Uploaded by

2024da04053

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Below are complete, clean, study-oriented class notes compiled exactly as per your updated

instruction:

📘 DEEP LEARNING – CLASS NOTES

Sources used

 ✅ DOC file (Session 7) → FULL

 ✅ CS05_Optimization → Slides 29 to 51 ONLY
 ✅ CS06_Activation → COMPLETE slides
 Language: simple, academic, exam-ready
 Structured for understanding + revision

PART 1: SESSION 7 – DEEP LEARNING (DOC FILE –

FULL CONTENT)

1. Overview of Deep Learning Training

Deep learning training involves:

1. Forward propagation
2. Loss computation
3. Backpropagation
4. Weight update using optimization algorithms

The goal is to:

 Minimize training error (optimization)

 Minimize generalization error (avoid overfitting)

2. Objective Function (Loss Function)

In optimization terminology:

 Loss function = Objective function

 Optimization algorithms aim to minimize this function

3. Convex vs Non-Convex Optimization

Convex Function

 Single global minimum

 Easy optimization

Non-Convex Function (DNN Loss)

 Multiple local minima

 Saddle points
 Flat regions

➡ Deep neural networks always involve non-convex optimization

4. Gradient Descent Recap

Weight update rule:

w=w−η∇L(w)w = w - \eta \nabla L(w)w=w−η∇L(w)

Where:

 η\etaη = learning rate

 Gradient sign decides direction
 Learning rate decides step size

5. Types of Gradient Descent

Batch Gradient Descent

 Uses all training samples

 One update per epoch
 Computationally expensive

Stochastic Gradient Descent (SGD)

 Uses one sample at a time
 Fast but noisy

Mini-Batch Gradient Descent

 Uses subset of data

 Most commonly used in practice

6. Learning Rate Scheduling

Learning rate should not be constant.

Types:

 Piecewise constant
 Exponential decay
 Polynomial decay

👉 Piecewise constant LR is most commonly used.

7. Need for Advanced Optimization

Problems with basic GD:

 Oscillations near minima

 Slow convergence
 Sensitive to learning rate
 Saddle points more common than local minima in high dimensions

PART 2: CS05 – OPTIMIZATION (Slides 29–51)

8. Exponentially Weighted Averages (EWA)

Used to smooth values over time.

Formula:
Vt=βVt−1+(1−β)×NewSampleV_t = \beta V_{t-1} + (1 - \beta) \times \text{NewSample}Vt
=βVt−1+(1−β)×NewSample

Where:

 β\betaβ ∈ [0,1]
 Higher β\betaβ → more weight to past values

Used in:

 Momentum
 RMSProp
 Adam

9. Gradient Descent with Momentum

Momentum accumulates past gradients.

Equations:

vt=βvt−1+(1−β)∇Lv_t = \beta v_{t-1} + (1-\beta)\nabla Lvt=βvt−1+(1−β)∇L w=w−ηvtw = w

- \eta v_tw=w−ηvt

Advantages:

 Faster convergence
 Reduced oscillations
 Prevents stalling in SGD

Interpretation:

 Acts like a ball rolling downhill

 Keeps moving in consistent directions

10. Sparse Features Problem

In standard GD:

 Same learning rate for all parameters

 Rare features get fewer updates
➡ Leads to slow learning for sparse features

11. AdaGrad Optimizer

AdaGrad adapts learning rate per parameter.

Formula:

st=st−1+gt2s_t = s_{t-1} + g_t^2st=st−1+gt2 w=w−ηst+ϵgtw = w - \frac{\eta}{\sqrt{s_t} + \

epsilon} g_tw=w−st+ϵηgt

Advantages:

 Larger updates for infrequent features

 No need to tune learning rate manually

Drawback:

 Learning rate decays too aggressively

 May stop learning early

12. RMSProp Optimizer

Fixes AdaGrad’s rapid decay problem.

Formula:

st=βst−1+(1−β)gt2s_t = \beta s_{t-1} + (1-\beta)g_t^2st=βst−1+(1−β)gt2

Benefits:

 Prevents denominator from growing indefinitely

 Stable convergence
 Widely used in practice

13. Adam Optimizer

Adam = Momentum + RMSProp
Uses:

 First moment (mean of gradients)

 Second moment (variance of gradients)

Advantages:

 Fast convergence
 Handles sparse gradients well
 Default optimizer in many frameworks

Practical Note:

 Adam may converge faster but sometimes generalizes worse than SGD

14. Saddle Points in Deep Learning

 Saddle points are more common than local minima
 Gradient ≈ 0 but not a minimum
 Optimization may stall

Momentum-based methods help escape saddle points.

PART 3: CS06 – ACTIVATION FUNCTIONS

(COMPLETE)

15. Need for Activation Functions

Without activation:

 Network becomes linear

 Cannot learn complex patterns

Activation functions:

 Introduce non-linearity
 Enable universal function approximation
16. Step Function
 Binary output (0 or 1)
 Non-differentiable
❌ Not used in deep learning

17. Linear Activation

f(x)=xf(x) = xf(x)=x

 No non-linearity
 Used only in regression output layer

18. Sigmoid Activation

σ(x)=11+e−x\sigma(x) = \frac{1}{1+e^{-x}}σ(x)=1+e−x1

Range: (0,1)

Problems:

 Vanishing gradient
 Saturation
 Non zero-centered
 Computationally expensive

Used for:

 Binary classification output

19. Tanh Activation

Range: (-1,1)

✔ Zero-centered
❌ Vanishing gradient still exists
Used in:

 Recurrent Neural Networks (RNNs)

20. ReLU Activation

f(x)=max⁡(0,x)f(x) = \max(0,x)f(x)=max(0,x)

Advantages:

 Fast computation
 No vanishing gradient (positive side)
 Sparse activations

Disadvantage:

 Dying ReLU problem

21. Dying ReLU Problem

 Neuron outputs zero for all inputs
 Gradient becomes zero
 Neuron stops learning permanently

22. Leaky ReLU

f(x)=max⁡(αx,x)f(x) = \max(\alpha x, x)f(x)=max(αx,x)

✔ Fixes dying ReLU

✔ Small gradient for negative values

23. Softmax Activation

Used in multi-class classification

Softmax(zi)=ezi∑ezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum e^{z_j}}Softmax(zi)=∑ezjezi

Properties:

 Outputs probability distribution

 Sum of probabilities = 1

24. Output Representation

Binary Classification

 Output: Sigmoid
 Loss: Binary Cross Entropy

Multi-Class Classification

 One-hot encoding
 Output: Softmax
 Loss: Categorical Cross Entropy

25. Weight Initialization

Poor initialization leads to:

 Vanishing gradients
 Exploding gradients

26. Zero Initialization Problem

 All neurons learn same features
 Symmetry problem
❌ Not allowed

27. Xavier Initialization

 Gaussian distribution
 Mean = 0
 Controlled variance
Used with:

 Sigmoid
 Tanh

Prevents:

 Vanishing gradients
 Exploding gradients

🔑 IMPORTANT EXAM POINTS

 Momentum vs RMSProp vs Adam
 Exponentially weighted averages
 Saddle points in DNN
 Dying ReLU problem
 Softmax vs Sigmoid
 Xavier initialization importance

📝 PROBABLE EXAM QUESTIONS

Long Answer

1. Explain Adam optimizer with equations.

2. Discuss RMSProp and AdaGrad.
3. Explain activation functions and their importance.
4. What are saddle points? Why are they problematic?

Short Answer

1. What is dying ReLU?

2. Why zero initialization fails?
3. Define EWA.
4. Why softmax is used for multi-class classification?

If you want, I can next:

 ✔ Convert this into PDF / handwritten-style notes

 ✔ Add numerical examples
 ✔ Generate MCQs + answers
 ✔ Create one-day revision sheet

Just tell me 👍

Deep Learning Mid Exam Solutions 2025
No ratings yet
Deep Learning Mid Exam Solutions 2025
7 pages
Deep Learning Optimization Techniques
No ratings yet
Deep Learning Optimization Techniques
67 pages
Deep Learning Optimization Techniques
No ratings yet
Deep Learning Optimization Techniques
23 pages
Key Factors in MLP Learning
No ratings yet
Key Factors in MLP Learning
17 pages
Training Supervised Deep Learning Models
No ratings yet
Training Supervised Deep Learning Models
25 pages
Deep Learning Activation Functions Explained
No ratings yet
Deep Learning Activation Functions Explained
12 pages
Deep Learning: Key Concepts and Optimizers
No ratings yet
Deep Learning: Key Concepts and Optimizers
4 pages
Deep Learning Activation Functions Explained
No ratings yet
Deep Learning Activation Functions Explained
18 pages
Gradient Descent in Deep Learning
No ratings yet
Gradient Descent in Deep Learning
28 pages
Neural Network Optimization Challenges
No ratings yet
Neural Network Optimization Challenges
14 pages
Backpropagation in Deep Learning Explained
No ratings yet
Backpropagation in Deep Learning Explained
48 pages
Deep Learning with TensorFlow Guide
No ratings yet
Deep Learning with TensorFlow Guide
95 pages
Neural Network Optimization Techniques
No ratings yet
Neural Network Optimization Techniques
28 pages
Activation Functions and Loss in ML
No ratings yet
Activation Functions and Loss in ML
29 pages
Understanding Epochs and Optimizers in ML
No ratings yet
Understanding Epochs and Optimizers in ML
23 pages
Deep Learning Unit I Notes: FFNN & GD
No ratings yet
Deep Learning Unit I Notes: FFNN & GD
9 pages
Gradient-Based Optimization in Deep Learning
No ratings yet
Gradient-Based Optimization in Deep Learning
9 pages
Deep Learning Fundamentals and Techniques
No ratings yet
Deep Learning Fundamentals and Techniques
212 pages
Understanding Deep Learning Basics
No ratings yet
Understanding Deep Learning Basics
17 pages
Dlunit Ii
No ratings yet
Dlunit Ii
20 pages
Deep Learning: Types & Key Concepts
No ratings yet
Deep Learning: Types & Key Concepts
12 pages
CNN Batch Size and Optimization Techniques
100% (1)
CNN Batch Size and Optimization Techniques
59 pages
Neural Networks: Deep Learning Basics
No ratings yet
Neural Networks: Deep Learning Basics
16 pages
Neural Network Optimization Techniques
No ratings yet
Neural Network Optimization Techniques
7 pages
Deep Learning Optimization Explained
No ratings yet
Deep Learning Optimization Explained
2 pages
Neural Networks Optimization Techniques
No ratings yet
Neural Networks Optimization Techniques
43 pages
Deep Learning Concepts and Techniques
No ratings yet
Deep Learning Concepts and Techniques
9 pages
Adagrad and RMSProp in Deep Learning
No ratings yet
Adagrad and RMSProp in Deep Learning
13 pages
Top Deep Learning Optimization Algorithms
No ratings yet
Top Deep Learning Optimization Algorithms
12 pages
Introduction to Deep Learning Concepts
No ratings yet
Introduction to Deep Learning Concepts
9 pages
Optimization and Regularization in Deep Learning
No ratings yet
Optimization and Regularization in Deep Learning
56 pages
Deep Learning Optimization Techniques
No ratings yet
Deep Learning Optimization Techniques
24 pages
Gradient Descent in Neural Network Optimization
No ratings yet
Gradient Descent in Neural Network Optimization
33 pages
AI Loss Functions and Optimization Methods
No ratings yet
AI Loss Functions and Optimization Methods
7 pages
Deep Learning Study Guide Overview
No ratings yet
Deep Learning Study Guide Overview
11 pages
Deep Learning Optimization Challenges
No ratings yet
Deep Learning Optimization Challenges
5 pages
Understanding Artificial Neural Networks
No ratings yet
Understanding Artificial Neural Networks
14 pages
Neural Network Optimization Techniques
No ratings yet
Neural Network Optimization Techniques
22 pages
Neural Network Calculation Overview
No ratings yet
Neural Network Calculation Overview
12 pages
Supervised Deep Learning Techniques
No ratings yet
Supervised Deep Learning Techniques
28 pages
Neural Network Training Essentials
No ratings yet
Neural Network Training Essentials
8 pages
Deep Learning Optimization Techniques
No ratings yet
Deep Learning Optimization Techniques
31 pages
DNN Training and Optimization Techniques
No ratings yet
DNN Training and Optimization Techniques
114 pages
Xavier Glorot Initialization Explained
No ratings yet
Xavier Glorot Initialization Explained
13 pages
Mini-Batch Gradient Descent Explained
No ratings yet
Mini-Batch Gradient Descent Explained
23 pages
Deep Learning: Optimisation Techniques
No ratings yet
Deep Learning: Optimisation Techniques
69 pages
Deep Learning Optimization Techniques
No ratings yet
Deep Learning Optimization Techniques
137 pages
AI Music Generation Optimization Techniques
No ratings yet
AI Music Generation Optimization Techniques
27 pages
Deep Learning: Feedforward Networks Guide
No ratings yet
Deep Learning: Feedforward Networks Guide
15 pages
Gradient Descent Optimization Techniques
No ratings yet
Gradient Descent Optimization Techniques
54 pages
Deep Learning Concepts: Overfitting, Bias, and Networks
No ratings yet
Deep Learning Concepts: Overfitting, Bias, and Networks
23 pages
Deep Learning Optimization Techniques
No ratings yet
Deep Learning Optimization Techniques
40 pages
Deep Learning: Feedforward Networks Guide
No ratings yet
Deep Learning: Feedforward Networks Guide
15 pages
Deep Learning & TensorFlow Essentials
No ratings yet
Deep Learning & TensorFlow Essentials
19 pages
Adam Optimizer in Neural Networks
No ratings yet
Adam Optimizer in Neural Networks
24 pages
Neural Network Fundamentals Explained
No ratings yet
Neural Network Fundamentals Explained
19 pages
Feedforward Neural Networks Overview
No ratings yet
Feedforward Neural Networks Overview
12 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
20 pages
Introduction to Deep Learning Concepts
No ratings yet
Introduction to Deep Learning Concepts
43 pages
Encoder-Decoder Architecture Explained
No ratings yet
Encoder-Decoder Architecture Explained
27 pages
Learning Rate Tuning and Scheduling
No ratings yet
Learning Rate Tuning and Scheduling
22 pages
Deep Learning for Plant Disease Detection
No ratings yet
Deep Learning for Plant Disease Detection
4 pages
Neural Network Optimization Challenges
No ratings yet
Neural Network Optimization Challenges
9 pages
HPO Algorithms and Applications Review
No ratings yet
HPO Algorithms and Applications Review
56 pages
Gradient Descent in Deep Learning
No ratings yet
Gradient Descent in Deep Learning
5 pages
Single Layer Perceptrons Overview
No ratings yet
Single Layer Perceptrons Overview
25 pages
2020 02. DNNRec A Novel Deep Learning Based Hybrid Recommender System
No ratings yet
2020 02. DNNRec A Novel Deep Learning Based Hybrid Recommender System
14 pages
CS 3035 Mid-Sem Exam Evaluation Guide
No ratings yet
CS 3035 Mid-Sem Exam Evaluation Guide
8 pages
EEG-Based Workload Monitoring in RH Systems
No ratings yet
EEG-Based Workload Monitoring in RH Systems
7 pages
Understanding Gradient Descent in ML
No ratings yet
Understanding Gradient Descent in ML
17 pages
Understanding RMSProp in Deep Learning
No ratings yet
Understanding RMSProp in Deep Learning
131 pages
Neural Networks for Design Similarity Measures
No ratings yet
Neural Networks for Design Similarity Measures
17 pages
Deep Learning Optimization Strategies
No ratings yet
Deep Learning Optimization Strategies
34 pages
Speeding Up Model Training with LAWA
No ratings yet
Speeding Up Model Training with LAWA
10 pages
Machine Learning Interview Guide
No ratings yet
Machine Learning Interview Guide
15 pages
Fine-Tuning Parameters for AI Interviews
No ratings yet
Fine-Tuning Parameters for AI Interviews
4 pages
Understanding Optimization Concepts
No ratings yet
Understanding Optimization Concepts
32 pages
Cross Entropy in Deep Learning Training
No ratings yet
Cross Entropy in Deep Learning Training
141 pages
Text-to-Image Generation with AttnGAN
No ratings yet
Text-to-Image Generation with AttnGAN
14 pages
Indoor Temperature Forecasting for Energy Efficiency
No ratings yet
Indoor Temperature Forecasting for Energy Efficiency
21 pages
Gradient Descent and ANN Regression Analysis
No ratings yet
Gradient Descent and ANN Regression Analysis
4 pages
Understanding Gradient Descent in ML
No ratings yet
Understanding Gradient Descent in ML
23 pages
Gradient Descent in Logistic Regression
No ratings yet
Gradient Descent in Logistic Regression
16 pages
MiniCPM-2B: Compact Multimodal LLM
No ratings yet
MiniCPM-2B: Compact Multimodal LLM
9 pages
CS3491 Neural Networks Overview
No ratings yet
CS3491 Neural Networks Overview
38 pages
Linear Regression Programming Exercise
100% (1)
Linear Regression Programming Exercise
20 pages
Adam Optimizer in Neural Networks
No ratings yet
Adam Optimizer in Neural Networks
33 pages
Gradient Descent in Python Tutorial
No ratings yet
Gradient Descent in Python Tutorial
40 pages
TRPO vs PPO: Impact of Implementations
No ratings yet
TRPO vs PPO: Impact of Implementations
14 pages

Session 7

Uploaded by

Session 7

Uploaded by

Below are complete, clean, study-oriented class notes compiled exactly as per your updated

📘 DEEP LEARNING – CLASS NOTES

 ✅ DOC file (Session 7) → FULL

PART 1: SESSION 7 – DEEP LEARNING (DOC FILE –

1. Overview of Deep Learning Training

The goal is to:

 Minimize training error (optimization)

2. Objective Function (Loss Function)

 Loss function = Objective function

3. Convex vs Non-Convex Optimization

 Single global minimum

Non-Convex Function (DNN Loss)

 Multiple local minima

➡ Deep neural networks always involve non-convex optimization

4. Gradient Descent Recap

w=w−η∇L(w)w = w - \eta \nabla L(w)w=w−η∇L(w)

 η\etaη = learning rate

5. Types of Gradient Descent

 Uses all training samples

Stochastic Gradient Descent (SGD)

Mini-Batch Gradient Descent

 Uses subset of data

6. Learning Rate Scheduling

👉 Piecewise constant LR is most commonly used.

7. Need for Advanced Optimization

 Oscillations near minima

PART 2: CS05 – OPTIMIZATION (Slides 29–51)

8. Exponentially Weighted Averages (EWA)

9. Gradient Descent with Momentum

vt=βvt−1+(1−β)∇Lv_t = \beta v_{t-1} + (1-\beta)\nabla Lvt=βvt−1+(1−β)∇L w=w−ηvtw = w

 Acts like a ball rolling downhill

10. Sparse Features Problem

 Same learning rate for all parameters

11. AdaGrad Optimizer

st=st−1+gt2s_t = s_{t-1} + g_t^2st=st−1+gt2 w=w−ηst+ϵgtw = w - \frac{\eta}{\sqrt{s_t} + \

 Larger updates for infrequent features

 Learning rate decays too aggressively

12. RMSProp Optimizer

st=βst−1+(1−β)gt2s_t = \beta s_{t-1} + (1-\beta)g_t^2st=βst−1+(1−β)gt2

 Prevents denominator from growing indefinitely

13. Adam Optimizer

 First moment (mean of gradients)

14. Saddle Points in Deep Learning

Momentum-based methods help escape saddle points.

PART 3: CS06 – ACTIVATION FUNCTIONS

15. Need for Activation Functions

 Network becomes linear

17. Linear Activation

18. Sigmoid Activation

 Binary classification output

19. Tanh Activation

 Recurrent Neural Networks (RNNs)

20. ReLU Activation

 Dying ReLU problem

21. Dying ReLU Problem

22. Leaky ReLU

✔ Fixes dying ReLU

23. Softmax Activation

Softmax(zi)=ezi∑ezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum e^{z_j}}Softmax(zi)=∑ezjezi

 Outputs probability distribution

24. Output Representation

25. Weight Initialization

26. Zero Initialization Problem

27. Xavier Initialization

🔑 IMPORTANT EXAM POINTS

📝 PROBABLE EXAM QUESTIONS

1. Explain Adam optimizer with equations.

1. What is dying ReLU?

If you want, I can next:

 ✔ Convert this into PDF / handwritten-style notes

You might also like