文章目录 1 梯度下降 1.1 批量梯度下降法(BGD: Batch Gradient Descent) 1.2 随机梯度下降法(SGD: Stochastic Gradient Descent) 1.3 小批量梯度下降法(MBGD:Mini-Batch Gradient Descent) 2 Momentum 3 Adagrad:Adaptive gradient algorithm 4 RMSProp 5 Adam: Adaptive Moment Estimation 1 梯度下降 数学解释:在微积分里面,对多元函数的参数求偏导,把求得的偏导数以向量的形式写出来,就是梯度。例如 f ( x , y ) f(x,y) f(x,y)对 x , y x,y x,y求偏导,求得的梯度向量就是 ( ∂ f ∂ x , ∂ f ∂ y ) T \left(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y}\right)^T (∂x