优化算法到底如何工作？深度学习中的几个经典优化算法的道理解析

taihom · 发表于 2023-9-7 09:17

神经网络学习的目的就是找到使损掉函数的值尽可能小的参数。这是寻找最优参数的问题，而优化算法就是为了解决这个问题而发生的。由此可见，优化算法是神经网络的核心。
<hr/>一、SGD

1. 何为SGD

SGD即为随机梯度下降算法。是深度学习优化算法的基石一般的存在，后续的优化算法可以说都是基于SGD进行的改良。
如何理解SGD呢？《深度学习入门-基于Python的理论与实现》一书中给了一个经典的例子。

有一个性情古怪的探险家。他在广袤的干旱地带旅行，对峙寻找幽深的山谷，他的方针是要达到最深的谷底。
他给本身制定了两个规定：一是不许看地图；二是把眼睛蒙上。
因此，他并不知道最深的谷底在这个广袤的大地的何处。在如此严苛的条件下，冒险家如何才能找到“至深之地”呢？

寻找最优参数的过程，与这位探险家寻找至深之地的过程十分类似。若是盲目的摸索，无异于大海捞针。
在如此困难的情况下，感知地面的坡度对于探险家来说就尤为重要。探险家虽然无法通过眼睛不雅察看，但是可以感知地面坡度，他只需要朝着当前地址位置的坡度最大的标的目的前进，对比于盲目摸索，更加容易达到至深之地。这就是随机梯度下降算法SGD。
SGD的数学公式暗示为： W\leftarrow W - \eta (\partial L/\partial W) 。为了便利阅读，后续将 (\partial L/\partial W) 改写为 g_{t} 。即SGD的数学暗示也可以写为： W\leftarrow W - \eta \cdot g_{t} 。我们可以使用Python很容易的实现SGD：
class SGD:
def __init__(self, lr=0.01):
      self.lr = lr

def update(self, param, grads):
      for key in params.keys():
         params[key] -= self.lr * grads[key]2. 如何理解这个更新的公式呢？

其一：梯度的负标的目的是函数局部下降最快的标的目的。

假设有损掉函数 f(x) ，向某个标的目的移动t，变为 f(x+t) ，那么什么情况下损掉函数下降最大呢，其实就是求解什么情况下 f(x)-f(x+t) 的值达到最大。由泰勒公式可知 f(x+t)≈f(x)+f(x)^{'}t ，颠末平移可以得到： f(x)-f(x+t)≈-f(x)^{'}t=df(x)t 。
我们要注意的是d f(x)和t均为向量，d f(x)t也就是两个向量进行点积，而向量进行点积的最大值，也就是两者共线的时候，也就是说t的标的目的和d f(x)标的目的不异的时候，点积值最大。而又存在一个负号，故要求df(x)和t是相反的，这样得到的差值才是最大。故梯度的负标的目的是局部下降最快的标的目的。

其二：

假设有 f(x_{1}, x_{2}, x_{3})=w_{1}x_{1}+w_{2}x_{2}+w_{3}x_{3} ，则 f 关于 x 的梯度，即标的目的导数为： (\partial f/\partial x_{1},\partial f/\partial x_{2},\partial f/\partial x_{3}) 。每一个偏导数暗示当其对应的x发生变化时，函数f的值会有多大的变化。
而在一个有着形状为2×3的权重W的神经网络，用L暗示损掉函数，则损掉函数L关于权重W的梯度可以暗示为：

图1

此中每一个偏导数都暗示当该偏导数对应位置的权重发生变化时，损掉函数L会发生多大的变化。所以我们按照 W=W-\eta \cdot (\partial L/\partial W) 来不竭更新权重，使得损掉函数值越来越小。
3. SGD存在的问题

但是通过对SGD的使用，人们很快发现了SGD的一个错误谬误：在某些情况下收敛非常慢。具体是什么情况呢？就是如图2所示的处在一个类似于倾斜向右的山谷的形状的情况。我们已知最深处在山谷的右侧。

图2

图2（左）为山谷，图2（右）为山谷的俯视图。假设当前从(-5, 8)处开始进行搜索（即处在靠左的某一面山坡上），那么此时有一个向山谷的速度以及一个向右（因为山谷是略向右倾斜的）的速度。而由于朝向山谷的速度非常大，故向右的速度可以忽略不计，则寻找至深之处的路线就会变成如图3所示：

图3

需要颠末反反复复的上上下下才可以最终找到谷底。在上述的情况下，SGD的性能非常差，这就导致了模型的训练非常慢，以至于看起来已经收敛。为了解决这个问题，研究人员提出了动量的概念。
二、Momentum

动量的呈现就是为了解决或者说减缓上述SGD的错误谬误的。
动量算法的感化是在参数更新时增加了一个动量向量的累积项，它能够保持之前的更新标的目的，并按照历史梯度的大小来调整更新的步长。这样做的好处是使得参数在梯度标的目的上获得持续的加速，减少了震荡现象。此外，动量算法还可以辅佐模型跳出局部最小值，并更快地收敛到全局最优解。使其搜索路线可以达到如下图所示的效果：

图4

那么这个效果是如何实现的呢？我们先来看动量的数学表达式： W \leftarrow W - \eta \cdot g_{t} + \alpha \cdot v 。W \leftarrow W - \eta \cdot g_{t} 是SGD的部门，尔后面多了一个 \alpha \cdot v ，暗示前面累积的速度。具体表达的是什么思想呢？如下图所示：

图5

如图5所示，添加动量这个因素相当于给参数优化添加了一点物理的味道。
本来的SGD是不管下一次权重更新之后梯度是如何变化的，只是纯挚的按照学习率对权重参数进行更新。
但是添加了动量之后，就会考虑到“力”的因素，如上图，当小球向上走时，就会有一个重力作为阻力，当小球向下走时，重力又作为推力。即在参数更新的过程中，如果更新前的速度与梯度标的目的一致，则更新的数值更大，如果纷歧致，则更新的数值会比SGD时更小。
总之一句话：动量的感化就是加速收敛，减少震荡。动量通过考虑过去梯度的平均值来调整参数的更新步长和标的目的。
三、AdaGrad

1. 道理

学习率是个很重要的东西，决定了一次更新的步长。
而学习率衰减是一个优化技巧，使模型一开始多学，慢慢的少学，可以有效避免模型在学到最优值附件反复横跳。而这个学习率衰减的方式是使全体参数的学习率值一起降低，并不是很人性化。
AdaGrad进一步成长了这个思想，针对一个一个的参数进行学习率更新。

图6

这里呈现了一个新的变量h，如上图所示，h累积了以前所有梯度值的平方和。这个h是个什么概念呢，我们知道，梯度代表了损掉函数下降最快的标的目的和大小，即梯度值越大，那么权重参数更新的幅度也就越大，而累积了前面所有的梯度平方和，说明模型的参数在前面更新的越快，则梯度越大，从而h的值也越大。而在第二个公式中，使用学习率除以这个h。说明更新的越快的参数，其学习率就减小的越快。

图7

如上图所示，由于y轴的梯度较大，因此一开始的变换斗劲大，但是后面会按照这个较大的变换进行调整，减小在y轴上更新的法式，因此y轴上的更新程度布景减弱，更新曲线趋于平缓。
2 . RMSProp

但是这样会呈现一个问题，随着学习的深入，h的值会越来越大，直至使得学习率的值趋于0。这必定不是我们想要的成果。针对这个问题，可以使用RMSProp方式。
RMSProp方式并不会将前面所有的梯度都一视同仁的相加起来，而是使用逐渐遗忘过去的操作，将做加法时将新的梯度信息看的更重要。这种操作叫做“指数移动平均”。
四、Adam

首先给结论： Adam ≈ Momentum + AdaGrad
Adam结合了两种方式的长处。设置了三个超参数：学习率 \alpha ，一次动量 \beta_{1} ，二次动量 \beta_{2} ，一般情况下 \beta_{1}=0.9 ， \beta_{2}=0.999 。这个是论文作者本身炼出来的，可以使用于大部门情况。可以达到如下效果：

图8

具体理论还在学习中，未完待续。。。。。

		自动登录	找回密码
密码			立即注册

优化算法到底如何工作？深度学习中的几个经典优化算法的道理解析

本帖子中包含更多资源