1. 首页
  2. 开发者
  3. 机器学习

神经网络-全连接层(2)

神经网络-全连接层(2)

      这一回聊一下神经网络的反向传导算法问题。反向传导算法是一个比较复杂的算法,但是如果把它拆解开,其实每一个小步骤并不复杂。

      在此之前需要先介绍一个概念,那就是模型训练目标。神经网络是一个用在监督学习上的模型,所谓的监督学习就是我们要提前知道输入和输出。那么我们的模型训练目标自然是希望模型在接收输入后,可以得到和我们提前知道的一样的输出。

      但是怎么描述这个“一样”呢?现实中会有很多具体的表述方法。这里我们介绍并采用一种相对简单的方式,那就是二次损失函数。对于模型的输出y,和我们提前知道的理论输出t,有:

神经网络-全连接层(2)

      好了,下面我们定义一个双层神经网络,其中:

  1. 输入的数据是2维
  2. 第一层神经网络的输入也是2维,输出是4维,非线性部分采用sigmoid函数
  3. 第二层神经网络的输入也是4维,输出是1维,非线性部分采用sigmoid函数

 

      下面的时间请大家想象这个神经网络……

      不用想了,画了个比较丑的…… 

 

神经网络-全连接层(2)

链式求导

      下面的时间我们来推导神经网络的优化公式。推导公式本身不需要太多的数学知识,但是需要一些耐心,我们首先解决一个数据的推导,然后扩展到一批(batch)数据上。

我们的目标函数是这个损失函数Loss,优化方法还是之前提到的梯度下降法,那么我们就需要求出每一个参数的梯度,也就是:

第一层:神经网络-全连接层(2)

神经网络-全连接层(2)

第二层:神经网络-全连接层(2)

      如果我们能求出上面的17个梯度,后面我们就可以用负梯度乘以步长进行优化迭代了,说实话,直接求解这些确实有点难,这时候微分世界的一大神器就来了,那就是链式求导。我们把数据传递的过程再详细描述一下:

  1. 输入数据神经网络-全连接层(2)
  2. 第一层的线性部分输出神经网络-全连接层(2)
  3. 第一层的非线性部分输出神经网络-全连接层(2)
  4. 第二层的线性部分输出神经网络-全连接层(2)
  5. 第二层的非线性部分输出y
  6. 二次损失函数Loss

 

      下面就按照这个顺序分步求导,对于上面的六个变量和模型的参数,我们根据每个分布的公式求出每个变量最近的输出的导数:神经网络-全连接层(2)

神经网络-全连接层(2)

神经网络-全连接层(2) , 同层的其他参数不再赘述

神经网络-全连接层(2)

      到这歇一下,我们已经顺利求出第二层的所有参数的导数了,具体的求导过程在这就不说了。下面是第一层

神经网络-全连接层(2) , 同层的其他参数不再赘述

神经网络-全连接层(2) ,同层的其他参数不再赘述

神经网络-全连接层(2)

神经网络-全连接层(2) ,同层的其他参数不再赘述

神经网络-全连接层(2) ,同层的其他参数不再赘述

      到这里,我们实际上已经完成了基本运算,后面的事情就是把这些小的部分组合起来,比方说:

神经网络-全连接层(2)

      看着十分复杂是吧?可是实际上其中每一个部分都已经被我们计算了,我们只需要把数据全部代入就可以了。当然,实际上如果严格按照公式进行计算,梯度的公式会比这个更复杂,但是其中一部分梯度实际上等于0,所以在此略去。

      而且,随着我们从高层网络向低层计算的过程中,很多中间结果可以用于计算高层参数的梯度了。所以经过整理,全部的计算过程可以如下表示:

神经网络-全连接层(2)

神经网络-全连接层(2)

  1. 神经网络-全连接层(2) , 同层的其他参数不再赘述

神经网络-全连接层(2)

  1. 神经网络-全连接层(2) , 同层的其他参数不再赘述
  2. 神经网络-全连接层(2) ,同层的其他参数不再赘述
  3. 神经网络-全连接层(2), 同层的其他参数不再赘述
  4.  2/3    首页  上一页  1  2  3  下一页  尾页

神经网络-全连接层(2), 同层的其他参数不再赘述

 

      以上就是计算的全过程了,经过了这个过程,我们确实做到了导数的求解,虽然有些繁琐,但是是不是看上去没那么复杂了?

反向传导的抽象

      上面的8个步骤我们呢可以分成2部分:1-4步实际上完成了第2层神经网络的梯度计算,5-8步实际上完成了第1层神经网络的梯度计算。抽象地分析,可以得出:

  1. Loss对本层非线性部分的梯度
  2. Loss对本层线性部分的梯度
  3. Loss对本层线性部分w的梯度
  4. Loss对本层线性部分b的梯度

 

      如果每一个高层把下面一层的输出梯度计算好传递过去,那么我们就可以把每一层抽象出来,各自完成各自的计算即可,层与层之间的计算可以做到”完全独立”,虽然它们是连在一起的。

      解决了上面的问题,我们还不能马上写出代码,因为训练过程中真正的代码比上面的内容还要复杂一些。下一回我们来看看全连接层代码该怎么写。

发布者: aihot,转转请注明出处:http://www.aiwuyun.net/archives/3924.html

发表评论

登录后才能评论

联系我们

在线咨询:点击这里给我发消息

邮件:admin@aiwuyun.net

工作时间:周一至周五,9:30-18:30,节假日休息