什么是卷积神经网络中的激活、激活梯度、权重梯度和权重梯度? [英] What are "Activations", "Activation Gradients", "Weights" and "Weight Gradients" in Convolutional Neural Networks?

查看:96
本文介绍了什么是卷积神经网络中的激活、激活梯度、权重梯度和权重梯度?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我刚刚阅读完CNNS上Stanford的CS231n的the notes,有一个指向实时demo的链接;但是,我不确定演示中的"激活"、"激活梯度"、"权重"和"权重梯度"指的是什么。下面的屏幕截图是从演示中复制的。

念力点位1

我首先感到困惑的是,"激活"指的是输入层。根据笔记,我认为激活层指的是CNN中的RELU层,它本质上告诉CNN哪些神经元应该被点亮(使用RELU功能)。我不确定这与如下所示的输入层有什么关系。此外,为什么会显示两个图像?第一张图像似乎显示了提供给CNN的图像,但我无法区分第二张图像显示的内容。

念力第二点

我不确定这里显示的"激活"和"激活梯度"是什么,原因与上面相同。我认为"权重"显示了卷积层中的16个过滤器的样子,但我不确定应该显示什么"权重梯度"。

念力第三点

我想我理解RELU层中的"激活"指的是什么。它在输出图像的每个值(像素)都应用了RELU功能之后显示所有16个滤镜的输出图像,因此16个图像中的每个图像都包含黑色(未激活)或某种白色阴影(激活)的像素。但是,我不明白"激活梯度"指的是什么。

念力点位4

我也不明白"激活梯度"在这里指的是什么。

我希望通过理解此演示,我将更多地了解CNN

推荐答案

此问题与this问题相似,但不完全相同。另外,here's a link到带注释的ConvNetJS示例代码(here's a link到完整文档)。您可以查看演示页面顶部的代码,了解代码本身。

anactivation function是一个函数,它接受一些输入并根据它是否达到某个"阈值"输出一些值(这对于每个不同的激活函数都是特定的)。这来自神经元的工作方式,在那里它们接受一些电输入,只有当它们达到某个阈值时才会激活。

念力第一点:第一组图片是原始输入图片(左图),右边是激活函数后的输出。您不应该真的能够解释第二个图像,因为它正在通过网络经历非线性和感知到的随机非线性转换。

念力第二点:与上一点类似,"激活"是传入图片像素信息的函数。Agradient本质上是激活函数的斜率。它看起来更稀疏(即,颜色仅显示在某些位置),因为它显示了图像中每个节点关注的可能区域。例如,第一行的第6个图像在左下角有一些颜色;这可能表示激活函数有很大的变化,表明该区域有一些有趣的东西。这个article可能会澄清一些念力的权重和激活功能。this article对每个步骤都有一些非常棒的视觉效果。

念力第三点:这一开始我很困惑,因为如果您考虑ReLu function,您会发现x对于正x的斜率是1,其他所有地方的斜率都是0。所以取激活函数的梯度(或斜率)(在本例中是RELU)是没有意义的。"最大激活"和"最小激活"值对于RELU是有意义的:最小值将是零,最大值是任何最大值。这直接来自REU的定义。为了解释梯度值,我怀疑这些值添加了一些高斯噪声和bias term of 0.1编辑:梯度指的是如下所示的成本-权重曲线的斜率。y轴是损失值或使用x轴上的权重值w计算的误差。

图像源https://i.ytimg.com/vi/b4Vyma9wPHo/maxresdefault.jpg

念力要点4:参见上文。

这篇关于什么是卷积神经网络中的激活、激活梯度、权重梯度和权重梯度?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆