计算机视觉算法散乱知识整理
1 全连接层的作用
(1) 假设你是一只小蚂蚁,你的任务是找小面包。你的视野还比较窄,只能看到很小一片区域。当你找到一片小面包之后,你不知道你找到的是不是全部的小面包,所以你们全部的蚂蚁开了个会,把所有的小面包都拿出来分享了。全连接层就是这个蚂蚁大会~
如果提前告诉你全世界就只有一块小面包,你找到之后也就掌握了全部的信息,这种情况下也就没必要引入fc层了
作者:田star
链接:https://www.zhihu.com/question/41037974/answer/150552142
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。(2) 全连接层(fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和**函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。
目前由于全连接层参数冗余(仅全连接层参数就可占整个网络参数80%左右),近期一些性能优异的网络模型如ResNet和GoogLeNet等均用全局平均池化(global average pooling,GAP)取代FC来融合学到的深度特征,最后仍用softmax等损失函数作为网络目标函数来指导学习过程。
作者:魏秀参
链接:https://www.zhihu.com/question/41037974/answer/150522307
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。(3)fc层其实就是一个近似线性的分类器
2 Softmax Loss: https://www.jianshu.com/p/c02a1fbffad6,感觉看这篇文章比较好一点,有空可以自己再推一推。
3 L1范数、L2范数
L0范数是指向量中非零元素的个数,如果用L0规则化一个参数矩阵W,就是希望W中大部分元素为0,实现稀疏
L1范数是指向量中各个元素的绝对值之和
L2范数是指向量各元素的平方和然后开方 。。。再看看
事实上 L1 regularization 会使得许多参数的最优值变成 0,这样模型就稀疏了。
L1范式趋向于产生较少特征,在特征选择时很有用;L2会选择更多特征,但对应权值会接近0