性别年龄论文阅读(4)——SSR-Net

性别年龄论文阅读(4)——SSR-Net

版权声明:本文为博主原创文章,未经博主允许不得转载https://blog.****.net/heruili/article/details/88313751

SSR-Net: A Compact Soft Stagewise Regression Network for Age Estimation
Conference: Twenty-Seventh International Joint Conference on Artificial Intelligence {IJCAI-18}
本文提出了一种新的CNN模型,称为Soft Stagewise Regression Network(SSR-Net),用紧凑的模型大小用于单一图像的年龄估计。在DEX的启发下,我们通过多类分类处理年龄估计,然后通过计算期望值将分类结果转化为回归。SSR-Net采用从粗到细的策略,分多个阶段执行多类分类。每个阶段只负责细化前一阶段的决策,以获得更准确的年龄估计。因此,每个阶段执行的任务只有很少的类和需要的神经元,大大减少了模型的大小。为了弥补由于把年龄分段造成的量化问题,SSR-Net对每个年龄段允许其进行适当的调整,允许它根据输入的人脸图像进行移位和缩放。将多阶段策略和动态范围结合到软阶段回归的公式中。提出了一种实现软阶段回归的网络体系结构。结果SSR-Net模型非常紧凑,只需要0.32 MB。尽管它体积小,SSR-Net的表现方法的最先进的模型尺寸的方法常常是超过1500×大。SSR-Net的模型仅有0.32MB,却能取到比其大1500倍模型相当的精度.

主要内容
1.受DEX启发: 将年龄预测回归问题变为多分类问题

2.由粗到细策略,每个阶段执行部分年龄分类,任务量少(Stagewise):每个阶段预测类别少,产生更小参数和更紧凑的模型

3.解决量化年龄问题,引入动态范围,让每个bin可以平移和缩放(Soft ):允许bin根据输入来进行平移和缩放

4.模型大小可以达到0.32M
Introduction
从单张图片预测年龄是计算机视觉中的一个经典问题,在视频监控、零售以及人机交互中有很多的应用.由于相同年龄的人的外观差别很大导致这个问题很有挑战性.有些年纪大的人看起来很小而有些正好相反/因此,即使对于人类来说这也是一个有挑战性的任务.

Soft stagewise regression network
本节首先说明问题。然后,我们描述了两个关键的思想,逐步回归和动态范围。最后给出了网络体系结构,并给出了软件逐步回归的公式
Problem formulation
在单张人脸图像的真实年龄估计问题中,我们给出了一组训练人脸图像X ={x n | n = 1…N},每个图像x N的实际年龄y N∈Y,其中N为图像个数,Y为年龄区间。我们的目标是找到一个预测˜y = F的函数F(x)的年龄对于一个给定的图像x。训练,我们寻找函数F通过最小化预测和实际年龄之间的平均绝对误差(MAE),
性别年龄论文阅读(4)——SSR-Net
Stagewise regression
以往的工作将年龄估计的回归问题转化为求解一个多类分类问题,然后计算期望值作为预测年龄。为
例如DEX [Rothe et al., 2015;Rothe等,2016a]将年龄区间Y = [0,V]均匀划分为s个不重叠的箱。因此每个箱的宽度是V/S,DEX为s类年龄分类问题训练了一个网络。对于给定的图像x,网络输出一个分布向量 p = (p 0 ,p 1 ,…,p s−1 )表示x属于每个年龄组的概率。然后通过计算以下期望值来预测年龄
性别年龄论文阅读(4)——SSR-Net
为了得到更准确的估计,DEX将年龄区间精细划分,并将bin宽度设置为一岁,即,如果Y =[0…100],则有101个箱子(bins)。它在最后阶段为全连接(FC)层生成了大量的参数,消耗了大量的内存。
为了在不降低模型精度的前提下减小模型的尺寸,我们提出了一种多阶段预测的由粗到精策略。假设有K个阶段,第K个阶段有s个箱子。For each stage, we
train a network F k that generates the distribution性别年龄论文阅读(4)——SSR-Net for that stage. 年龄由阶段回归公式预测,性别年龄论文阅读(4)——SSR-Net
假设我们想要估计0 ~ 90岁范围内的年龄(V =90)。
假设我们有两个阶段(K =2),每个阶段(s1 = s2 = 3)都有三个箱子。从分类的角度来看,第1阶段将图像分为青年(0∼30)、中年(30∼60)或老年(60∼90)。对于阶段2,阶段1中的每个箱子进一步划分为s 2 = 3个箱子。因此,阶段2箱体宽度为90 /(3·3)= 10。阶段2的分类器将图像分类为相对较年轻(+0∼10)、中间(+10∼20)或内部相对较老(+20∼30)
第一阶段分配的年龄组。注意,第2阶段只有一个分类器,第1阶段的所有年龄组共享它。阶段1以粗粒度预测年龄,而阶段2以细粒度细化年龄。阶段回归的优点是,每个阶段的类数都很小,导致更少的参数和更紧凑的模型

Network structure
图1(a)显示了拟议的SSR-Net的整体网络结构。受Yang等人[Yang et al., 2017]提出的互补的2-stream结构的启发,我们采用了包含两个异构流的2-stream模型。对于这两种流,基本构建块由3×3卷积、批处理归一化、非线性**和2×2池组成。然而,每个流都采用不同类型的**函数(ReLU与Tanh)和池(平均与最大值),以使它们异构。通过这种方式,他们可以探索不同的特性,并且他们的融合可以提高性能。不同阶段采用不同层次的特征。对于每个阶段,在某个级别上,来自两个流的特性都被输入到一个融合块中,如图1(b)所示。

网络结构
性别年龄论文阅读(4)——SSR-Net

实验是在一台使用Intel i7 CPU和NVIDIA GTX1080Ti的机器上进行的。该程序是用Keras实现的。用于软阶段回归的自定义层由Keras的自动微分提供支持。在训练中,随机**常用的数据增强技巧,包括缩放、移动、剪切和翻转。除非另有说明,SSR-Net使用三个阶段,其中s1 = s2 = s3 = 3,即,SSR-Net(3,3,3)。采用Adam方法[Kingma and Ba, 2014]对90个epoch的网络参数进行优化。初始学习率为0.002,每30个时代降低0.1倍。对于IMDB数据集,批处理大小为128,对于其他数据集,批处理大小为50。SSR-Net的培训时间约为3小时,包括预培训时间
论文实验结果

我们将提出的SSR-Net模型与一套最先进的基于深度学习的年龄估计方法进行了比较。竞争的方法可以大致分为两组,大模型和紧凑模型,根据他们的模型大小

紧凑的模型强调减少内存占用,并可能牺牲内存和速度的准确性。在这个类别中,年龄估计模型较少。ORCNN [Niuet al., 2016]将有序回归问题转化为一系列二元分类问题,并使用一个多输出CNN来共同解决这些子问题。MR-CNN [Niu et al., 2016]使用了类似的网络,但用于度量回归。MobileNet [Howard et al., 2017]将标准卷积替换为深度可分离卷积,以减少参数和计算开销。Dense-Net [Huang et al., 2017]以一种前馈的方式将每一层与每一层连接起来,可以用更少的参数实现良好的性能。MobileNet和DenseNet都是具有可调参数的通用网络模型。我们选择了这些参数,使它们的模型大小大约为1mb,以便与SSR-Net进行公平的比较

性别年龄论文阅读(4)——SSR-Net
比较MobileNet、DenseNet、SSR-Net的培训进度(从左到右),以及它们在IMDB、WIKI和MORPH2上的验证比较(从上到下)。对于每个数据集,80%的图像作为训练集,其余20%作为验证集。对于前三列,蓝色曲线表示MAE中训练误差的进展情况,橙色曲线表示验证误差的进展情况。如果这两条曲线很接近,说明从训练数据得到的模型可以更好地应用于验证数据。具有此属性的模型较少受到过度拟合的影响。从这个角度来看,SSR-Net在所有三个数据集上都优于其他两个方法。最后一列显示SSR-Net优于MORPH2验证集中的其他验证集

性别年龄论文阅读(4)——SSR-Net
性别年龄论文阅读(4)——SSR-Net
Conclusion
本文提出了一种新的年龄估计方法——软阶段回归网络(SSR-Net)。它既紧凑又高效。在多个年龄估计数据集上也取得了良好的性能。该阶段预测结构避免了大量的神经元,使模型更加紧凑。通过利用动态范围,可以更好地解决量化误差,使SSR-Net的性能可以与那些笨重的模型相媲美。SSR-Net具有体积小、计算效率高等优点,适用于移动或嵌入式设备的年龄估计。在未来,我们将探讨对其他回归问题提出的设想。