行人属性“Attribute Recognition by Joint Recurrent Learning of Context and Correlation”
应该是比较新的属性学习文章了,ICCV2017。在监控场景中进行行人属性的识别,主要遇到的挑战是图像质量差,外形变化及属性可能在不同的空间位置,标记的训练样本少。论文提出JRL模型挖掘属性上下文信息及属性间相互关系提升识别准确率。JRL在一张行人图像内学习属性相关性,具体的说是属性预测顺序的相互关联性。
解决属性预测遇到挑战的方法,一是使用属性的相关性:如“女性”和“裙子”在一张行人图像中出现的可能性大。二是使用视觉上下文信息协助属性识别,如同一场景中不同人具有相同属性。论文将行人之间的上下文信息及行人个体内部属性关联一起建模,学习一个一体化的网络。提出了一个新的RNN 编码-解码网络用于行人属性预测。RNN模型探索了顺序预测约束,挖掘潜在的更丰富的高阶属性相关性。自然语言语句预测就使用了词间相关性。论文没有使用人体part,监控场景中part比较难检测到。
JRL是一个序列预测模型,将给定行人图像转换为区域序列,属性集转换为顺序的列表。编码器将固定长度的图像区域序列映射到连续的特征向量。递归的过程是对行人局部空间上下文进行序列编码,及传播区域间上下文信息,这成为人体内部属性上下文建模。此外,JRL加入了行人间相似度上下文,在训练集中查找相似的图像,编码并使用相似度最大池化组合。这种融合的特征标识用来初始化解码器,解码器将图像特征向量转化为可变长度的属性序列。这种序列到序列的编码及解码过程使得高阶及低阶属性相关学习成为可能。此外,属性是没有具体位置的弱标记,探索了数据驱动的注意力机制找出属性敏感的图像区域,知道解码器在这些位置提取特征。
JRL
属性预测是一个多标签识别问题,JRL的结构如下图所示:
RNN 编码-解码网络,RNN是包含内部隐含状态
其中
1. 人体内属性上下文
使用LSTM编码器对每个行人图像进行行人内属性建模,将输入图像映射到固定长度的特征向量。具体的说,输入图像分割成m个水平条状区域,形成自上而下的区域序列。编码器顺序读取图像区域,根据公式(2)更新LSTM编码器隐含状态,编码器的隐含状态
2. 行人间相似度上下文
补偿图像质量差的问题,从训练图像视觉上相似的图像中挖掘附加信息。搜索前k个相似的图像,对于每个相似的图像
图像表示及相似度搜索:
说明了LSTM编码器的输入:使用ImageNet初始化AlexNet,微调,对于给定行人图像,将第5圈基层的**分解为m个水平区域,每个池化到向量。相似度搜索是FC7层的输出,L2距离。
3. 属性间相关性
行人图像的属性标记序列由所有属性固定的顺序生成。使用
4. 属性注意力
JRL中加入注意力机制,关注输入区域序列中最相关的部分。通过在编码输出增加一个结构实现,特别的,对输入图像序列
逐步上下文标识
没有注意力时,z是常值。
Word Embedding将上一时的属性预测作为下一次预测的递归反馈。
训练
属性预测的顺序是10个顺序的集成。对每个属性顺序,训练一个特定的JRL。为防止噪声由RNN传播到CNN,两者独立训练。majority voting获得最终的结果。
实验结果