从零开始深度学习0513——CBIR基本知识
0513
感受野
衡量某一层的feature map 中的某一个cell 对应到原图输入的响应区域大小
如图 输入层11*11 没有zero-padding
经过第一层5*5 conv 得到feature map 为7*7
经过第二层7*7conv 得到feature map 为1*1
所以可以知道 假如这个1*1是最后整个feature map 中的其中一个cell 根据上面的话,可以知道它对应的感受野就为11*11,也就是对应输入图像的响应区域大小
语义分割其实就是对最后的feature map 进行像素级别的分类,通过感受野响应到输入图像,根据周围的信息 去做分类
Output_field_size 是通过输入计算得到的最后的feature map 大小
Input_field_size 是通过输出的feature map计算对应的感受野
传统的图像检索都是 手工提取图像特征,然后扔到SVM中进行处理,SVM需要特征向量作为输入
以图搜图技术,
也称为基于内容的图像检索 Content-based Image Retrieval (CBIR) Framework
将大量的图片经过特征提取后,存储进database,然后对查询的图像也进行feature extraction ,然后去database中进行相似度比对,按相似度大小返回查询图像
但是,用在工业届中,如何进行实时的响应 是一个非常重要的点
优化后
所以会有一种索引技术在里面,哈希的索引技术,将提取的特征向量,比如是2048维向量映射到子空间中,比如映射成128维, 并且这128维中 存放的是 不是0就是1 的binary code 我们成为 hash binary code
通过这种技术,转化为,在128维的二进制数上进行相似度计算 会大大减小计算量
一是 维度减小 二是通过二进制的异或操作进行加速
在2048 -----à 128 这中间过程是几乎不记的代价
准确率上即时可以假如从95% 降低到94% 但是速度上是成百上千倍的提升
有时候在数据量小的情况下,传统的机器学习 也会占优势
深度学习 需要大量的样本来 不断学习 合适的参数 达到更好的acc
BOW bag-of-word
包含:位置信息 关键点描述符
Local feature局部特征算子
HOG SIFT …….
这些不是机器学习 学习的
是科学家根据统计学,一些梯度等等 科学计算方法 弄出来的