论文阅读笔记--ExpandNet: High Dynamic Range Expansion from Low Dynamic Range Content
Marnerides D, Bashford‐Rogers T, Hatchett J, et al. ExpandNet: A deep convolutional neural network for high dynamic range expansion from low dynamic range content[C]//Computer Graphics Forum. 2018, 37(2): 37-49.
该网络重点放在网络设计上,设计了三种不同网络分别获取图像的高频细节,中等细节,和整体轮廓信息。另外就是作者认为网络中的上采样和降采样会导致结构出现各种artifact,例如色块,马赛克等问题。因此其中两个网络不存在将采用和上采样操作。
整个框架的三个分支是局部分支、扩展分支和全局分支。每个分支本身就是一个接受RGB的CNN,LDR图像作为输入。这三个分支中的每一个都负责一个特定的方面,本地分支处理本地细节,维护和扩展高频细节,扩展分支处理中级细节,学习关于较大像素邻域的信息,全局分支负责更高级别的图像范围的特性,通过学习输入的全局上下文提供总体信息。这样设计体系结构旨在避免对下采样特征进行上采样,这样是为了减少马赛克或者光晕artifact。例自动编码器架构。
分支描述:
global branch: 目的是降低输入的维数并捕获抽象特征, 输入是 整个LDR 图像 resize 到256*256, 前6层kernel=3*3*64, padding=1, 第七层kernel=4*4, padding=0, 最后输出1*1*64的feature.
local branch: 目的局部分支的小接受域(接收域5*5)提供像素级的学习,保持高频细节,包含两层, kernel=3*3*64/128, stride=1, padding=1
dilation branch: 目的随着接受域(接受域17*17)的增大,扩张网络捕获的局部特征具有中等范围的频率,而其他两个聚焦于频率两个极端的分支则错过了这些频率,总共四层使用dilated 卷积, dilation size=2, kernel=3*3*64, stride=1, padding=2,
融合描述:
三个分支的输出本融合, local branch 和 dilation branch有相同尺寸的输出,直接concatenat按channel, global branch输出是1*1*64的向量, 通过复制, 保证宽高尺寸与其他两个一致.
融合使用1*1*64的卷积, 之后使用kernel=3*3*3, stride=1,padding=1卷积, 得到三通道图像
**函数:
Scaled Exponential Linear Unit(SELU):
网络最后一层使用sigmoid **函数使得结果在[0, 1] 的范围
损失函数:
采用L1, L2 会造成模糊. 在额外增加 cosine 相似性,以确保每个像素的RGB向量的颜色正确性
表示 数据集中第i个图像的贡献loss, lamda 是调节因子,
表示第i个图像的第j个像素向量.
余弦相似度通过比较两个向量之间的角度来衡量它们之间的接近程度,而不考虑幅度。在此工作中,它确保每个像素都指向三维RGB空间的相同方向。它提供了改善的色彩稳定性,尤其是对于在HDR图像中经常出现的低亮度值,因为这些低值的RGB分量中的任何微小变化都不会对L1损失做出很大贡献,但是它们可能会引起明显的色移。