Color Constancy by Learning to Predict Chromaticity from Luminance
论文:Color Constancy by Learning to Predict
Chromaticity from Luminance
作者:Ayan Chakrabarti
年份:2015
期刊:NIPS
1.介绍
早期的颜色恒常性算法是基于相对简单的像素颜色模型。例如,灰色世界方法简单地假设图像中所有像素上不同颜色通道的平均真实强度将相等,而白色斑块重影方法假设图像中最亮像素的真实颜色为白色。许多方法将模型用于图像导数而不是单个像素。其他方法则基于识别图像段并将其与训练集中的图像段进行匹配,以恢复真实色彩。最近的方法提出了使用多层卷积神经网络从图像块回归到光源颜色。 还有很多“基于组合”的颜色恒定性算法,结合了来自许多简单的“单一”算法的光源估计,有时使用图像特征为某些方法子集的输出赋予更高的权重。
在本文中,我们通过适当的建模和推理来证明单独的像素颜色,可以计算高精度的恢复光源颜色。我们孤立地考虑单个像素,其中颜色恒定性任务减少到在给定观察颜色和候选光源集的像素的可能的真实颜色的选择上区分。我们的方法的核心是一个函数,它给我们这些真实颜色的相对相似性,因此在相应的候选光源上分布。我们对场景光源的全局估计是通过简单地将这些分布聚集在图像中的所有像素上来计算的。
似然函数表示为在给定观测亮度的情况下,测量真实像素色度的条件似然函数,在一定程度上不确定观测颜色强度中的标量(即独立于颜色通道)模糊度。本文并没有采用参数形式,而是量化了可能的色度和亮度值的空间,并定义了这个离散域上的函数。
(1)首先纯粹根据经验(仍优)设置条件似然性,仅基于训练集中所有图像中所有像素的真实颜色值的直方图。
(2)然后,研究了通过基于最终全局照明度估计精度的目标优化来学习每像素置信函数。使用随机梯度下降进行优化,并使用子抽样方法改进训练集之外的泛化。(进一步提高估计精度,而不增加推理的计算成本。)
2.预备工作
颜色强度向量:
颜色恒常性为从v(n)计算相应的颜色强度x(n)∈R3,该颜色强度是在某个典型的光源lref下观察到的(通常lref(λ)=1)。x(n)称为n处的“真实颜色”。
一般,即使知道光源l(n,λ),也不能从v(n)中恢复x(n),因此,通过简单的每通道自适应来关联真实和观察到的颜色x(n)和v(n):
本文重点讨论单光源情况,并假设对图像中任意n,m(n)=m。
推断的目的:从观测图像v(n)估计全局照明度m,真实颜色图像x(n)可以恢复为m ^-1 o v(n),其中m^-1表示m的元素方面的逆。
颜色恒常性算法只寻求解决(2)中m和x(n)之间的模糊性,直到与通道无关的标量因子。这是因为在m中,由于光的衰减在l和lref之间,由于阴影因子s(n)在x(n)和k(n)之间,由于曝光设置的变化观察到的图像v(n)本身,会出现标量模糊度。因此,通常使用的性能指标是真实和估计的光源矢量m和之间的角误差。
角误差
数据:
每个图像都包含一个放置在图像中的颜色检查器图表,并手动标记其位置。图表中的灰色方块的颜色被视为每个图像的真实照明度m的值,然后可以使用该值来校正图像,以在每个像素处获得真实的颜色(当然,仅按比例)。在评估过程中,图表被屏蔽。在本文实验中,对这个数据集使用了k倍交叉验证。每个折叠包含来自两个摄像机的图像(数据中的图片由两个不同的照相机拍摄),对应于每个摄像机图像集的k个大致相等的分区之一(按文件名/捕获顺序排序)。对每一个折叠中的图像的估计是基于仅使用来自剩余折叠的数据的训练。报告了三倍和十倍交叉验证的结果。
3.基于像素色度统计的颜色恒常性
颜色向量x∈R3被表示:
(1)它的亮度||x||1或颜色通道的绝对亮度;
(2)它的色度,即不同通道中强度之间相对比率的度量。
虽然有不同的色度编码方法,本文将根据x方向上的单位向量xˆ = x/||x||2 来进行编码。由于强度不能为负,xˆ 被限制在单位球面S^2+的非负八分之一上。本文目标是仅按比例解决真实颜色x(n)和光源m之间的模糊性。换句话说,我们只需要估计光源的色度mˆ和从观测图像v(n)得到的真实色度xˆ(n),从(2)中得:
自然光源色度的一个关键特性是,已知它们具有一组相当有限的值,接近普朗克辐射定律预测的一维轨迹。
普朗克辐射定律:
普朗克辐射定律,是公认的物体间热力传导基本法则,认为单位面积单位时间辐射功率和温度的四次方成正比,比值是5.67×10-8 W·m^-2 ·K^-4。虽然有物理学家怀疑此定律在两个物体极度接近时不能成立,但始终无法证明和提出实证。美国麻省理工学院(MIT)2009年7月30日宣布,该校动力工程学华裔教授陈刚与其团队的研究,首次打破“黑体辐射定律”的公式,证实物体在极度近距时的热力传导,可以高到定律公式所预测的一千倍之多。该研究将在“NanoLetter”2009年8月号科学杂志上发表。
为了利用这一点,我们将
表示为光源色度mˆ的可能值集,并从训练集构造它。具体地说,对训练集中的光源的色度向量
进行量化,并设M为唯一色度值的集合。此外,本文基于量化为mˆi的训练光源的数量ni,定义了该候选集上的“先验”。
先验:
给定在单个像素n处观察到的颜色v(n),在光源集M上的模糊度mˆ转换为集合上
的真实色度xˆ(n)中的对应模糊度。从图中注意到,尽管对于任何观察到的颜色而言,可能的真实色度值集中存在明显的角度偏差,但每组中的值在色度空间都接近于一维轨迹。这表明训练中的光源确实很适合普朗克定律。
本文目标是研究在不考虑像素的空间邻域或语义上下文的情况下,可以在每个像素的基础上解决上述真实色度模糊问题的程度。方法是基于计算xˆ(n)的可能值上的似然分布,给定观测到的亮度
。但是,观测到的颜色强度的尺度有相当大的模糊性。我们通过对观察到的亮度应用简单的每幅图像全局归一化来定义
部分解决了这一问题。这非常粗略地补偿由于曝光设置、光源亮度等引起的图像变化。但是,请注意,由于归一化是全局的,因此它不补偿由于阴影造成的变化。
我们的推理方法的核心部分是一个函数L[xˆ,y],该函数编码一种信度,即具有标准化观测亮度y的像素具有真实色度xˆ。通过对色度和亮度值进行量化,在离散域上定义此函数:我们将亮度值y剪裁为4(即图像亮度中值的4倍),并将其量化为20个大小相等的箱子;对于色度xˆ,我们使用多指量化,在S2+中有214大小相等的容器。我们采用纯经验方法,将L[xˆ,y]定义为
。
一般来说,在所有颜色通道中具有相似强度值的去饱和色度是最常见的。这与自然光谱的统计分析结果一致,后者显示“DC”成分(在整个波长范围内平坦)是方差(变化越大方差越大)最大的成分。而且,这些色度中的似然质量浓度随着亮度y值的增加而增加。这一现象也被色彩科学中的传统直觉所预测:当材料反射大部分入射光时,它们最亮,当它们有一个平坦的反射函数,所有的值k(λ)都接近1时,通常会发生这种情况。事实上,这正是白斑retinex方法的基础。在饱和的颜色中,我们发现红绿或蓝绿结合的色调比原色出现的频率高,纯绿色和红色蓝的结合最不常见。这与反射函数通常是平滑的发现是一致的(像素光谱上的主成分分析揭示了类似于傅立叶的基础)。饱和的绿和红蓝组合都要求反射率在可见光谱的中间分别有一个尖峰或波峰。
我们现在描述一种利用置信函数L[xˆ,y]进行光源估计的方法。给定在像素n处观察到的颜色v(n),我们可以得到在可能的真实色度值
集合上的分布
,它也可以被解释为对应光源上m^i的分布。然后,我们简单地聚集图像中所有像素n的这些分布,并将作为场景光源m的全局概率定义为
其中
最后的光源色度估计值计算如下:
(4)还包括光源过程中的先验bi。我们使用网格搜索将参数α和β设置为使训练集上的平均照度估计误差最小的值。推理的主要计算成本是计算{li}的值。使用(3)预先计算值g(xˆ,mˆ)在xˆ的量化色度值的离散域上以及mˆ的候选光源集M上。因此,计算每个li本质上只需要从查找表中添加N个数字。我们需要对所有
光源执行此操作,其中不同光源的求和可以并行执行。
我们方法的经验版本与贝叶斯方法有一些相似之处,贝叶斯方法基于光源的先验值以及场景中存在不同真实反射值的可能性。关键的区别在于我们的真实色度模型是以亮度为条件的,这使得强度值的绝对尺度的估计是不可知的。我们还对所有像素进行推理,而不是对图像中的唯一颜色集进行推理。
实验结果
采用三重交叉验证的误差具有更低的平均值、中值和三平均值,该方法使用支持向量回归将十二种不同的“单一”颜色恒定性方法的光源估计值结合起来,误差的改善更大。此外,由于我们的方法比大多数以前的算法有更多的参数,可能受益于更多的训练数据。我们发现当我们切换到十倍交叉验证时,误差分位数减少。(相对明亮的像素上有更高的方差)
4.端到端学习L [xˆ,y]
如果典型图像中的像素色度是(不受影响的)i.i.d.,则前一节中的经验方法是最佳的,但事实显然并非如此。因此,提出一种在L[xˆ,y]中设置信度的替代方法,该方法优化了最终全局照明度估计的准确性。但是,与以前的颜色恒定性方法显式地对像素之间的统计相关性进行建模不同,(例如,通过对空间导数建模或对全图像直方图的学习函数建模)我们保留了总体参数“ 形式”,通过该形式我们可以计算(4)中的光源。因此,尽管L[xˆ,y]本身是通过了解自然图像中色度的共现性来学习的,但是在推理过程中,仍然通过简单的每像素分布的聚集来估计光源。
置信度:
(1)在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。
(2)如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之2.5(假设分布是对称的)
具体的说,将L[xˆ,y]的条目设置为最小化一组训练图像上的成本函数C:
通过使用来自训练集的不同光源“重新照明”每个图像来增加可用的训练数据。我们使用原始图像集和六个重新照明的副本进行培训,并使用第七个副本进行验证。
使用随机梯度下降来最小化(6)。我们将L初始化为经验值(为了方便起见,我们将经验值乘以α,然后设置α=1以计算li),然后在每次迭代时考虑来自训练集的单个图像。我们对训练集进行多次遍历,在每次迭代时,我们随机对每个训练图像的像素进行子采样。具体来说,通过一次随机的对16×16块进行子采样,我们只保留图像中总像素的1/128。防止过度拟合,提高泛化能力。
泛化:
由具体的、个别的扩大为一般的。
采样:
(1)降采样:
对过采样的信号作抽取,即是所谓的“降采样”。
在数位信号处理领域中,降采样,又作减采集,是一种多速率数字信号处理的技术或是降低信号采样率的过程,通常用于降低数据传输速率或者数据大小。 跟插值互补,插值是用来增加取样频率。降采样的过程中会运用滤波器降低混叠造成的失真,因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器。
(2)过采样:
在信号处理中,过采样是指以远远高于信号带宽两倍或其最高频率对其进行采样的过程。
作用:能将噪声扩展到更高的频率,通过低通滤波器后,可使得基带内的SNR提高。
意义:
1.提高时域分辨力从而获得更好的时域波形;
2.提高滤波器的处理增益,当在频域上滤波时,滤波器的设计变得更容易;
3.提高信噪比,匹配滤波时更好地收集波形能量;
4.抑制镜像,使上变频更容易,降低对后级DA转换的保持时间要求;
5.需要fractional sampling timing时是必需的。
(3)欠采样:
就是采样频率低于信号带宽2倍的要求。实际应用时,对周期信号有意义,需要获取多个采样序列,每个序列平移一定的时间间隔。
比如,采样周期为4mS(采样频率250Hz),信号周期为1000mS,采样250次,再将采样时间起点向后调节2mS,再采样250次,将两次采样按第一组第1点,第二组第1点,第一组第2点,第二组第2点的顺序合并,得到500点得采样数据。相当于采样频率提高到了500Hz。
这种应用通常要求信号的每个周期变化很小,否则,就没有意义了。
(4)子采样:
对彩色电视图像进行采样时,可以采用两种采样方法。一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样,另一种是对亮度信号和色差信号分别采用不同的采用频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样。子采样的基本根据是人的视觉系统所具有的两条特性,一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低,利用这个特性可以把图像中表达颜色的信号去掉一些而使人不察觉;二是人眼对图像细节的分辨能力有一定的限度,利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样就是利用这个特性来达到压缩彩色电视信号。
(5)下采样:
对于一个样值序列间隔几个样值取样一次,这样得到新序列就是原序列的下采样。
(6)上采样:
上采样就是采集模拟信号的样本。 采样是将时间上、幅值上都连续的信号,在采样脉冲的作用下,转换成时间、幅值上离散的信号。所以采样又称为波形的离散化过程。 普通的奈奎斯特采样定理的前提是频率受限于(0,f)的带限信号。通常采样指的是下采样,也就是对信号的抽取。其实,上采样和下采样都是对数字信号进行重采,重采的采样率与原来获得该数字信号(比如从模拟信号采样而来)的采样率比较,大于原信号的称为上采样,小于的则称为下采样。上采样的实质也就是内插或插值。上采样是下采样的逆过程,也称增取样或内插。增取样在频分多路复用中的应用是一个很好的例子。如果这些序列原先是以奈奎斯特频率对连续时间信号取样得到的,那么在进行频分多路利用之前必须对它们进行上采样。
总结:
(1)降采样:对过采样的信号作抽取,即是所谓的“降采样”。
(2)过采样:在信号处理中,过采样是指以远远高于信号带宽两倍或其最高频率对其进行采样的过程。
(3)欠采样:就是采样频率低于信号带宽2倍的要求。
(4)子采样:对彩色电视图像进行采样时,可以采用两种采样方法。一种是使用相同的采样频率对图像的亮度信号和色差信号进行采样,另一种是对亮度信号和色差信号分别采用不同的采用频率进行采样。如果对色差信号使用的采样频率比对亮度信号使用的采样频率低,这种采样就称为图像子采样。
(5)下采样:对于一个样值序列间隔几个样值取样一次,这样得到新序列就是原序列的下采样。
(6)上采样:上采样和下采样都是对数字信号进行重采,重采的采样率与原来获得该数字信号的采样率比较,大于原信号的称为上采样,小于的则称为下采样。
成本函数Ct相对于信度L [xˆ,y]的当前值的导数为
使用动量在每次迭代时根据这些导数更新L[xˆ,y]的值。
在我们的实验中,设置μ=0.9,对20个r=100的阶段和10个r=10的阶段进行随机梯度下降。保留每个阶段中L的值,我们的最终输出是在验证集中产生最低平均照度估计误差的版本。
注意,尽管它们保留了对不饱和颜色和绿-红和绿-蓝混合色调的总体偏向,但它们比他们的经验性对应颜色更不“平滑”——在许多情况下,对于色度的微小变化,值L[xˆ,y]有急剧变化。我们假设这些变化是由于当特定(xˆ,y)对的信度对应于特定观察颜色的模糊集合中的错误选择时,将特定(xˆ,y)对的信度转移到它们的邻域造成的。
实验结果
在使用这些经过端到端训练的置信函数L时,与经验函数相比,它们能显著减少误差。事实上,使用三倍交叉验证的端到端训练的误差开始接近使用十倍交叉验证的经验版本,后者可以获得更多的训练数据。最显著的改进(对于三倍和十倍交叉验证)是“异常值”性能,即75%和90%的文件错误值。颜色恒常性方法在由少量具有模糊色度的材料主导的图像上表现最差,我们的结果表明端到端训练提高了我们估计方法在这些情况下的可靠性。
从图2中我们看到每像素误差和方差图现在有更多的高频变化,因为L现在对像素间的轻微色度变化反应更剧烈。还发现较大比例的像素会自行生成相当精确的估计值。在信度方差上也有更高的差异,包括在视觉上看起来在输入中是同质的区域内,这表明全局估计现在受到较小比例像素的影响更大。
5.总结
本文介绍了一种新的颜色恒定性方法,该方法基于给定其亮度的像素真实色度的条件似然函数。提出两种方法学习这个函数。(1)纯粹基于经验像素统计,(2)基于最大化最终光源估计的精度。这两个版本都被发现优于最先进的颜色恒常性方法,包括那些采用更复杂特征和语义推理的方法。虽然在本文中假设使用单个全局光源,但是潜在的每像素推理可能会扩展到多光源情况。我们的方法通常能够从单个像素提取合理的光源估计。未来研究的另一个有用方向是研究使用以亮度为条件的似然函数(使用固有图像分解方法估算)而不是归一化亮度的好处。这将排除由阴影引起的空间变化的标量模糊性,这可能导致更多的信息分布。
本文相关术语
朗伯体:
朗伯体是指当入射能量在所有方向均匀反射,即入射能量以入射点为中心,在整个半球空间内向四周各向同性的反射能量的现象,称为漫反射,也称各向同性反射,一个完全的漫射体称为朗伯体。
漫反射:
漫反射,是投射在粗糙表面上的光向各个方向反射的现象。当一束平行的入射光线射到粗糙的表面时,表面会把光线向着四面八方反射,所以入射线虽然互相平行,由于各点的法线方向不一致,造成反射光线向不同的方向无规则地反射,这种反射称之为“漫反射”或“漫射”。这种反射的光称为漫射光。很多物体,如植物、墙壁、衣服等,其表面粗看起来似乎是平滑,但用放大镜仔细观察,就会看到其表面是凹凸不平的,所以本来是平行的太阳光被这些表面反射后,弥漫地射向不同方向。
各向同性和各向异性:
各向同性和各向异性是指物理性质在不同的方向进行测量得到的结论。如果各个方向的测量结果是相同的,说明其物理性质与取向无关,就称为各向同性。如果物理性质和取向密切相关,不同取向的测量结果迥异,就称为各向异性
贝叶斯分析方法:
贝叶斯分析方法(Bayesian Analysis)是贝叶斯学习的基础,它提供了一种计算假设概率的方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。