论文翻译:A Tutorial on Energy-Based Learning

文章地址LeCun经典论文

Abstract

     基于能量的模型(EBM)通过将标量能量与变量的每个配置相关联来捕获变量之间的依赖关系。推论包括钳制观测变量的值,并找出使能量最小的其余变量的配置。学习包括找到一个能量函数,其中变量的观察结构的能量比不可观测的能量要低。 EBM方法为许多学习模型提供了一个共同的理论框架,包括传统的判别式和生成式方法,图形变换网络,条件随机场,最大余量马尔可夫网络以及多种多样的学习方法。
    概率模型必须正确地归一化,有时需要在所有可能的变量配置的空间上评估难以处理的积分。由于循证医学对适当的正常化没有要求,所以这个问题是自然规避的。 EBMs可以被看作是非概率因子图的一种形式,它们在架构和训练标准的设计上比概率方法提供了更多的灵活性。

1. Introduction:基于能量的模型

    统计建模和机器学习的主要目的是编码变量之间的依赖关系。通过捕获这些依赖关系,可以使用模型来回答有关已知变量值的未知变量值的问题。
    基于能量的模型(EBM)通过将标量能量(兼容性度量)与变量的每个配置相关联来捕获依赖关系。推断,即进行预测或决定,包括设定观测变量的值并找出使能量最小的其余变量的值。学习包括找到一个能量函数,将低能量与其余变量的正确值相关联,将高能量与不正确的值相关联。在学习期间最小化的损失功能用于测量可用能量函数的质量。在这个通用的推理/学习框架中,能量函数和损失函数的广泛选择允许设计许多类型的统计模型,包括概率和非概率。
    基于能量的学习为许多概率和非概率的学习方法提供了一个统一的框架,特别是对图形模型和其他结构化模型的非概率性培训。基于能量的学习可以被看作是预测,分类或决策任务的概率估计的替代方法。由于不需要适当的归一化,所以基于能量的方法避免了与估计概率模型中归一化常数相关的问题。此外,归一化条件的缺乏使得学习机器的设计具有更大的灵活性。大多数概率模型可以被看作是能量函数满足一定的标准化条件的特殊类型的基于能量的模型,其中通过学习优化的损失函数具有特定的形式。
    本章介绍了基于能源模型的教程,重点介绍了它们用于结构化输出问题和序列标签问题。第1节介绍基于能量的模型,并通过能量最小化描述确定性推理。第2节介绍基于能量的学习和损失函数的概念。描述了许多标准和非标准损失函数,包括感知器损失,多个基于边际的损失和负对数可能性损失。负对数似然损失可以用来训练一个模型来产生条件概率估计。第三部分展示了如何在EBM框架中制定简单的回归和分类模型。第四部分涉及包含潜在变量的模型。第5节详细分析了各种损失函数,并给出了损失函数必须满足的充分条件,使其最小化将导致模型接近所需的行为。给出了“好”和“坏”损失函数的列表。第6节介绍了非概率因子图的概念,并且非正式地讨论了有效的推理算法。第7节着重于序列标签和结构化输出模型。线性模型,如最大边缘马尔可夫网络和条件随机场在EBM框架中重新制定。回顾80年代后期和90年代初的关于言语和手写体识别学习的文献。这包括集成了非线性判别函数(如神经网络)和序列比对方法(如动态时间规整和隐马尔可夫模型)的全球训练系统。还讨论了图形变换器网络体系结构等分层模型。最后,第8节讨论了基于能量的方法,概率方法和基于采样的近似方法(如对比分歧)的差异,共性和相对优势。

论文翻译:A Tutorial on Energy-Based Learning

8.5. Conclusion
本教程是为了介绍和解释以下主要思想而编写的:
    •许多现有的学习模式可以简单地表示在能量学习的框架内。
    •在文献中提到的许多损失函数中,有些是好的(非零边际),有些可能是坏的。
    •概率学习是基于能量学习的特例,其中损失函数是负对数似然,也就是最大的互信息标准。
    •随机梯度法优化损失函数通常比黑箱凸优化法更有效。随机梯度方法可以应用于包括非凸函数在内的任何损失函数。由于空间的高维度,局部极小在实践中很少成为问题。
    •支持向量马尔可夫模型,最大边缘马尔可夫网络和条件随机场都是使用线性参数化能量因子的序列建模系统。自二十世纪九十年代初以来,具有用于语音和手写识别的非线性参数化的序列建模系统一直是非常活跃的研究领域。自90年代初以来。
    •图变换器网络是分级序列建模系统,其中被操纵的对象是包含给定级别的所有替代解释的格子。全局训练可以使用随机梯度,通过使用一种反向传播算法的形式来计算相对于系统中所有参数的损失的梯度。