2.3 logistic回归损失函数

2.3 logistic回归损失函数 为了训练logistic回归模型的参数w以及b，需要定义一个成本函数。

让我们来看一下。用logistic回归来训练的成本函数。

一、扼要重述

2.3 logistic回归损失函数回忆一下，这张幻灯片的函数，你的输出y^=sigmoid(w^Tx+b)，这里定义为sigmoid（z）。

为了让模型来通过学习调整参数，要给一个m个样本的训练集。很自然地，你想通过在训练集，找到参数w和b，来得到你的输出，对训练集中预测值，将它写成y^（l），我们希望它会接近于在训练集中的y^(i)值。

为了让上面的方程更详细一些，需要说明上面这些定义的y^,是对一个训练样本x来说的，对于每一个训练样本，使用这样带有括号的上标。方便引用说明，还有区分样本。

你的训练样本（i），对应的预测值是y^（i）是用训练样本，通过sigmoid函数作用到wT*x^(i)+b得到的，你也可以将z^(i)定义成z（i）=wT*x^(i)+b。

在这门课里,我们将使用这个符号约定，就是这个上标（i）来指明数据，表示x或者y或者z和第i个训练样本有关，这就是上标（i）的含义。

二、损失函数/误差函数

2.3 logistic回归损失函数现在我们来看看损失函数或者叫做误差函数，它们可以用来衡量算法的运行情况。你可以定义为损失为y^和y的差的平方，或者它们差的平方的1/2。

结果表明，你可以这样做。但通常在logistic回归中，大家都不这么做。

因为当你学习这些参数的时候，你会发现之后讨论的优化问题会变成非凸的。最后，会得到很多个局部最优解。梯度下降法，可能找不到全局最优值。

如果你不能理解这几句话，别担心，我们会在后面的教学中讲到它。但是这个直观理解就是，我们通过定义这个损失函数L，来衡量你的预测值y^和y^的实际值有多接近。

误差平方，看起来似乎是一个合理的选择。但用这个的话，梯度下降法就不太好用。

在logistic回归中，我们会定义，一个不同的损失函数，它起着与误差平方相似的作用。这些会给我们一个凸的优化问题。

在后面的教学能看到，它很容易去做优化。

在logistic回归中，我们用的会是这里写的损失函数。它是-（y*log(y^)+(1-y)log(1-y^)）.

直观地看看为何这个损失函数能起作用。

记得如果我们使用，误差平方越小越好。对于这个logistic回归的损失函数，同样地，我们也想让它尽可能地小。

为了更好地理解，为什么它能够起作用，让我们来看两个例子。

在第一个例子中，我们说y=1时，就是这第一项L（y^,y）,带个符号就是-log（y^）。因为如果y=1，那么第二项1-y就等于0.这就是说当y=1时，你想让-log（y^）尽可能小，这意味着，想让log（y^）够大。

尽可能地大，这样就意味，你想要y^够大，但是因为y^是simoid函数得出的，永远不会大于1。也就是说，如果y=1时，你会想让y^尽可能地大，但它永远不会大于1。

另一个情况就是，如果y=0，损失函数的第一项等于0。因为y是0，然后第二项就是这个损失函数变成-log（1-y^）。

在学习过程中，想让损失函数小一些，也就意味着，你想要log（1-y^）够大，因为这里有一个符号。

通过这一系列推理，你可以得出，损失函数让y^尽可能地小。

再次，因为y^只能介于0到1之间，这就是说，当y=0时，损失函数会让这些函数，让y^尽可能地接近0，有很多函数都能达到这个效果。如果y=1，我们尽可能让y^很大。如果y=0，尽可能让y^足够小。

绿色字体这里，稍微解释了，为什么用这个作为损失函数。

后面我们会提供选修课，给出更正式的这样做的原因。解释为什么在logistic回归中，要用这个形式的损失函数。

最后说一下，损失函数是在单个训练样本中定义的。它衡量了在单个训练样本上的表现。

3、成本函数

2.3 logistic回归损失函数下面我们要定义一个成本函数。它衡量的是在全体训练样本上的表现。这个成本函数J，根据之前得到的两个函数w和b，J等于1/m乘以求和L（y^(i),y^(i)）,即所有训练样本的损失函数和。

而y^是用一组特定的参数w和b，通过logistic回归算法，得出的预测输出值。

所以，把这个展开，这等于-1/m，从i=1到m对损失函数求和，这是y^(i)*log(y^(i))，加上（1-y^(i)*log(1-y^(i））。我在这里划伤方括号，符号在这一堆式子的外面。

术语这样来用，损失函数只适用于，像这样的单个训练样本。这个成本函数，基于参数的总成本。

所以，在训练logistic回归模型时，我们要找到合适的参数w和b，让下面这里的成本函数J尽可能地小。

你刚看到了，logistic回归算法的过程，以及训练样本的损失函数，还有和参数相关的总体成本函数。

结果表明，logistic回归，可以被看作是一个非常小的神经网络。

【下节预告】在下一讲中，我们将会讲到，直观地去理解神经网络能做什么，看看如何将logistic回归看作一个非常小的神经网络。