机器学习---之损失函数求最小值为什么不用导数为0的点而用梯度下降法

1.因为，损失函数可能有无限个极值点，你并不知道哪个点可以使损失函数最小，如下图中的损失函数：

2.而使用梯度下降法虽然不一定能求导全局最小值，但可以求导局部最小值，也能使损失函数降低为0,如下图所示：

机器学习---之损失函数求最小值为什么不用导数为0的点而用梯度下降法

3.如果损失函数是凹的或者是凸的时候，一定可以找到全局最优解，这个时候，在训练过程中你可以看到损失函数可能早都为0了，但还是在不断迭代找全局最优解，这个过程可能是无限的，因为函数的最小值可能是无穷小，这个时候即可以停止训练了。