机器学习---之损失函数求最小值为什么不用导数为0的点而用梯度下降法
1.因为,损失函数可能有无限个极值点,你并不知道哪个点可以使损失函数最小,如下图中的损失函数:
2.而使用梯度下降法虽然不一定能求导全局最小值,但可以求导局部最小值,也能使损失函数降低为0,如下图所示:
3.如果损失函数是凹的或者是凸的时候,一定可以找到全局最优解,这个时候,在训练过程中你可以看到损失函数可能早都为0了,但还是在不断迭代找全局最优解,这个过程可能是无限的,因为函数的最小值可能是无穷小,这个时候即可以停止训练了。