吴恩达神经网络和深度学习-学习笔记-26-迁移学习（transfer learning）

深度学习中，最强大的理念之一就是，有的时候神经网络可以从一个任务习得知识，并将这些知识应用到另一个独立任务中。
所以例如，也许你已经训练好了一个神经网络，能够识别像猫的对象，然后使用那些知识（或者一部分知识）去帮助你更好地阅读x射线的扫描图。
而这，就是迁移学习。

下面用例子说明（图像识别 --> 放射诊断）：
吴恩达神经网络和深度学习-学习笔记-26-迁移学习（transfer learning）
步骤如下：

训练好原始网络（图像识别 image recognition）
把原网络最后的输出层、进入到最后一层的权重（the weights feeding into that last output layer）
为最后一层重新赋予随机权重。
将网络在新的目标数据上训练（放射诊断数据）

具体来说，在第一阶段训练过程中，当你进行图像识别任务训练时，你可以训练神经网络的所有常用参数、所有的权重、所有的层，从而得到一个能够做图像识别预测的网络。
在训练这个网络以后，要实现迁移学习，要做的就是把数据集换成新的（目标）x和y，然后初始化最后一层的权重（称为W^[L]和b^[L]的随机初始化）。

在再训练（retrain）神经网络的的时候有几个option：
当目标数据集很小的时候：我们可能只需要重新训练最后一层的权重W^[L]和b^[L]，并保持其他参数不变。
如果目标数据集足够多：你也可以重新训练神经网络中剩下的所有层。

经验规则是：如果你有一个小数据集，就只训练输出层前的最后一层，或者是最后一两层。如果有足够多的数据，那么也许你可以重新训练网络中的所有参数。
这个在图像识别数据的初期训练阶段的过程，有时被称为预训练，在目标数据上训练的过程称为微调。

在这个例子中我们做的是，把图像识别中学到的知识，应用或迁移到放射科诊断上来。

这样做有效果的原因是：
有很多低层次的特征（比如说边缘检测，曲线检测，阳性对象检测），从非常大的图像识别数据库中习得这些能力，可能有助于你的学习算法在放射科诊断中做的更好。
因为算法学到了很多结构信息和图像形状的信息（the structure and the nature of how images look like），而其中一些知识可能会有帮助。
所以学会了图像识别，它就可能学到了足够多的信息来了解不同图像的组成部分是怎样的（knowledge about lines, dots, curves and so on, maybe small parts of objects）。
（我的理解是，预训练可以使得网络的较前层，学习到大类问题的通用知识！）

预训练的好处：
可以使目标网络学习的快一点，或者需要更少的学习数据。

另一个例子，语音识别：
吴恩达神经网络和深度学习-学习笔记-26-迁移学习（transfer learning）
迁移学习何时有意义：

然后分别解释下这三条

same input指的是，都是图像或音频，其实是数据的类型的问题。
迁移来源数据多于迁移目标数据（因为单个迁移来源数据的价值，要小于迁移目标数据）
迁移来源的低水平特征对迁移目标有用。

我们有很多迁移前的数据（迁移来源数据），但是迁移目标的数据没有那么多。也就是数据比例的问题。如果迁移来源数据比迁移目标数据还少，虽然不会有什么坏处，但基本也没什么收益。

吴恩达神经网络和深度学习-学习笔记-26-迁移学习（transfer learning）

相关推荐