【论文阅读】NIPS2018 Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels
论文地址:http://papers.nips.cc/paper/8072-co-teaching-robust-training-o
论文代码:https://github.com/bhanML/Co-teaching (PyTorch)
针对噪声数据的训练,目前主要有两种方式:
- 训练noise transition matrix,例如:在softmax输出之后再接一层softmax
- 先从带噪数据中选出干净数据,再用干净数据训练模型
从带噪数据选出干净数据的两个典型网络:
- Mentor Net:训练一个额外的网络来选取干净数据
- Decoupling:两个网络A/B,A!=B时才更新参数,缺点:噪声数据可能分布在整个样本空间中,包括A != B的样本,这种情况下Decoupling无法剔除噪声数据;
Mentor-Net/Decoupling/Co-teaching随着训练轮数的增加,误差传递情况:
learning-to-teach mothed来自老师-学生网络,老师网络提取有用信息给学生网络训练;Mentor Net首先将老师-学生网络引入到带噪数据学习任务中;
Co-teaching meets noisy supervision:
两个问题:
(1)为什么选用loss小的样本作为干净样本?
(2)为什么要用两个网络?
co-teaching和co-training的不同: