论文分享:异构域适应TIT
0 题目
1 背景
大数据——>数据标记是先决条件,但是很难
域适应可以处理有标签源域,和无标签目标域的知识迁移
2 问题
如何用基于域适应的机器学习模型实现无标签数据的迁移?
3 现状与GAP
3.1 现有研究
符合同构域适应情况很难找到,实际大多都是异构域适应(HDA)
模型比较
3.2 GAP
训练时都需要标记目标域的样本,这需要在一个公式中引入带标签和无标签数据,存在大量超参数,导致优化过程复杂,而且带标签的样本通常在训练阶段不可用。
4 难点
(1)如何在不妥协的情况下处理异构数据?
(2)如何在没有标记目标样本的情况下传输可比较甚至更多的知识?
5 创新点
(1)学习多个独立的变换(TIT),每个域一个变换
统一优化,将它们映射到公共域不变空间
(2)分别从特征级别,样本级别迁移知识
在样本级别保留结构一致性,提出样本重加权/地标选择算法
6 内容
根据样本几何关系(不是特征关系)进行图优化,实现地标选择
- 将特征向量抽象成图顶点,做整数运算(不是浮点运算)
- 用降维算法优化目标
增加主样本权重,降低异常值权重
符号表示:
6.1 广义分布匹配
MMD
6.2 广义知识迁移
- 结构一致性
数据分布可视化t-SNE,发现相同标签的样本距离相近——样本几何关系 - 样本重加权和地标选择
最相关的样本是landmark(源域和目标域重叠/最接近的样本),现有的地标选择都是采用统计分析法,复杂且耗时。
本文:将特征向量抽象到图形顶点,并使用顶点的度来测量相应样本的重要性,使用简单整数算法而不是使用浮点算法的复杂矩阵运算,可以显着降低计算成本。地标选择基本上等于样本重新加权 - 特征选择
L2正则化
6.3 正则化
避免信息损失,保证原始目标信号的能量
7 验证
(1)图像分类
(2)文本分类
(3)文本——>图像识别
8 总结
域适应:源域中有一些标签,目标域中没有或有很少的标签,两个域特征空间相同(数据从相同类型的特征中采样),只是具有不同的概率分布。
可以利用源域中的标签信息,通过知识迁移解决目标域中的任务
可迁移知识是分类任务中的判别信息,由于分布的变化,如果两个域不在相同的空间中,则辨别信息不能直接用于目标域。
对来自不同域样本之间的距离,用欧几里得距离建模不合适