论文分享:异构域适应TIT

0 题目

论文分享:异构域适应TIT

1 背景

大数据——>数据标记是先决条件,但是很难
域适应可以处理有标签源域,和无标签目标域的知识迁移

2 问题

如何用基于域适应的机器学习模型实现无标签数据的迁移?

3 现状与GAP

3.1 现有研究

符合同构域适应情况很难找到,实际大多都是异构域适应(HDA)
论文分享:异构域适应TIT
模型比较
论文分享:异构域适应TIT

3.2 GAP

训练时都需要标记目标域的样本,这需要在一个公式中引入带标签和无标签数据,存在大量超参数,导致优化过程复杂,而且带标签的样本通常在训练阶段不可用。

4 难点

(1)如何在不妥协的情况下处理异构数据?
(2)如何在没有标记目标样本的情况下传输可比较甚至更多的知识?

5 创新点

(1)学习多个独立的变换(TIT),每个域一个变换
统一优化,将它们映射到公共域不变空间
(2)分别从特征级别,样本级别迁移知识
在样本级别保留结构一致性,提出样本重加权/地标选择算法

6 内容

根据样本几何关系(不是特征关系)进行图优化,实现地标选择

  • 将特征向量抽象成图顶点,做整数运算(不是浮点运算)
  • 用降维算法优化目标

增加主样本权重,降低异常值权重

符号表示:
论文分享:异构域适应TIT

6.1 广义分布匹配

MMD

6.2 广义知识迁移

  • 结构一致性
    数据分布可视化t-SNE,发现相同标签的样本距离相近——样本几何关系
  • 样本重加权和地标选择
    最相关的样本是landmark(源域和目标域重叠/最接近的样本),现有的地标选择都是采用统计分析法,复杂且耗时。
    本文:将特征向量抽象到图形顶点,并使用顶点的度来测量相应样本的重要性,使用简单整数算法而不是使用浮点算法的复杂矩阵运算,可以显着降低计算成本。地标选择基本上等于样本重新加权
  • 特征选择
    L2正则化

6.3 正则化

避免信息损失,保证原始目标信号的能量

7 验证

(1)图像分类
(2)文本分类
(3)文本——>图像识别

8 总结

域适应:源域中有一些标签,目标域中没有或有很少的标签,两个域特征空间相同(数据从相同类型的特征中采样),只是具有不同的概率分布。
可以利用源域中的标签信息,通过知识迁移解决目标域中的任务

可迁移知识是分类任务中的判别信息,由于分布的变化,如果两个域不在相同的空间中,则辨别信息不能直接用于目标域。

对来自不同域样本之间的距离,用欧几里得距离建模不合适