0 题目

论文分享：异构域适应TIT

1 背景

大数据——>数据标记是先决条件，但是很难
域适应可以处理有标签源域，和无标签目标域的知识迁移

如何用基于域适应的机器学习模型实现无标签数据的迁移？

符合同构域适应情况很难找到，实际大多都是异构域适应（HDA）
论文分享：异构域适应TIT
模型比较

训练时都需要标记目标域的样本，这需要在一个公式中引入带标签和无标签数据，存在大量超参数，导致优化过程复杂，而且带标签的样本通常在训练阶段不可用。

（1）如何在不妥协的情况下处理异构数据？
（2）如何在没有标记目标样本的情况下传输可比较甚至更多的知识？

（1）学习多个独立的变换(TIT)，每个域一个变换
统一优化，将它们映射到公共域不变空间
（2）分别从特征级别，样本级别迁移知识
在样本级别保留结构一致性，提出样本重加权/地标选择算法

根据样本几何关系（不是特征关系）进行图优化，实现地标选择

增加主样本权重，降低异常值权重

符号表示：
论文分享：异构域适应TIT

MMD

结构一致性
数据分布可视化t-SNE，发现相同标签的样本距离相近——样本几何关系
样本重加权和地标选择
最相关的样本是landmark（源域和目标域重叠/最接近的样本），现有的地标选择都是采用统计分析法，复杂且耗时。
本文：将特征向量抽象到图形顶点，并使用顶点的度来测量相应样本的重要性，使用简单整数算法而不是使用浮点算法的复杂矩阵运算，可以显着降低计算成本。地标选择基本上等于样本重新加权
特征选择
L2正则化

避免信息损失，保证原始目标信号的能量

（1）图像分类
（2）文本分类
（3）文本——>图像识别

域适应：源域中有一些标签，目标域中没有或有很少的标签，两个域特征空间相同（数据从相同类型的特征中采样），只是具有不同的概率分布。
可以利用源域中的标签信息，通过知识迁移解决目标域中的任务

可迁移知识是分类任务中的判别信息，由于分布的变化，如果两个域不在相同的空间中，则辨别信息不能直接用于目标域。

对来自不同域样本之间的距离，用欧几里得距离建模不合适