引入

论文地址：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8242668&tag=1
已有工作：

非包映射： 使用一个实例或者所有实例的统计信息表示包，这将丢失大量信息。
传统包映射： 基于实例选取进行映射，但是不能使得包在新的映射空间有效区分。
论文作者提出判别包映射：选取更具代表性的实例，以此构建判别实例池，使得包可以在映射空间得以有效区分。

说明：所有图片源自原论文，无意侵权。

1 判别包映射

1.1 总体框架

本文符号表如下：

符号	含义
$\mathcal{B}$	训练集
$n$	包数量
$B_i$	包
$y_i \in \mathcal{Y} = \{ -1, +1 \}$	包标签
$\mathcal{X}$	实例空间
$p$	实例空间大小
$x_{i, j}$	包中实例
$\mathcal{P} \subseteq \mathcal{X}$	判别实例池 (Discriminative Instance Pool, DIP)
$m$	$\mathcal{P}$ 大小
$B_i^{\phi} = [ s(B_i, x_1^{\phi}), \cdots, s(B_i, x_m^{\phi})], {\rm where} x_k^{\phi} \in \mathcal{P}$	包映射
$s(B_i, x_k^{\phi})$	包与实例 $x_k^{\phi}$ 的相似度

算法大致步骤如下：

基于传统有监督分类算法于训练集获取DIP；
基于DIP将每一个包映射到新的特征空间并完成预测。

1.2 DIP优化

给定大小为 $n$ 的数据集 $\mathcal{B}$ ，汇聚 $\mathcal{B}$ 中的所有实例构建大小为 $p$ 的实例空间 $\mathcal{X}$ 。优化目标为：使用对角矩阵 $\mathcal{I}_{\mathcal{P}}$ 找到 $\mathcal{P} \subseteq \mathcal{X}$ ，其中 $diag (\mathcal{I}_{\mathcal{P}}) = \mathbf{d} (\mathcal{P})$ ，并且：
$\mathbf{d} (\mathcal{P})_i = \begin{cases} 1, \qquad x_i \in \mathcal{P},\\ 0, \qquad \mathrm{otherwise}. \end{cases} \tag{1*}$

令 $\mathcal{J} (\mathcal{P})$ 表示一个实例评价函数，则对 $\mathcal{P}$ 的评估如下：
$\mathcal{P}_* = \arg \max_{\mathcal{P} \subseteq \mathcal{X}} \mathcal{J} (\mathcal{P}) \qquad s.t. \mid \mathcal{P} \mid = m. \tag{1}$ 式1指出，所选择的时候应该在新的映射空间具有最大的判别力。

1.3 DIP评价函数

为了使得DIP具有最大的判别力，首先提出DIP优化的两大准则：

bag mapping must-link：标签相同的包在映射空间应该更相近。
bag mapping cannot-link：标签不同的包在映射空间能够体现出差异。

因此，DIP评价函数如下：
$\mathcal{J}(\mathcal{P})=\frac{1}{2} \sum_{i, j} K_{\mathcal{P}}\left(B_{i}, B_{j}\right) Q_{i, j}, \tag{2}$ 其中
$K_{\mathcal{P}}\left(B_{i}, B_{j}\right)=\left\|\mathcal{I}_{\mathcal{P}} B_{i}^{\phi_{x}}-\mathcal{I}_{\mathcal{P}} B_{j}^{\phi_{x}}\right\|^{2}, \tag{3}$ 其中 $B_{i}^{\phi_{x}}$ 与 $B_{i}^{\phi}$ 类似，不同在于使用所有实例作为DIP； $Q$ 矩阵的元素定义如下：

$Q_{i, j} = \begin{cases} -1 / \mid A \mid, y_i y_j = 1;\\ 1 / \mid B \mid, y_i y_j = -1, \end{cases} \tag{4}$ 其中 $A = \{ (i, j) \mid y_i y_j = 1 \}$ 表示满足第一准则的成对约束集； $B = \{ (i, j) \mid y_i y_j = -1 \}$ 与此类似。根据式3、4，将式2重写为 (具体推导看原文)：
$\mathcal{J} (\mathcal{P}) = \sum_{x_k^{\phi} \in \mathcal{P}} \phi_k^{\rm T} L \phi_k, \tag{5}$ 其中 $\phi_k = B_k^{\phi_x}$ ； $L$ 是一个源自 $Q$ 的拉普拉斯矩阵，满足 $L = [L_{i, j}]^{n \times n} = D - Q$ ； $D$ 是一个对角矩阵，且 $D_{i, i} = \sum_j Q_{i, j}$ 。
令 $f (x_k^{\phi}, L) = \phi_k^{\rm T} L \phi_k$ ，则式1可以转变为：
$\mathcal{P}_* = \max_{\mathcal{P} \subseteq \mathcal{X}} \sum_{x_k^{\phi} \in \mathcal{P}} f (x_k^{\phi}, L)\qquad s.t. \mid \mathcal{P} \mid = m. \tag{6}$ 为了找到最优的 $\mathcal{P}_*$ ，可以计算所有的 $f (x_k^{\phi}, L)$ ，再取得前 $m$ 个作为DIP即可。

具体的DIP优化过程如下：

算法1: DIP优化算法
输入:
训练集 $\mathcal{B}$ 、实例空间 $\mathcal{X}$ 、DIP池大小 $m$ ；
输出：
$\mathcal{P} = \{ p_1, \cdots, p_m \}$ ；
1： $\mathcal{P} = \emptyset, \tau = 0$
2：使用所有包标签、式4获取矩阵 $Q$
3：获取矩阵 $L$
4：for $x_k \in \mathcal{X}$ do
5：计算分数 $f (x_k, L)$
6： if $\mid \mathcal{P} \leq m$ or $f (x_k, L) > \tau$ , then
7： $\mathcal{P} \leftarrow \mathcal{P} \cup x_k$ ;
8： if $\mid \mathcal{P} > m$ , then
9： $\mathcal{P} \leftarrow \mathcal{P} / \arg \min_{x_k \in \mathcal{P}} f(x_k, L)$ ;
10： $\tau = \min_{x_k \in \mathcal{P}} f(x_k, L)$ ;
11：end for
12：return $\mathcal{P}$ ;

如上，DIP优化的关键步骤为计算矩阵 $L$ 以及每一个实例的得分 $f (x_k, L)$ ，并找出得分最高的 $m$ 个实例。当然，计算得分需要知道 $\phi_k = B_k^{\phi_x} = [ s(B_k, x_1^{\phi_x}), \cdots, s(B_k, x_m^{\phi_x})]$ ，具体的，需要知道如何计算 $s(B_k, x_1^{\phi_x})$ 。

1.4 使用DIP映射包

映射的关键在于计算 $s(B_k, x_1^{\phi_x})$ ，文中的定义如下：

$s\left(B_{i}, x_{k}^{\phi}\right)=\max _{x_{i, j} \in B_{i}} \exp \left(-\left\|x_{i, j}-x_{k}^{\phi}\right\|^{2} / \sigma^{2}\right)$ 其中 $x_{i, j}$ 是包 $B_i$ 中的第 $j$ 个实例， $\sigma$ 是一个预设参数。映射结束之后，可以使用任意的分类算法进行学习。以下描述了两种判别包映射方法。

1.4.1 全局判别包映射 (Global Discriminative Bag Mapping)

所有的实例均计算分数，并选取 $m$ 个高分实例。

aMILGDM：使用所有的训练实例。
pMILGDM：仅使用训练集种的正包。

1.4.2 局部判别包映射 (Local Discriminative Bag Mapping)

对每个包种的实例计算分数，并计算最高判别得分的一个实例加入DIP。

aMILLDM：从每个包选取一个最高得分实例。
pMILLDM：从每个正包选取一个最高得分实例。

2 实验

实验数据集如下：
论文阅读 (八)：Multi-instance Learning with Discriminative Bag Mapping (2018MILDM)

论文阅读 (八)：Multi-instance Learning with Discriminative Bag Mapping (2018MILDM)

文章目录

引入