Computational Optimal Transport笔记——第二章(1)

符号说明
概率单纯形Σn\Sigma_{n}
Computational Optimal Transport笔记——第二章(1)+
histogram(或概率向量):aΣna \in \Sigma_{n} (列和为1的正向量)
离散测度:权重为aa,位置为x1,..,xnXx_1,..,x_n \in \mathcal{X}的离散测度为
Computational Optimal Transport笔记——第二章(1)
概率测度:离散测度的特殊情况,详见2.1中Remark 2.1.
在空间X\mathcal{X}的随机测度为M(X)\mathcal{M(X)},距离表示为dd,连续函数表示为fC(X)f \in \mathcal{C(X)}
测度的密度:X=Rd\mathcal{X}=R^{d},有密度dα(x)=ρα(x)dxd\alpha(x)= \rho_{\alpha}(x)dx
M+(X)\mathcal{M_{+}(X)}是在X\mathcal{X}上的所有正测度集合。
概率测度集合M+1(X)\mathcal{M_{+}^{1}(X)}:对于任何αM+1(X)\alpha \in \mathcal{M_{+}^{1}(X)}为正,并且α(X)=Xdα=1\alpha(\mathcal{X})=\int_{\mathcal{X}}d\alpha=1
Perm(n)Perm(n)nn个元素排列的集合
Push-forward operator T#α=βT_\# \alpha=\beta(离散)&T#:M(X)M(Y)T_{\#}: \mathcal{M(X) \to M(Y)}(连续) :将α\alpha的质量推到β\beta的质量上,详见Remark 2.5和Remark 2.4。
Transportation cost:
Computational Optimal Transport笔记——第二章(1)
详见 Remark 2.4.
pull-back function T#:C(Y)C(X)T^{\#}: \mathcal{C(Y) \to C(X)}
Computational Optimal Transport笔记——第二章(1)
详见Remark 2.8.

2. 理论基础

本章描述优化运输基础,介绍了第一个优化运输基础,引入在概率向量(a,b)(a,b)之间的优化匹配耦合的概念,将运算一般化到离散测度(α,β)(\alpha, \beta),最后包含任何测度。

2.1 Histograms and Measures

令histogram和概率向量表示aΣna \in \Sigma_{n}的任意元素。其中σn\sigma_n是概率单纯形
Computational Optimal Transport笔记——第二章(1)
这个综述很大程度上关注在单纯形上的优化运输引起的几何研究。

Remark 2.1 (离散测度)权重为aa,位置为x1,..,xnXx_1,..,x_n \in \mathcal{X}离散测度
Computational Optimal Transport笔记——第二章(1)
其中δxi\delta_{x_i}是在位置xix_i的 Dirac,是一个质量单位(无限聚集在位置xx的质量)。
为了避免退化问题(没有质量的位置被考虑),当考虑离散测度时假设aa中所有元素都是正的。
如果aσna \in \sigma_{n}或者更一般的a0a \geq 0,这个测度描述的是概率测度

Remark 2.2(一般的测度)在空间X\mathcal{X}的随机测度为M(X)\mathcal{M(X)}X\mathcal{X}中的距离表示为dd,连续函数表示为fC(X)f \in \mathcal{C(X)}。(在连续函数上进行积分可以获得测度信息)
在离散测度α\alphafC(X)f \in \mathcal{C(X)}的积分为加和:
Computational Optimal Transport笔记——第二章(1)
对于X=Rd\mathcal{X}=R^{d},有密度dα(x)=ρα(x)dxd\alpha(x)= \rho_{\alpha}(x)dx,对于Lebesgue测度,表示为ρα=dαdx\rho_{\alpha}=\frac{d \alpha}{dx},意味着
Computational Optimal Transport笔记——第二章(1)
一个任意测度αM(X)\alpha \in \mathcal{M(X)}(不需要有密度或者Diracs和)可以被定义通过它可以对连续函数fC(X)f \in \mathcal{C(X)}积分Xf(x)dα(x)R\int_{\mathcal{X}} f(x) d\alpha(x) \in R。如果XX是紧的,可以强制ff有紧支撑集,在无穷处至少极限为0.
M+(X)\mathcal{M_{+}(X)}是在X\mathcal{X}上的所有正测度集合。
概率测度集合M+1(X)\mathcal{M_{+}^{1}(X)}:对于任何αM+1(X)\alpha \in \mathcal{M_{+}^{1}(X)}为正,并且α(X)=Xdα=1\alpha(\mathcal{X})=\int_{\mathcal{X}}d\alpha=1
图2.1展示了不同类型的测度。
Computational Optimal Transport笔记——第二章(1)

2.2 Assignment and Monge Problem

给定 cost matirx (Ci,j)i[n],j[m](C_{i,j})_{i \in [n], j \in [m]},假定n=mn=m,optimal assigment problem就是在集合 Perm(n)Perm(n)中 寻找双射σ\sigma使得
Computational Optimal Transport笔记——第二章(1)
optimal assigment problem——寻找使得cost达到最小的排列。好像图论中的最小权匹配与此问题相似
Remark 2.3(唯一性)optimal assignment problem可能有多个最优解。例如 n=m=2n=m=2,如图 2.2的左图所示,两个 assignemt都是最优的。
Computational Optimal Transport笔记——第二章(1)

Remark 2.4(在离散测度下的Monge problem)对于离散测度
Computational Optimal Transport笔记——第二章(1)
Monge problem就是找到一个映射,使得对对每个点xix_i关联到点yjy_j,将α\alpha的质量推到β\beta的质量上,即 map T:x1,..,xny1,...,ymT: {x_1,..,x_n} \to {y_1,...,y_m},有
Computational Optimal Transport笔记——第二章(1)
写成紧的形式为T#α=βT_{\#}\alpha=\beta。由于bb的所有元素都是正的,这个映射是满射。这个映射应该最小化 transportation cost。Transportation cost通过函数c(x,y)c(x,y)参数化(定义在每个点(x,y)X×Y(x,y) \in \mathcal{X \times Y}上),
Computational Optimal Transport笔记——第二章(1)
在离散点间的map可以被重写。假设所有的xxyy都是不同的,使用索引
Computational Optimal Transport笔记——第二章(1)
此时mass conservation可以被写为
Computational Optimal Transport笔记——第二章(1)
特别地当n=mn=m,所有的权重都是均匀分布ai=bj=1na_i=b_j=\frac{1}{n},mass conservation约束意味着TT是满射,Monge问题等价月optimal matching problem(2.2),其中 cost matrix为
Computational Optimal Transport笔记——第二章(1)

Remark 2.5 (push-forward operator) 对于连续映射 T:XYT: \mathcal{X \to Y},定义对应的 push-forward operator T#:M(X)M(Y)T_{\#}: \mathcal{M(X) \to M(Y)}。回顾对于离散的情况,T#T_{\#}的公式,push-forward operation 相当于移动测度支撑集中所有点的位置
Computational Optimal Transport笔记——第二章(1)
对于有密度的测度,push-forward的定义在描述概率测度的空间更新(或者运输)方面有发挥了非常重要的作用。
定义 2.1 (push-forward) 对于T:XYT: \mathcal{X} \to \mathcal{Y}, 对于αM(X)\alpha \in \mathcal{M(X)} push-forward measure β=T#αM(Y)\beta = T_{\#} \alpha \in \mathcal{M(Y)}满足
Computational Optimal Transport笔记——第二章(1)
相等的,对于任意测度BYB \in \mathcal{Y}
Computational Optimal Transport笔记——第二章(1)
可以注意到T#T_{\#}保存了positive和全部的质量,有如果αM+1(X)\alpha \in \mathcal{M_{+}^{1}(X)},则T#αM+1(Y)T_{\#} \alpha \in \mathcal{M_{+}^{1}(Y)}
对 push-operator 的理解
测度映射T:XYT: \mathcal{X} \to \mathcal{Y}可以被理解为将测度空间中一个点移动到另一个测度空间的函数。
T#T_{\#}TT的扩展,将X\mathcal{X}上的概率测度移动到YY上的概率测度。
T#T_{\#} push forward X\mathcal{X}上测度α\alpha中每个元素的质量到Y\mathcal{Y}上每个元素的质量。
T#T_{\#}是线性的,T#(α1+α2)=T#α1+T#α2T_{\#}(\alpha_1+\alpha_2)=T_{\#}\alpha_1+T_{\#}\alpha_2

Remark 2.6 (Push-forward for multivariate densities) 在RdR^{d}中的测度有密度(ρα,ρβ)(\rho_{\alpha}, \rho_{\beta}),假设T是光滑的、双射。有
Computational Optimal Transport笔记——第二章(1)
Computational Optimal Transport笔记——第二章(1)
Computational Optimal Transport笔记——第二章(1)

Remark 2.7(在任意测度下的Monge problem )
Computational Optimal Transport笔记——第二章(1)

Remark 2.8 (push-forward vs. pull-back) pull-back function T#:C(Y)C(X)T^{\#}: \mathcal{C(Y) \to C(X)}。对于gC(Y)g \in \mathcal{C(Y)},
Computational Optimal Transport笔记——第二章(1)
push-forward和pull-back是相伴随的
Computational Optimal Transport笔记——第二章(1)
当测度(α,β)(\alpha, \beta)有密度的情况分析
Computational Optimal Transport笔记——第二章(1)
Computational Optimal Transport笔记——第二章(1)

Remark 2.9 (测度和 随机变量)
Computational Optimal Transport笔记——第二章(1)
Computational Optimal Transport笔记——第二章(1)