论文笔记——一种新的基于信任函数的K近邻分类方法

1、背景知识

1.1 信任函数

1.2、EK-NN

2、提出的BK_NN方法

2.1 构建BK_NN的bpa函数

假设识别框架Ω={ω0,ω1,...,ωh}\Omega=\{\omega_0,\omega_1,...,\omega_h\}包含着一个孤立点ω0\omega_0,首先对对象xi{x_i}利用KNN寻找K近邻。在构建BBA的过程中,引入了与对象与其KNN之间距离有关的接受和拒绝阈值,如图所示。
论文笔记——一种新的基于信任函数的K近邻分类方法
假设xi{x_i}的最近邻xj{x_j}的标签为ωs{\omega_s}xi{x_i}xj{x_j}间的bpa函数基于每个类标签给出的接受阈值dtaωs{d^{\omega_s}_{t_a}}以及拒绝阈值dtrωs{d^{\omega_s}_{t_r}}:若xi{x_i}xj{x_j}之间的距离dij{d_{ij}}比接受阈值dtaωs{d^{\omega_s}_{t_a}}小,表明xi{x_i}位于ωs{\omega_s}xj{x_j}的接受区, xi{x_i}将被认为最有可能属于ωs{\omega_s}类;若dij{d_{ij}}比拒绝阈值dtrωs{d^{\omega_s}_{t_r}}大,意味着xi{x_i}超出了拒绝区,所以xi{x_i}不太可能属于ωs{\omega_s}类,它有更多的机会属于ωs{\omega_s}的互补集ωs\overline{\omega_s};若dij{d_{ij}}处于两者之间,则认为xi{x_i}处于不确定区域(ωsωs\omega_s\bigcup\overline{\omega_s})。基于以上概念,在此方法中,将bpa定义为与距离有关的函数:
论文笔记——一种新的基于信任函数的K近邻分类方法
其中dij{d_{ij}}xi{x_i}和其最近邻xj{x_j}的距离,函数f1(.){f_1(.)}f2(.){f_2(.)} 将有效的BBA的良好(预期)行为描述为类,满足一下性质:
1、f1(.){f_1(.)}单调递减,且f1(.)[0,1]{f_1(.) \in[0, 1]};
2、若dijdtaωs{d_{ij}\leq}d^{\omega_s}_{t_a},那么f1(dij,dtaωs)0.5{f_1({d_{ij}},{d^{\omega_s}_{t_a}}) \geq0.5};
3、f2(.){f_2(.)}单调递增,且f1(.)[0,1]{f_1(.) \in[0, 1]};
4、若dijdtrωs{d_{ij}\geq}d^{\omega_s}_{t_r},那么f2(dij,dtrωs)0.5{f_2({d_{ij}},{d^{\omega_s}_{t_r}}) \geq0.5}
以下两个sigmiod函数可以满足上述四个条件并构造bpa函数:
论文笔记——一种新的基于信任函数的K近邻分类方法
Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。
论文笔记——一种新的基于信任函数的K近邻分类方法
λ/4{\lambda / 4} 是拐点处切线的斜率。dtaωs{d^{\omega_s}_{t_a}}dtrωs{d^{\omega_s}_{t_r}}是sigmiod函数拐点的横坐标。 在确定这些调谐参数时,可以首先计算ωs{\omega_s}中的每个训练数据与其kNN之间的平均距离。 在ωs{\omega_s}中,训练数据的所有平均距离的平均值dωs{d^{\overline{\omega_s}}}可以用来确定dtaωs{d^{\omega_s}_{t_a}},dtrωs{d^{\omega_s}_{t_r}}λs{\lambda_s}
论文笔记——一种新的基于信任函数的K近邻分类方法
从实践中建议γta[1,3]\gamma_{t_a}\in[1,3]γtr[2γta,3γta]\gamma_{t_r}\in[2\gamma_{t_a},3\gamma_{t_a}]。较大的接受阈值将导致更多的对象提交到元类中,较小的拒绝阈值将使更多的对象被视为孤点。由此方法可建立K个bpa函数,使用DS证据理论融合便可得到有关xi{x_i}是否属于ωs{\omega_s}的证据。若xi不属于标签ωp{\omega_p},那么mωp(ωp)=1{m^{\omega_p}(\overline{\omega_p}) = 1}

2.2融合bpa函数

融合k个bpa函数共分为两步:
(1)与同一类相关联的BBA的子组合;
(2)关于不同类的子组合结果的全局融合。
第一步可以用DS方法融合。第二步,全局融合。假如一个对象有11个近邻有6个邻居在ω1\omega_1类中居,有5个邻居在ω2\omega_2类中。 这种对象通常被认为很难分类,为了解决该问题,将该对象划分为ω1ω2{\omega_1\bigcup\omega_2},表示不确定类。
假设k个近邻分别与h个类有关,[k1,k2,...,kh][k_1,k_2,...,k_h]表示每个类对应的bpa函数的个数,第一步首先找到kmax=max(k1,k2,...,kh)k_{max}=max(k_1,k_2,...,k_h)。若kmaxkit,i=1,...,gk_{max}-k_i\leq t,i = 1,...,g,对象很可能在类的联合中(元类)。
Ψ(max)={ωikmaxkit}\Psi(max) = \{\omega_i|k_{max}-k_i\leq t\}对于对象xi来说是很难分类的。 然而,每个类中的KNN数量不足以确定对象的类,并且对象可能在一个类中,在罕见的情况下,它不包括在CMAX中。 为了解决此问题,Ψ(max)|\Psi(max)|所有基数小于或等于的元类都将被使用。
论文笔记——一种新的基于信任函数的K近邻分类方法
其中η[0.1,0.3]\eta\in[0.1, 0.3]t1t\geq1。 较大的t可以产生较少的错误分类错误,但通常会导致较大的元类。应该根据我们想要的结果的不精确和错误分类之间的预期折衷来确定t。所以全局融合策略为:
论文笔记——一种新的基于信任函数的K近邻分类方法

公式17得到的是一个未规范化的结果。 在DP规则中,焦点元素A可以是Ω\Omega的任何子集,而在我们的规则中,焦点元素A只能是特定的类、未知的类或仅是选定的元类(但不是所有可能的元类 meta_class)。 然后,一旦所有BBA的合并,(17)得到的未归一化融合结果将被归一化。 不属于元类的冲突mass函数将被重新分配给其他焦点元素。 然而,再分配方法在融合结果上并不重要,因为要重新分配的冲突mass函数通常很小,并且大多数冲突的mass函数通常属于选定的元类。归一化公式为:
论文笔记——一种新的基于信任函数的K近邻分类方法
如果没有选择元类,则全局融合规则将只剩DS规则。 然而,如果保留所有元类,则全局融合规则表现为DP规则,所有部分冲突 信任函数是为这些元类保留的。 这个全局融合规则可以被认为是DS规则和DP规则之间的折衷,因为只有部分元类根据实际情况选择可用。
在BK-NN算法中,需要三个调谐参数γta\gamma_{t_a}γtr\gamma_{t_r}η\eta。 通过使用训练数据进行交叉验证,可以得到参数γta\gamma_{t_a}γtr\gamma_{t_r}

3、实例

给定识别框架Ω={ω0,ω1,ω2,ω3}\Omega=\{\omega_0,\omega_1,\omega_2,\omega_3\},对象xi{x_i}有五个K近邻,其中三个近邻属于ω1\omega_1,两个属于ω2\omega_2。则得到与相应的BK-NN BBA建模:
论文笔记——一种新的基于信任函数的K近邻分类方法
值得注意的是, 在计算焦点要素A的mass时ω1=ω0ω2ω3\overline{\omega_1}={{\omega_0}\bigcup{\omega_2}\bigcup{\omega_3}}ω2=ω0ω1ω3\overline{\omega_2}={{\omega_0}\bigcup{\omega_1}\bigcup{\omega_3}}ω3=ω0ω2ω1\overline{\omega_3}={{\omega_0}\bigcup{\omega_2}\bigcup{\omega_1}}。我们可以看到,5个近邻中没有一个在ω3\omega_3类中,这表明xix_i不可能属于ω3\omega_3。 因此,一个特定的BBA应该作为额外的引入:
论文笔记——一种新的基于信任函数的K近邻分类方法
m1ω1(.)m^{\omega_1}_1(.)m2ω1(.)m^{\omega_1}_2(.)m3ω1(.)m^{\omega_1}_3(.)ω1\omega_1相关,m4ω1(.)m^{\omega_1}_4(.)m5ω1(.)m^{\omega_1}_5(.)ω1\omega_1相关, (2)。分别使用Eq给出的DS规则将其融合,组合结果为:
论文笔记——一种新的基于信任函数的K近邻分类方法
可得kmax=k1=3k_{max}=k_1=3,假设t=2t= 2k1k2=32<2|k_1-k_2|=|3-2|<2,k1k3=30=3|k_1-k_3|=|3-0|=3,故Ψ(max)={ω1ω2}\Psi(max) = \{\omega_1,\omega_2\},选中的类元则为Ψ(max)={ω1ω2,ω1ω3,ω3ω2}\Psi(max) = \{\omega_1\bigcup\omega_2,\omega_1\bigcup\omega_3,\omega_3\bigcup\omega_2\}。则使用公式17全局的融合结果 m1ω1(.)m^{\omega_1}_1(.)m2ω1(.)m^{\omega_1}_2(.)以及m3ω1(.)m^{\omega_1}_3(.)为:
论文笔记——一种新的基于信任函数的K近邻分类方法
因为没有冲突的信念要重新分配,组合结果已经标准化, 因此,我们不需要在这个特定的示例中使用(18)应用规范化步骤。 结果表明,xix_i对元类ω1ω2\omega_1\bigcup\omega_2有最大的信任函数,也就是说,最可能属于它。