《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》论文理解

《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》 中,作者对《Convolutional Neural Networks on Graphs
with Fast Localized Spectral Filtering》
作出了改进,提出了以下创新:
(1)提出了一个可以直接在图上操作的神经网络模型的逐层传播规则;
(2)证明了这种形式的图卷积网络怎样在图上实现半监督的节点分类;

1.神经网络模型的逐层传播规则
卷积公式的频域表示:
gx=UgθUTx(1)g*x=Ug_{\theta}U^{T}x\tag{1}

定义LL为对称归一化图拉普拉斯矩阵,L=IND12AD12=UΛUTL=I_{N}-D^{-\frac{1}{2}}AD^{-\frac{1}{2}}=U\Lambda U^{T},AA是无向图的邻接矩阵(可以是二值,也可以是权值)Dii=jAijD_{ii}=\sum_{j}{A_{ij}}是图的度矩阵。UULL特征向量矩阵。LL的特征值范围为[0,1]。
由论文《Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering》得到,式(1)可以推导为:
gθ(Λ)k=0KθkTk(Λ~)(2)g_{\theta^{'}}(\Lambda) \approx \sum_{k=0}^{K}{\theta_{k}^{'}}T_{k}(\tilde\Lambda)\tag{2}

其中Λ~=2λmaxΛIN\tilde\Lambda=\frac{2}{\lambda_{max}}\Lambda-I_{N},θRK\theta^{'}\in R^{K}是切比雪夫系数。得到:gxk=0KθkTk(L~)xg*x \approx \sum_{k=0}^{K}{\theta_{k}^{'}}T_{k}(\tilde L)x,其中L~=2λmaxLIN\tilde L=\frac{2}{\lambda_{max}}L-I_{N}L~\tilde L的特征值范围为[-1,1]。
当使用K=1K=1时,式(2)在频域变为线性函数,即:
gxθ0x+θ1(2λmaxLIN)x(3)g*x\approx \theta_{0}^{'}x+\theta_{1}^{'}(\frac{2}{\lambda_{max}}L-I_{N})x\tag{3}

λmax2\lambda_{max}\approx2,则
gxθ0x+θ1(LIN)x=θ0xθ1(D12AD12)x(4)g*x\approx \theta_{0}^{'}x+\theta_{1}^{'}(L-I_{N})x=\theta_{0}^{'}x-\theta_{1}^{'}(D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x\tag{4}

由于θ0,θ1\theta_{0}^{'},\theta_{1}^{'}是训练参数,是可调整的,使得θ0=θ1=θ\theta_{0}^{'}=-\theta_{1}^{'}=\theta,那么
gxθ(IN+D12AD12)x(5)g*x\approx \theta(I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x\tag{5}

IN+D12AD12I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}的特征值范围为[0,2],可能会导致梯度消失和梯度爆炸的问题,将IN+D12AD12I_{N}+D^{-\frac{1}{2}}AD^{-\frac{1}{2}}再次归一化为D~12A~D~12\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}},其中,A=~A+INA\tilde = A+I_{N},D~ii=jA~ij\tilde D_{ii}=\sum_{j}\tilde A_{ij},可以有效的避免这个问题,同时由于θ\theta为一个数,可以放到等式的最后,得到:
gx(D~12A~D~12)xθ(6)g*x\approx(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}})x \theta\tag{6}

当信号xx为多通道信号XRN×CX\in R^{N×C}时,并且使用FF个卷积核,使得每个输出节点的通道数为FF,则:
Z=(D~12A~D~12)XΘ(7)Z=(\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}})X\Theta\tag{7}

CC为输入节点的通道数,FF为输出节点的通道数,同时也是卷积核数目;ΘRC×F\Theta \in R^{C×F}为这FF个卷积核的参数。

2.半监督的节点分类
D~12A~D~12=A^Θ=W\tilde D^{-\frac{1}{2}}\tilde A\tilde D^{-\frac{1}{2}}=\hat A,\Theta=W,则两层的图卷积分类网络可以表示为:
Z=f(X,A)=softmax(A^ ReLU(A^XW(0))W(1))(8)Z=f(X,A)=softmax(\hat A\ ReLU(\hat AXW^{(0)})W^{(1)})\tag8
《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》论文理解
需要说明的是,一个图就是一个样本,每个样本在逐层传播的过程中认为A^\hat A是一样的,也就是说每层中A^\hat A是共享的。softmax(xij)=exp(xij)jexp(xij)softmax(x_{ij})=\frac{exp(x_{ij})}{\sum_{j}exp(x_{ij})}i[1,N],j[1,F],xiR1×Fi \in [1,N],j \in [1,F],x_{i} \in R^{1×F}表示两层卷积后输出(RN×F)(R^{N×F})的第ii行。交叉熵为L=lYLf=1FYlflnZlfL=-\sum_{l\in Y_{L}}\sum_{f=1}^{F}Y_{lf}lnZ_{lf},其中YLY_{L}是有标签节点的集合。