Deflation Methods for Sparse PCA

背景

有很多Sparse PCA 算法运用了收缩算法,但是呢,往往只考虑如何解决,每一次迭代的稀疏化问题,而忽略了收缩算法的选择。

##总括
Deflation Methods for Sparse PCA

Hotelling’s deflation

公式

At=At1xtxtTAt1xtxtTA_t = A_{t-1}-x_tx_t^{\mathrm{T}}A_{t-1}x_tx_t^{\mathrm{T}}

特点

如果xtx_tAt1A_{t-1}的特征向量
那么
Atxt=(At1xtxtTAt1xtxtT)xt=0A_tx_t = (A_{t-1}-x_tx_t^{\mathrm{T}}A_{t-1}x_tx_t^{\mathrm{T}})x_t =0
所以,xtx_t依然是A_t的特征值为0所对应的特征向量。
但是,如果xtx_t不是特征向量,Atxt=0A_tx_t=0这个性质就不存在了,而且,AtA_t不一定是半正定矩阵。
Deflation Methods for Sparse PCA

Projection deflation

公式

At=(IxtxtT)At1(IxtxtT)A_t = (I-x_tx_t^{\mathrm{T}})A_{t-1}(I-x_tx_t^{\mathrm{T}})

特点

半正定

假设At1A_{t-1}是半正定的。那么,对于任意的xx
xTAtx=[xT(IxtxtT)]At1[(IxtxtT)x]0x^{\mathrm{T}}A_tx = [x^{\mathrm{T}}(I-x_tx_t^{\mathrm{T}})]A_{t-1}[(I-x_tx_t^{\mathrm{T}})x]\geq0

另外Atxt=0A_tx_t=0
Atxt=(IxtxtT)At1(IxtxtT)xt=0A_tx_t=(I-x_tx_t^{\mathrm{T}})A_{t-1}(I-x_tx_t^{\mathrm{T}})x_t=0

不过,Asxts>tA_sx_t \quad s>t的值往往不是0

Schur complement deflation

Deflation Methods for Sparse PCA

Orthogonalized projection deflation

公式

At=(IP(t))A(IP(t))A_t = (I-\mathcal{P}^{(t)})A(I-\mathcal{P}^{(t)})
P(t)\mathcal{P}^{(t)}是投影矩阵,满足:
P(t)TP(t)=P(t)\mathcal{P}^{(t)\mathrm{T}}\mathcal{P}^{(t)}=\mathcal{P}^{(t)}
P(t)P(t)=P(t)\mathcal{P}^{(t)}\mathcal{P}^{(t)}=\mathcal{P}^{(t)}

X=[x1,x2,,xt]=QRX=[x_1,x_2,\ldots,x_t]=QR
则:
P(t)=Q1...tQ1...tT\mathcal{P}^{(t)}=Q_{1...t}Q_{1...t}^{\mathrm{T}}(假设X的秩为t)
其中Q1...tQ_{1...t}QQ的前t列。

Orthogonalized Hotelling’s deflation

公式

At=At1qtqtTAt1qtqtTA_t = A_{t-1} - q_tq_t^{\mathrm{T}}A_{t-1}q_tq_t^{\mathrm{T}}
qt=(IP(t1))xt(IP(t1))xtq_t=\frac{(I-\mathcal{P}^{(t-1)})x_t}{\|(I-\mathcal{P}^{(t-1)})x_t\|}

特点

XXX