主成分分析 (二): 特征值因子的筛选
主成分分析系列:
特征值因子的筛选
回到主成分分析,实际中确定(17)式中的系数就是采用(28)式中矩阵的特征向量。因此,剩下的问题仅仅是将 的特征值按由大到小的次序排列之后,如何筛选这些特征值?
一个实用的方法是删去 后,这些删去的特征值之和占整 个特征值之和
的15%以下,换句话说,余下的特征值所占的比重(定义为累积贡献率)将超过85%,当然这不是一种严格的规定,今年来文献中关于这方面的讨论很多, 有很多比较成熟的方法,这里不一 一介绍。 单纯考虑累积贡献率有时是不够的,还需要考虑选择的主成分对原始变量的贡献值,我们用相关系数的平方和来表示,如果选取的主成分为
,则它们对原变量
的贡献值为
例5 研究纽约股票市场上五种股票的周回升率。这里,周回升率=(本星期五市 场收盘价-上星期五市场收盘价)/上星期五市场收盘价。从1975年1月到1976年12月, 对这五种股票作了100组独立观测。因为随着一般经济状况的变化,股票有集聚的趋势, 因此,不同股票周末回升率是彼此相关的。
这两个主成分具有重要的实际解释,第一主成分大约等于这五种股票周回升率和的一个常数倍,通常称为股票市场主成分,简称市场主成分;
第二主成分代表化学股票(在 中系数为正的三只股票都是化学工业上市企业)和石油股票(在
中系数为负的两只股票恰好都为石油板块的上市企业)的一个对照,称之为工业主成分。
这说明,这些股票周回升率的大部分变差来自市场活动和与它不相关的工业活动。关于股票价格的这个 结论与经典的证券理论吻合。至于其它主成分解释较为困难,很可能表示每种股票自身 的变差,好在它们的贡献率很少,可以忽略不计。
主成分分析系列: