LDA原理 statQuest
在某些例子中,比如一个药物对哪些病人有效,哪些无效,我们可以尝试依据病人的基因表达来区分。我们可以选取一个或多个基因,但目的是要选取那些可以最大化提升区分这两组病人能力的基因。和PCA类似,但是PCA目的是提取variation最大的基因。
LDA is like PCA, but it focuses on maxmizing seperatibility among known categories.
例子:
从2维图降维1维图:
LDA用2个基因的信息去创造一个新的坐标,并把点投射到这个新坐标,从而使得2个categories区分最大化。
多维图2个group,或者多维图3个group:
PCA和LDA相似点:
两个方法会基于新坐标的重要性排序。
1, PC1(PCA创建的第一个坐标)解释了数据最多的variation。
2,LD1(LDA第一个创建的坐标)解释了categories之间最多的variation。
两个方法都可以让我们知道哪些基因构建了这新的坐标。(比如PCA可以看loading scores,LDA which gene or variable correlate with the new axis)。
总结:
来源:StatQuest