神刀安全网

关于PCA主成分析的个人理解


大致的思想:

    PCA分析主要就是对多维数据进行降维,并且借此来消除噪音和冗余数据。本质上就是对一组多维数据选取一个新的参考坐标,通过线性变换来投影到低维空间上,从而来表达新的数据,从而来进行降维。所以所谓的主要成分就是找到一个最能代表原始数据的投影方法,从而来确保降掉的维度是噪声和冗余资源。

PCA的大致过程:

1.形成样本矩阵,样本中心化:

    样本中心化的最主要目的是对初始数据进行处理,也就是得到均值为0,标准差为1的服从标准正态分布的数据。本质上就是保证相同数据的不同特征有相同的尺度,借此使不同的特征具有相同的尺度。

2.计算样本矩阵的协方差矩阵:

    协方差矩阵就涉及到了协方差的概念。

    协方差本质上就是反映了两个变量在变化过程中之间的关系。例如同向变化或者反向变化。

    如果两个变量同向变化,则协方差是正的。

    如果两个变量反向变化,协方差就是负的。

    因此,从数值上来说,协方差数值越大,两个变量的同化程度越大,反之亦然。

    协方差公式:

关于PCA主成分析的个人理解

   协方差公式

    协方差详细理解

    所以对于每个数据集,就会得到一个协方差矩阵

关于PCA主成分析的个人理解

协方差矩阵

    其实协方差矩阵可以这样理解。即:协方差矩阵度量的是维度和维度之间的关系,而不是非样本和样本之间。协方差矩阵主对角线上市元素在各个维度上的方差,也就是能量。非对角线的元素表示不同特征之间的相互联系,也就是相关性。所以,降维的主要目的就是找到一个新的坐标系,或者说正交基来表示新的降维后的数据集。所以,除了主对角线的能量(特征值),其他的相关性都必须为0。

3.对协方差矩阵进行特征分解,选取最大的p个特征值对应的特征向量组成投影矩阵:

    矩阵特征值分解的目的就是找到线性空间的正交基表达。正交基并意味着样本变换最剧烈的方向。所以特征值就代表了这个正交基对线性空间的影响权重。选择较大的特征值就留下了主要的正交基。

    因此,PCA的本质就是对角化协方差矩阵。

    因为协方差矩阵式C是对称矩阵,所以对称矩阵对角化就是找到一个正交矩阵P,来满足

关于PCA主成分析的个人理解

满足公式

    也就是先对C进行特征值分解,得到特征值矩阵(对角矩阵),得到特征向量矩阵并正交化为P。

    此时,我们去前p个特征值对应的维度,则p个特征值构成了新的对角矩阵,也就是新的特征向量矩阵P1。

    此时,这个P1就是所谓的投影矩阵。每一列就是一个特征向量,也就是低维空间的新坐标系,所谓的”主成分”。

4.对原始样本矩阵进行投影,得到降维后的新的样本矩阵:

    在得到P1后,将样本的店投影到所选取的特征向量上。就得到了一个维数降低的新的样本集。

参考文献和Blog:

http://blog.csdn.net/zhongkelee/article/details/44064401

https://wenku.baidu.com/view/ce7ee04bcc175527072208ca.html

https://www.zhihu.com/question/20852004

转载本站任何文章请注明:转载至神刀安全网,谢谢神刀安全网 » 关于PCA主成分析的个人理解

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址