【资料图】
PCA也叫主成分分析,是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。简单理解,PCA就是去除不重要的特征,将多个特征转换成几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息,而且可以提升数据处理的速度。
PCA的核心思想是降维,这个过程中可能会损失精度,但是能换取更高的计算速度。
我们用sklearn的已有方法来举例:
sklearn中为我们已经封装好了对应的PCA接口,下面我们使用PCA对sklearn中自带的一个手写数字数据集进行降维。
1、载入数据集
2、数据分割,划分训练集和测试集,现在数据有64个特征值
3、在不进行降维的情况下,运行KNN模型,查看准确率为0.98
4、进行PCA降维,我们保留95%的特征,PCA降维后还有28个特征
5、运行KNN模型,查看准确率基本一致,还是0.98
PCA降维后,准确度基本没变化还是0.98,但是特征维度却从之前的64维降到28维。