数据挖掘-PCA降维
若存在N个M维的训练集,N与M不小于百万级,该如何处理?
属性 | 描述 |
---|---|
优点 | 降低数据的复杂性,识别最重要的多个特征 |
缺点 | 不一定需要,有一定损失有用信息的可能 |
适用 | 数值型 |
名词概念
名词 | 意义 |
---|---|
dimensionality reduction | 降维 |
principal component analysis | PCA主元分析 |
factor analysis | FA因子分析 |
latent variable | 隐变量 |
independent component analysis | ICA独立成分分析 |
降维方式
- PCA ( Principal Component Analysis )主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n ′ m 的数据矩阵, n 通常比较大。
- FA(Factor Analysis)因子分析。从观察数据中找出观察不到的隐变量(观察数据 = (隐变量 + 某些噪声)线性组合)
- ICA(Independent Component Analysis)独立成分分析。假设数据从N个数据源获取,数据源之间统计上相互独立,如果数据源的数目少于观察数据的数目,则可以实现降维过程。
对于一个由多个变量描述的复杂事物,人们难以认识,那么PCA降维就是用来减少不确定干扰变量或者对分析结果影响较小的变量,以此达到降低训练集维度的效果。这样做的优势是分解难度以及提高效率。
目的
- 使数据集更易使用
- 降低很多算法开销
- 去除噪声
- 使结果易懂
个人的一点浅见,之所以降维是因为高纬度的可视化人类或许无法有共识的理解,人是三维生物,低维度生物无法理解高维度,因为他们无法感知,但是高维度生物却轻松掌握低纬度,就像我们看一维度的坐标,与二维度的横竖坐标,所以每一个人对与四维度以及以上都会有自己想象的模型,或许是一种超矩阵立方体,或许是蠕虫形状的无限切面,所以将维度降低到一个普遍可以接受并且符合客观的标准,更有助于人类消化与学习。
有效的降维可以达到预期效果,但是降维往往是不可逆的,若选取了错误的维度消除,训练出的规则也必将偏离。
- 标题: 数据挖掘-PCA降维
- 作者: Spike Zhang
- 创建于 : 2017-03-13 20:22:06
- 更新于 : 2024-07-13 09:46:17
- 链接: https://chaosbynn.github.io/2017/03/13/数据挖掘-PCA降维/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论