数据挖掘-PCA降维

数据挖掘-PCA降维

Spike Zhang

若存在N个M维的训练集,N与M不小于百万级,该如何处理?

属性 描述
优点 降低数据的复杂性,识别最重要的多个特征
缺点 不一定需要,有一定损失有用信息的可能
适用 数值型

名词概念

名词 意义
dimensionality reduction 降维
principal component analysis PCA主元分析
factor analysis FA因子分析
latent variable 隐变量
independent component analysis ICA独立成分分析

降维方式

  1. PCA ( Principal Component Analysis )主元分析。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定 n 个变量的 m 个观察值,形成一个 n ′ m 的数据矩阵, n 通常比较大。
  2. FA(Factor Analysis)因子分析。从观察数据中找出观察不到的隐变量(观察数据 = (隐变量 + 某些噪声)线性组合)
  3. ICA(Independent Component Analysis)独立成分分析。假设数据从N个数据源获取,数据源之间统计上相互独立,如果数据源的数目少于观察数据的数目,则可以实现降维过程。

对于一个由多个变量描述的复杂事物,人们难以认识,那么PCA降维就是用来减少不确定干扰变量或者对分析结果影响较小的变量,以此达到降低训练集维度的效果。这样做的优势是分解难度以及提高效率。

目的

  • 使数据集更易使用
  • 降低很多算法开销
  • 去除噪声
  • 使结果易懂
个人的一点浅见,之所以降维是因为高纬度的可视化人类或许无法有共识的理解,人是三维生物,低维度生物无法理解高维度,因为他们无法感知,但是高维度生物却轻松掌握低纬度,就像我们看一维度的坐标,与二维度的横竖坐标,所以每一个人对与四维度以及以上都会有自己想象的模型,或许是一种超矩阵立方体,或许是蠕虫形状的无限切面,所以将维度降低到一个普遍可以接受并且符合客观的标准,更有助于人类消化与学习。

有效的降维可以达到预期效果,但是降维往往是不可逆的,若选取了错误的维度消除,训练出的规则也必将偏离。

  • 标题: 数据挖掘-PCA降维
  • 作者: Spike Zhang
  • 创建于 : 2017-03-13 20:22:06
  • 更新于 : 2024-07-13 09:46:17
  • 链接: https://chaosbynn.github.io/2017/03/13/数据挖掘-PCA降维/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论