• 数据挖掘-MapReduce

    数据挖掘-MapReduce

    可以通过分布式进行大数据量的计算的软件框架 属性 描述 优点 短时间内完成大量工作 缺点 算法必须经过重写,需要对系统工程有一定理解 适用 数值型,标称型 MapReduce 在大量节点组成的集群上运行(分布式计算)。 流程 map阶段 : 单个作业被分成很多小分,输入数据也被切片分发到每个节点,各个节点只在本地数据上运算 对应运算代码称为mapper sort&...
  • 数据挖掘-PCA降维

    数据挖掘-PCA降维

    若存在N个M维的训练集,N与M不小于百万级,该如何处理? 属性 描述 优点 降低数据的复杂性,识别最重要的多个特征 缺点 不一定需要,有一定损失有用信息的可能 适用 数值型 名词概念 名词 意义 dimensionality reduction 降维 principal component analysis PCA主元分析 factor anal...
  • 数据挖掘-SVM

    数据挖掘-SVM

    SVM:寻找一条最优的分界线使得它到两边的距离 margin 都最大。 属性 描述 优点 泛化错误率低,计算开销不大,易于理解 缺点 对参数调节和核函数选择敏感,原始分类器不参加修改适合处理二类问题 适用 数值型,标称型 名词概念 名词 意义 data 数据 classifier 分类器 optimization 最优解 kernel 核函数...
  • 数据挖掘-欠拟合与过拟合

    数据挖掘-欠拟合与过拟合

    以MATLAB 模拟离散点 以下为欠拟合与过拟合图示: 欠拟合 模型没有很好地捕捉到数据特征,不能够很好地拟合数据。 解决方法 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。 减少正则化参数,正则化的目的是用来防止...
  • 数据挖掘-回归分析

    数据挖掘-回归分析

    原文https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 译文http://blog.csdn.net/lynnucas/article/details/47948639 回归分析 : 是一种预测性的建模技术,使用曲线拟合数据点,最终获取到数据点的距离差异最小的曲线 回归主要三个度...
  • 数据挖掘-KNN

    数据挖掘-KNN

    KNN 近邻算法:测量不同特征值之间距离进行分类 属性 描述 优点 精度高,对异常值不敏感,无数据输入假定 缺点 计算复杂度高,空间复杂度高 适用 数值型,标称型 步骤 存在一个训练集,并且每个数据都存在标签 输入没有标签的新数据 将新数据与训练集特征进行比较 提取训练集中特征最相似的分类标签分类 一般只选择训练集中的前 K 个最相似数据
  • 数据挖掘-决策树

    数据挖掘-决策树

    决策树:从属性相同的一类别事例推理树状规则分类方法 属性 描述 优点 计算复杂度不高,输出易于理解,中间值缺失不敏感,可以处理不相关特征数据 缺点 可能产生过拟合 适用 数值型,标称型 步骤 生成决策树:关键=> 选择适合的属性作为判别依据 修剪决策树:生成决策树时未考虑的噪声影响,容易出现过拟合,预测效果差,预先剪枝,后剪枝 识别叶子节点:差异较...
  • 数据挖掘-朴素贝叶斯

    数据挖掘-朴素贝叶斯

    朴素贝叶斯 (Naive Bayesian) : 通过随机事件A和B的条件概率(或边缘概率)判断规则是否可信 属性 描述 优点 数据较少仍然有效,可以处理多类别问题 缺点 对于输入数据敏感 适用 标称型 公式 伪代码123456789计算每个类别特征数目对每个训练集: 对每个特征: 如果特征出现在集合中->增加该特征计数值 增加所有特征计数值 对每个特...
  • 数据挖掘-距离计算

    数据挖掘-距离计算

    计算样本间的“距离”(Distance) ,估算分类时不同样本之间的相似性度量(Similarity Measurement)。 欧氏距离 曼哈顿距离 切比雪夫距离 闵可夫斯基距离 标准化欧氏距离 马氏距离 夹角余弦 汉明距离 杰卡德距离& 杰卡德相似系数 相关系数& 相关距离 信息熵
  • 概率学-随机变量

    概率学-随机变量

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢! 提示:若无法正确显示 LaTeX 公式在hosts 文件中添加 161.91.161.217 chart.googleapis.com 我们了解了“样本空间”,“事件”,“概率”。样本空间中包含了一次实验所有可能的结果,事件是样本空间的一个子集,每个事件可以有一个...
17891011