从海量数据中挖掘可信频繁项集
属性
描述
优点
易编码实现
缺点
大数据集运行缓慢
适用
数值型,标称型
名词概念
名词
意义
association analysis
关联分析
association rule learning
关联规则学习
frequent item set
频繁项集
association rule
关联规则
fr...
可以通过分布式进行大数据量的计算的软件框架
属性
描述
优点
短时间内完成大量工作
缺点
算法必须经过重写,需要对系统工程有一定理解
适用
数值型,标称型
MapReduce 在大量节点组成的集群上运行(分布式计算)。
流程
map阶段 : 单个作业被分成很多小分,输入数据也被切片分发到每个节点,各个节点只在本地数据上运算 对应运算代码称为mapper
sort&...
若存在N个M维的训练集,N与M不小于百万级,该如何处理?
属性
描述
优点
降低数据的复杂性,识别最重要的多个特征
缺点
不一定需要,有一定损失有用信息的可能
适用
数值型
名词概念
名词
意义
dimensionality reduction
降维
principal component analysis
PCA主元分析
factor anal...
SVM:寻找一条最优的分界线使得它到两边的距离 margin 都最大。
属性
描述
优点
泛化错误率低,计算开销不大,易于理解
缺点
对参数调节和核函数选择敏感,原始分类器不参加修改适合处理二类问题
适用
数值型,标称型
名词概念
名词
意义
data
数据
classifier
分类器
optimization
最优解
kernel
核函数...
以MATLAB 模拟离散点
以下为欠拟合与过拟合图示:
欠拟合
模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
解决方法
添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。
添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
减少正则化参数,正则化的目的是用来防止...
原文https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 译文http://blog.csdn.net/lynnucas/article/details/47948639
回归分析 : 是一种预测性的建模技术,使用曲线拟合数据点,最终获取到数据点的距离差异最小的曲线
回归主要三个度...
KNN 近邻算法:测量不同特征值之间距离进行分类
属性
描述
优点
精度高,对异常值不敏感,无数据输入假定
缺点
计算复杂度高,空间复杂度高
适用
数值型,标称型
步骤
存在一个训练集,并且每个数据都存在标签
输入没有标签的新数据
将新数据与训练集特征进行比较
提取训练集中特征最相似的分类标签分类
一般只选择训练集中的前 K 个最相似数据
决策树:从属性相同的一类别事例推理树状规则分类方法
属性
描述
优点
计算复杂度不高,输出易于理解,中间值缺失不敏感,可以处理不相关特征数据
缺点
可能产生过拟合
适用
数值型,标称型
步骤
生成决策树:关键=> 选择适合的属性作为判别依据
修剪决策树:生成决策树时未考虑的噪声影响,容易出现过拟合,预测效果差,预先剪枝,后剪枝
识别叶子节点:差异较...
朴素贝叶斯 (Naive Bayesian) : 通过随机事件A和B的条件概率(或边缘概率)判断规则是否可信
属性
描述
优点
数据较少仍然有效,可以处理多类别问题
缺点
对于输入数据敏感
适用
标称型
公式
伪代码123456789计算每个类别特征数目对每个训练集: 对每个特征: 如果特征出现在集合中->增加该特征计数值 增加所有特征计数值 对每个特...
计算样本间的“距离”(Distance) ,估算分类时不同样本之间的相似性度量(Similarity Measurement)。
欧氏距离
曼哈顿距离
切比雪夫距离
闵可夫斯基距离
标准化欧氏距离
马氏距离
夹角余弦
汉明距离
杰卡德距离& 杰卡德相似系数
相关系数& 相关距离
信息熵