可以通过分布式进行大数据量的计算的软件框架
属性
描述
优点
短时间内完成大量工作
缺点
算法必须经过重写,需要对系统工程有一定理解
适用
数值型,标称型
MapReduce 在大量节点组成的集群上运行(分布式计算)。
流程
map阶段 : 单个作业被分成很多小分,输入数据也被切片分发到每个节点,各个节点只在本地数据上运算 对应运算代码称为mapper
sort&...
若存在N个M维的训练集,N与M不小于百万级,该如何处理?
属性
描述
优点
降低数据的复杂性,识别最重要的多个特征
缺点
不一定需要,有一定损失有用信息的可能
适用
数值型
名词概念
名词
意义
dimensionality reduction
降维
principal component analysis
PCA主元分析
factor anal...
SVM:寻找一条最优的分界线使得它到两边的距离 margin 都最大。
属性
描述
优点
泛化错误率低,计算开销不大,易于理解
缺点
对参数调节和核函数选择敏感,原始分类器不参加修改适合处理二类问题
适用
数值型,标称型
名词概念
名词
意义
data
数据
classifier
分类器
optimization
最优解
kernel
核函数...
以MATLAB 模拟离散点
以下为欠拟合与过拟合图示:
欠拟合
模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
解决方法
添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。
添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
减少正则化参数,正则化的目的是用来防止...
原文https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 译文http://blog.csdn.net/lynnucas/article/details/47948639
回归分析 : 是一种预测性的建模技术,使用曲线拟合数据点,最终获取到数据点的距离差异最小的曲线
回归主要三个度...
KNN 近邻算法:测量不同特征值之间距离进行分类
属性
描述
优点
精度高,对异常值不敏感,无数据输入假定
缺点
计算复杂度高,空间复杂度高
适用
数值型,标称型
步骤
存在一个训练集,并且每个数据都存在标签
输入没有标签的新数据
将新数据与训练集特征进行比较
提取训练集中特征最相似的分类标签分类
一般只选择训练集中的前 K 个最相似数据
决策树:从属性相同的一类别事例推理树状规则分类方法
属性
描述
优点
计算复杂度不高,输出易于理解,中间值缺失不敏感,可以处理不相关特征数据
缺点
可能产生过拟合
适用
数值型,标称型
步骤
生成决策树:关键=> 选择适合的属性作为判别依据
修剪决策树:生成决策树时未考虑的噪声影响,容易出现过拟合,预测效果差,预先剪枝,后剪枝
识别叶子节点:差异较...
朴素贝叶斯 (Naive Bayesian) : 通过随机事件A和B的条件概率(或边缘概率)判断规则是否可信
属性
描述
优点
数据较少仍然有效,可以处理多类别问题
缺点
对于输入数据敏感
适用
标称型
公式
伪代码123456789计算每个类别特征数目对每个训练集: 对每个特征: 如果特征出现在集合中->增加该特征计数值 增加所有特征计数值 对每个特...
计算样本间的“距离”(Distance) ,估算分类时不同样本之间的相似性度量(Similarity Measurement)。
欧氏距离
曼哈顿距离
切比雪夫距离
闵可夫斯基距离
标准化欧氏距离
马氏距离
夹角余弦
汉明距离
杰卡德距离& 杰卡德相似系数
相关系数& 相关距离
信息熵
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!
提示:若无法正确显示 LaTeX 公式在hosts 文件中添加
161.91.161.217 chart.googleapis.com
我们了解了“样本空间”,“事件”,“概率”。样本空间中包含了一次实验所有可能的结果,事件是样本空间的一个子集,每个事件可以有一个...