Spike_Zhang Site

数据挖掘-SVM

SVM：寻找一条最优的分界线使得它到两边的距离 margin 都最大。属性描述优点泛化错误率低，计算开销不大，易于理解缺点对参数调节和核函数选择敏感，原始分类器不参加修改适合处理二类问题适用数值型，标称型名词概念名词意义 data 数据 classifier 分类器 optimization 最优解 kernel 核函数...

2017-03-09

DataMining

阅读全文数据挖掘-SVM

数据挖掘-欠拟合与过拟合

以MATLAB 模拟离散点以下为欠拟合与过拟合图示：欠拟合模型没有很好地捕捉到数据特征，不能够很好地拟合数据。解决方法添加其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。减少正则化参数，正则化的目的是用来防止...

2017-03-08

DataMining

阅读全文数据挖掘-欠拟合与过拟合

数据挖掘-回归分析

原文https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/译文http://blog.csdn.net/lynnucas/article/details/47948639 回归分析 : 是一种预测性的建模技术,使用曲线拟合数据点，最终获取到数据点的距离差异最小的曲线回归主要三个度量：...

2017-03-07

转载
| DataMining

阅读全文数据挖掘-回归分析

数据挖掘-KNN

KNN 近邻算法：测量不同特征值之间距离进行分类属性描述优点精度高，对异常值不敏感，无数据输入假定缺点计算复杂度高，空间复杂度高适用数值型，标称型步骤存在一个训练集，并且每个数据都存在标签输入没有标签的新数据将新数据与训练集特征进行比较提取训练集中特征最相似的分类标签分类一般只选择训练集中的前 K 个最相似数据

2017-03-06

DataMining

阅读全文数据挖掘-KNN

数据挖掘-决策树

决策树：从属性相同的一类别事例推理树状规则分类方法属性描述优点计算复杂度不高，输出易于理解，中间值缺失不敏感，可以处理不相关特征数据缺点可能产生过拟合适用数值型，标称型步骤生成决策树：关键=> 选择适合的属性作为判别依据修剪决策树：生成决策树时未考虑的噪声影响，容易出现过拟合，预测效果差，预先剪枝，后剪枝识别叶子节点：差异较...

2017-03-05

DataMining

阅读全文数据挖掘-决策树

数据挖掘-朴素贝叶斯

朴素贝叶斯 (Naive Bayesian) : 通过随机事件A和B的条件概率（或边缘概率）判断规则是否可信属性描述优点数据较少仍然有效，可以处理多类别问题缺点对于输入数据敏感适用标称型公式伪代码123456789计算每个类别特征数目对每个训练集：对每个特征：如果特征出现在集合中->增加该特征计数值增加所有特征计数值对每个特...

2017-03-04

DataMining

阅读全文数据挖掘-朴素贝叶斯

数据挖掘-距离计算

计算样本间的“距离”(Distance) ，估算分类时不同样本之间的相似性度量(Similarity Measurement)。欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离夹角余弦汉明距离杰卡德距离& 杰卡德相似系数相关系数& 相关距离信息熵

2017-03-03

DataMining

阅读全文数据挖掘-距离计算

概率学-随机变量

作者：Vamei 出处：http://www.cnblogs.com/vamei 欢迎转载，也请保留这段声明。谢谢！提示：若无法正确显示 LaTeX 公式在hosts 文件中添加 161.91.161.217 chart.googleapis.com 我们了解了“样本空间”，“事件”，“概率”。样本空间中包含了一次实验所有可能的结果，事件是样本空间的一个子集，每个事件可以有一个发...

2017-03-02

转载
| 概率学

阅读全文概率学-随机变量

熵

熵（Entropy）: 热力学第二定律，熵反映了状态的无序程度。范围（0~1）值越大越混乱。物体从一种有序转变为另一种有序状态，必经过一个无序状态。无序状态程度即为熵。而为了消除这种无序使其有序，需要额外的能量。在信息中则是变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是...

2017-03-01

DataMining

阅读全文熵

MarkDown 插入数学公式

使用Google Chart的服务器提示：若无法正确打开在hosts 文件中添加 161.91.161.217 chart.googleapis.com 1<img src="http://chart.googleapis.com/chart?cht=tx&chl= 在此插入Latex公式" style="border:none;"...

2017-02-28

MarkDown
| LaTeX

阅读全文MarkDown 插入数学公式