Production|Master 分支 : 合并读取这个分支最近发布到生产环境的代码,最近发布的Release, 这个分支只能从其他分支合并,不能在这个分支直接修改
Develop 分支 : 开发这个分支是我们是我们的主开发分支,包含所有要发布到下一个Release的代码,这个主要合并与其他分支,比如Feature分支
Feature 分支 : 相互独立这个分支主要是用来开发一个新的功能,...
为什么会存在十六进制并且广泛使用?
我的理解是十进制描述的是纯数值型,十六进制是标称型+数值型,标称型用于处理状态机。人有十个手指,这可能是十进制最早起源的原因,但是无法表示状态。我们如何记录正负,甚至是虚数、复数。如果不加入额外标识无法表示吧,那机器呢,他可是只能运算二进制信号,所以最合适的描述载体有两个必要条件:
二的直系等比倍数;
大于十并且越小越好。
那么十六是最合适的选择。...
Spark : 借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷
运行模式
环境
描述
模式
local
本地单进程模式
本地模式
standalone
分布式集群,Master-Worker架构(或者Master-Slave),Master负责调度,Worker负责具体Task的执行
集群模式
on yarn...
类内数据点越近越好,类间数据点越远越好。
属性
描述
优点
容易实现
缺点
可能收敛到局部最小值,在大规模数据集上收敛较慢
适用
数值型
输入:分类个数k,包含在n个数据对象的数据集
输出:k个聚类
步骤:
从n个数据对象中任意选取k个对象作为初始聚类中心
分别计算每个对象到各个聚类中心距离,把对象分配到距离最近的聚类中
所有对象分配后,重新计算k个聚类的中心
...
从海量数据中挖掘可信频繁项集
属性
描述
优点
易编码实现
缺点
大数据集运行缓慢
适用
数值型,标称型
名词概念
名词
意义
association analysis
关联分析
association rule learning
关联规则学习
frequent item set
频繁项集
association rule
关联规则
fr...
可以通过分布式进行大数据量的计算的软件框架
属性
描述
优点
短时间内完成大量工作
缺点
算法必须经过重写,需要对系统工程有一定理解
适用
数值型,标称型
MapReduce 在大量节点组成的集群上运行(分布式计算)。
流程
map阶段 : 单个作业被分成很多小分,输入数据也被切片分发到每个节点,各个节点只在本地数据上运算 对应运算代码称为mapper
sort&...
若存在N个M维的训练集,N与M不小于百万级,该如何处理?
属性
描述
优点
降低数据的复杂性,识别最重要的多个特征
缺点
不一定需要,有一定损失有用信息的可能
适用
数值型
名词概念
名词
意义
dimensionality reduction
降维
principal component analysis
PCA主元分析
factor anal...
SVM:寻找一条最优的分界线使得它到两边的距离 margin 都最大。
属性
描述
优点
泛化错误率低,计算开销不大,易于理解
缺点
对参数调节和核函数选择敏感,原始分类器不参加修改适合处理二类问题
适用
数值型,标称型
名词概念
名词
意义
data
数据
classifier
分类器
optimization
最优解
kernel
核函数...
以MATLAB 模拟离散点
以下为欠拟合与过拟合图示:
欠拟合
模型没有很好地捕捉到数据特征,不能够很好地拟合数据。
解决方法
添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。
添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
减少正则化参数,正则化的目的是用来防止...
原文https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/译文http://blog.csdn.net/lynnucas/article/details/47948639
回归分析 : 是一种预测性的建模技术,使用曲线拟合数据点,最终获取到数据点的距离差异最小的曲线
回归主要三个度量:...