• Git flow

    Git flow

    Production|Master 分支 : 合并读取这个分支最近发布到生产环境的代码,最近发布的Release, 这个分支只能从其他分支合并,不能在这个分支直接修改 Develop 分支 : 开发这个分支是我们是我们的主开发分支,包含所有要发布到下一个Release的代码,这个主要合并与其他分支,比如Feature分支 Feature 分支 : 相互独立这个分支主要是用来开发一个新的功能,...
  • 位运算

    为什么会存在十六进制并且广泛使用? 我的理解是十进制描述的是纯数值型,十六进制是标称型+数值型,标称型用于处理状态机。人有十个手指,这可能是十进制最早起源的原因,但是无法表示状态。我们如何记录正负,甚至是虚数、复数。如果不加入额外标识无法表示吧,那机器呢,他可是只能运算二进制信号,所以最合适的描述载体有两个必要条件: 二的直系等比倍数; 大于十并且越小越好。 那么十六是最合适的选择。...
  • 数据挖掘-Spark

    数据挖掘-Spark

    Spark : 借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷 运行模式 环境 描述 模式 local 本地单进程模式 本地模式 standalone 分布式集群,Master-Worker架构(或者Master-Slave),Master负责调度,Worker负责具体Task的执行 集群模式 on yarn&#...
  • 数据挖掘-K-Means

    数据挖掘-K-Means

    类内数据点越近越好,类间数据点越远越好。 属性 描述 优点 容易实现 缺点 可能收敛到局部最小值,在大规模数据集上收敛较慢 适用 数值型 输入:分类个数k,包含在n个数据对象的数据集 输出:k个聚类 步骤: 从n个数据对象中任意选取k个对象作为初始聚类中心 分别计算每个对象到各个聚类中心距离,把对象分配到距离最近的聚类中 所有对象分配后,重新计算k个聚类的中心 ...
  • 数据挖掘-Apriori

    数据挖掘-Apriori

    从海量数据中挖掘可信频繁项集 属性 描述 优点 易编码实现 缺点 大数据集运行缓慢 适用 数值型,标称型 名词概念 名词 意义 association analysis 关联分析 association rule learning 关联规则学习 frequent item set 频繁项集 association rule 关联规则 fr...
  • 数据挖掘-MapReduce

    数据挖掘-MapReduce

    可以通过分布式进行大数据量的计算的软件框架 属性 描述 优点 短时间内完成大量工作 缺点 算法必须经过重写,需要对系统工程有一定理解 适用 数值型,标称型 MapReduce 在大量节点组成的集群上运行(分布式计算)。 流程 map阶段 : 单个作业被分成很多小分,输入数据也被切片分发到每个节点,各个节点只在本地数据上运算 对应运算代码称为mapper sort&...
  • 数据挖掘-PCA降维

    数据挖掘-PCA降维

    若存在N个M维的训练集,N与M不小于百万级,该如何处理? 属性 描述 优点 降低数据的复杂性,识别最重要的多个特征 缺点 不一定需要,有一定损失有用信息的可能 适用 数值型 名词概念 名词 意义 dimensionality reduction 降维 principal component analysis PCA主元分析 factor anal...
  • 数据挖掘-SVM

    数据挖掘-SVM

    SVM:寻找一条最优的分界线使得它到两边的距离 margin 都最大。 属性 描述 优点 泛化错误率低,计算开销不大,易于理解 缺点 对参数调节和核函数选择敏感,原始分类器不参加修改适合处理二类问题 适用 数值型,标称型 名词概念 名词 意义 data 数据 classifier 分类器 optimization 最优解 kernel 核函数...
  • 数据挖掘-欠拟合与过拟合

    数据挖掘-欠拟合与过拟合

    以MATLAB 模拟离散点 以下为欠拟合与过拟合图示: 欠拟合 模型没有很好地捕捉到数据特征,不能够很好地拟合数据。 解决方法 添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。 减少正则化参数,正则化的目的是用来防止...
  • 数据挖掘-回归分析

    数据挖掘-回归分析

    原文https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/译文http://blog.csdn.net/lynnucas/article/details/47948639 回归分析 : 是一种预测性的建模技术,使用曲线拟合数据点,最终获取到数据点的距离差异最小的曲线 回归主要三个度量:...
17891011