spark - 纯净天空

Spark机器学习库指南[Spark 1.3.1版]——基础统计(Basic statistics)

@丹阳 ♢spark, 抽样, 相关性, 统计, 翻译

下面是章节基础统计的目录(其他内容参见全文目录) 汇总统计(Summary statistics) 相关系数(Correlations) 分层抽样(Stratified sampling) 假设...

@丹阳 ♢spark, 翻译

下面是章节数据类型的目录(其他内容参见全文目录) 局部向量[Local vector] 标记点[Labeled point] 局部矩阵[Local matrix] 分布式矩阵[Distrib...

@丹阳 ♢L-BFGS, SGD, spark, 优化, 翻译

下面是章节优化的目录(参见全文目录) 数学描述梯度下降(Gradient descent) 随机梯度下降 (SGD) 分布式SGD的更新机制有限内存BFGS(Lim...

@丹阳 ♢GBT, RF, spark, 梯度提升树, 随机森林

下面是章节树的集成的目录(参见决策树，其他内容参见全文目录) 梯度提升树 vs. 随机森林随机森林基础算法训练预测使用建...

@丹阳 ♢GINI, spark, 决策树, 熵

下面是章节决策树的目录(其他内容参见全文目录) 基础算法节点不纯度和信息增益（Node impurity and information gain）分裂候选集（Split can...

@丹阳 ♢spark, SVM, 分类, 回归, 线性模型, 翻译

下面是章节线性模型的目录(其他内容参见全文目录) 数学公式损失函数(Loss functions) 正则化(Regularizers) 优化(Optimization) 分...

@丹阳 ♢hadoop, Linux, Python, spark

Spark作为一种通用且高性能的计算框架，不仅在性能上相对于hadoop mapreduce有了很大的提升；在易用性上也运超hadoop, 不只提供了map/reduce计算接口，还提供...