问题描述:
使用Spark ALS.train()做协同过滤的模型训练时,迭代次数过多(iteration>=30)可能导致java.lang.StackOverflowError的错误。
解决方案:
一...
本文翻译自Spark官方文档:Spark Programming Guide, (spark 1.3.0)去掉了其中Scala/Java的内容,只保留了Python及公共部分。
关键词:spar...
下面是章节基础统计的目录(其他内容参见全文目录)
汇总统计(Summary statistics)
相关系数(Correlations)
分层抽样(Stratified sampling)
假设检验...
下面是章节数据类型的目录(其他内容参见全文目录)
局部向量[Local vector]
标记点[Labeled point]
局部矩阵[Local matrix]
分布式矩阵[Distributed...
下面是章节优化的目录(参见全文目录)
数学描述
梯度下降(Gradient descent)
随机梯度下降 (SGD)
分布式SGD的更新机制
有限内存BFGS(Limited-...
下面是章节树的集成的目录(参见决策树,其他内容参见全文目录)
梯度提升树 vs. 随机森林
随机森林
基础算法
训练
预测
使用建议
...
下面是章节决策树的目录(其他内容参见全文目录)
基础算法
节点不纯度和信息增益(Node impurity and information gain)
分裂候选集(Split candid...
下面是章节线性模型的目录(其他内容参见全文目录)
数学公式
损失函数(Loss functions)
正则化(Regularizers)
优化(Optimization)
分类
...
Spark作为一种通用且高性能的计算框架,不仅在性能上相对于hadoop mapreduce有了很大的提升;在易用性上也运超hadoop, 不只提供了map/reduce计算接口,还提供...