問題描述:
使用Spark ALS.train()做協同過濾的模型訓練時,迭代次數過多(iteration>=30)可能導致java.lang.StackOverflowError的錯誤。
解決方案:
一...
本文翻譯自Spark官方文檔:Spark Programming Guide, (spark 1.3.0)去掉了其中Scala/Java的內容,隻保留了Python及公共部分。
關鍵詞:spar...
下麵是章節基礎統計的目錄(其他內容參見全文目錄)
匯總統計(Summary statistics)
相關係數(Correlations)
分層抽樣(Stratified sampling)
假設檢驗...
下麵是章節數據類型的目錄(其他內容參見全文目錄)
局部向量[Local vector]
標記點[Labeled point]
局部矩陣[Local matrix]
分布式矩陣[Distributed...
下麵是章節優化的目錄(參見全文目錄)
數學描述
梯度下降(Gradient descent)
隨機梯度下降 (SGD)
分布式SGD的更新機製
有限內存BFGS(Limited-...
下麵是章節樹的集成的目錄(參見決策樹,其他內容參見全文目錄)
梯度提升樹 vs. 隨機森林
隨機森林
基礎算法
訓練
預測
使用建議
...
下麵是章節決策樹的目錄(其他內容參見全文目錄)
基礎算法
節點不純度和信息增益(Node impurity and information gain)
分裂候選集(Split candid...
下麵是章節線性模型的目錄(其他內容參見全文目錄)
數學公式
損失函數(Loss functions)
正則化(Regularizers)
優化(Optimization)
分類
...
Spark作為一種通用且高性能的計算框架,不僅在性能上相對於hadoop mapreduce有了很大的提升;在易用性上也運超hadoop, 不隻提供了map/reduce計算接口,還提供...