本文內容關鍵詞:Spark官方文檔,Spark教程, Spark MLlib教程。
本文翻譯自Spark官方文檔:Machine Learning Library (MLlib) Guide ,代碼示例以Python版為主,部分Python不支持的功能保留原理說明,代碼示例略去,另外翻譯的時候對部分概念做注解。[注:翻譯是為了幫助自己更好地理解相關概念,英語OK的同學建議直接閱讀英文原版]
MLlib是Spark中可擴展的機器學習庫,它由一係列機器學習算法和實用程序組成,包括分類、回歸、聚類、協同過濾、降維,另外還包括一些底層的優化方法。下文是MLib文檔的目錄結構:
- 數據類型[Data types]
- 基礎統計[Basic statistics]
- 分類和回歸[Classification and regression]
-
協同過濾[Collaborative filtering]
- 交替最小二乘法[alternating least squares (ALS)]
- 聚類[Clustering]
- 降維[Dimensionality reduction]
- 特征提取和轉換[Feature extraction and transformation]
-
頻繁模式挖掘[Frequent pattern mining]
- FP-growth
-
優化[Optimization (developer)]
- 隨機梯度下降[stochastic gradient descent]
- 有限內存BFGS[limited-memory BFGS (L-BFGS)]
這裏隻給出了相關章節的目錄結構,詳情請點擊鏈接查看。持續更新中~