本文内容关键词:Spark官方文档,Spark教程, Spark MLlib教程。
本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以Python版为主,部分Python不支持的功能保留原理说明,代码示例略去,另外翻译的时候对部分概念做注解。[注:翻译是为了帮助自己更好地理解相关概念,英语OK的同学建议直接阅读英文原版]
MLlib是Spark中可扩展的机器学习库,它由一系列机器学习算法和实用程序组成,包括分类、回归、聚类、协同过滤、降维,另外还包括一些底层的优化方法。下文是MLib文档的目录结构:
- 数据类型[Data types]
- 基础统计[Basic statistics]
- 分类和回归[Classification and regression]
-
协同过滤[Collaborative filtering]
- 交替最小二乘法[alternating least squares (ALS)]
- 聚类[Clustering]
- 降维[Dimensionality reduction]
- 特征提取和转换[Feature extraction and transformation]
-
频繁模式挖掘[Frequent pattern mining]
- FP-growth
-
优化[Optimization (developer)]
- 随机梯度下降[stochastic gradient descent]
- 有限内存BFGS[limited-memory BFGS (L-BFGS)]
这里只给出了相关章节的目录结构,详情请点击链接查看。持续更新中~