本文内容关键词:Spark官方文档,Spark教程, Spark MLlib教程。
本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以P...
AdaBoost: 权值的作用是什么?1)对分错的样本给予更高的权值,给弱分类器的误差加权2)所有弱分类器的投票权重
SVM: 超平面切割空间,支持向量距离最...
理论说明部分见上一篇:
最大熵模型简介[例子+推导+GIS求解]
为了是代码简短,方便阅读,去掉了很多健壮性检测的代码以及特殊处理。下面的代码实现的...
这篇文章是参考:https://github.com/ceys/jdml/wiki/ALS 改写的,由于原文Latex公式没有正常展现+少量笔误,妨碍阅读,所以这里重新整理了一下。
ALS是al...
这篇文章是结合论文http://www.cqvip.com/Main/Detail.aspx?id=7707219对博文:http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了简化重...
在传统基于内容的推荐系统中,根据商品特性的相似性来做推荐,例如:如果你购买了Machine Learning, Tom M.Mitchell这本书,系统会给你推荐The Elements of S...
下面是章节降维的内容(其他内容参见全文目录)
奇异值分解 (SVD)
性能
SVD示例
主成分分析 (PCA)
降维 是减少变量数量的过程。它可以用来...
下面是章节基础统计的目录(其他内容参见全文目录)
汇总统计(Summary statistics)
相关系数(Correlations)
分层抽样(Stratified sampling)
假设检验...
下面是章节数据类型的目录(其他内容参见全文目录)
局部向量[Local vector]
标记点[Labeled point]
局部矩阵[Local matrix]
分布式矩阵[Distributed...
下面是章节特征提取和转换的内容(其他内容参见全文目录)
TF-IDF
Word2Vec
模型
示例
标准化(StandardScaler)
模型拟合
...
下面是章节聚类的内容(其他内容参见全文目录)
聚类是一个无监督学习问题,我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分...
下面是章节优化的目录(参见全文目录)
数学描述
梯度下降(Gradient descent)
随机梯度下降 (SGD)
分布式SGD的更新机制
有限内存BFGS(Limited-...
下面是章节树的集成的目录(参见决策树,其他内容参见全文目录)
梯度提升树 vs. 随机森林
随机森林
基础算法
训练
预测
使用建议
...
下面是章节决策树的目录(其他内容参见全文目录)
基础算法
节点不纯度和信息增益(Node impurity and information gain)
分裂候选集(Split candid...
下面是章节线性模型的目录(其他内容参见全文目录)
数学公式
损失函数(Loss functions)
正则化(Regularizers)
优化(Optimization)
分类
...