本文是Spark2.1官方文档的翻译:Extracting, transforming and selecting features => Spark特征抽取、特征转换、特征选择,全文目录如下:
Feature ...
使用机器学习方法解决实际问题时,我们通常要用L1或L2范数做正则化(regularization),从而限制权值大小,减少过拟合风险。特别是在使用梯度下降来做目标函...
下面是章节协同过滤的目录(其他内容参见全文目录)
协同过滤
显示反馈VS隐士反馈
正则化参数的扩展
示例
教程
协同过滤
协同过...
原文来自: http://bbs.pinggu.org/thread-2604496-1-1.html,这里对部分地方添加了注解以及自己的理解。原文对一些常用的分类算法,如决策树、SVM、朴素贝叶...
本文内容关键词:Spark官方文档,Spark教程, Spark MLlib教程。
本文翻译自Spark官方文档:Machine Learning Library (MLlib) Guide ,代码示例以P...
AdaBoost: 权值的作用是什么?1)对分错的样本给予更高的权值,给弱分类器的误差加权2)所有弱分类器的投票权重
SVM: 超平面切割空间,支持向量距离最...
理论说明部分见上一篇:
最大熵模型简介[例子+推导+GIS求解]
为了是代码简短,方便阅读,去掉了很多健壮性检测的代码以及特殊处理。下面的代码实现的...
这篇文章是参考:https://github.com/ceys/jdml/wiki/ALS 改写的,由于原文Latex公式没有正常展现+少量笔误,妨碍阅读,所以这里重新整理了一下。
ALS是al...
这篇文章是结合论文http://www.cqvip.com/Main/Detail.aspx?id=7707219对博文:http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了简化重...
在传统基于内容的推荐系统中,根据商品特性的相似性来做推荐,例如:如果你购买了Machine Learning, Tom M.Mitchell这本书,系统会给你推荐The Elements of S...
下面是章节降维的内容(其他内容参见全文目录)
奇异值分解 (SVD)
性能
SVD示例
主成分分析 (PCA)
降维 是减少变量数量的过程。它可以用来...
下面是章节基础统计的目录(其他内容参见全文目录)
汇总统计(Summary statistics)
相关系数(Correlations)
分层抽样(Stratified sampling)
假设检验...
下面是章节数据类型的目录(其他内容参见全文目录)
局部向量[Local vector]
标记点[Labeled point]
局部矩阵[Local matrix]
分布式矩阵[Distributed...
下面是章节特征提取和转换的内容(其他内容参见全文目录)
TF-IDF
Word2Vec
模型
示例
标准化(StandardScaler)
模型拟合
...