这篇文章是结合论文http://www.cqvip.com/Main/Detail.aspx?id=7707219对博文:http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了简化重...
在传统基于内容的推荐系统中,根据商品特性的相似性来做推荐,例如:如果你购买了Machine Learning, Tom M.Mitchell这本书,系统会给你推荐The Elements of S...
下面是章节降维的内容(其他内容参见全文目录)
奇异值分解 (SVD)
性能
SVD示例
主成分分析 (PCA)
降维 是减少变量数量的过程。它可以用来...
下面是章节基础统计的目录(其他内容参见全文目录)
汇总统计(Summary statistics)
相关系数(Correlations)
分层抽样(Stratified sampling)
假设检验...
下面是章节数据类型的目录(其他内容参见全文目录)
局部向量[Local vector]
标记点[Labeled point]
局部矩阵[Local matrix]
分布式矩阵[Distributed...
下面是章节特征提取和转换的内容(其他内容参见全文目录)
TF-IDF
Word2Vec
模型
示例
标准化(StandardScaler)
模型拟合
...
下面是章节聚类的内容(其他内容参见全文目录)
聚类是一个无监督学习问题,我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分...
下面是章节优化的目录(参见全文目录)
数学描述
梯度下降(Gradient descent)
随机梯度下降 (SGD)
分布式SGD的更新机制
有限内存BFGS(Limited-...
下面是章节树的集成的目录(参见决策树,其他内容参见全文目录)
梯度提升树 vs. 随机森林
随机森林
基础算法
训练
预测
使用建议
...
下面是章节决策树的目录(其他内容参见全文目录)
基础算法
节点不纯度和信息增益(Node impurity and information gain)
分裂候选集(Split candid...
下面是章节线性模型的目录(其他内容参见全文目录)
数学公式
损失函数(Loss functions)
正则化(Regularizers)
优化(Optimization)
分类
...
下面是章节分类和回归的目录(其他内容参见全文目录)
MLlib支持多种机器学习方法,这些方法可以用于解决二分类、多分类以及回归分析问题。下表列出了针对每...
下面是章节频繁模式挖掘的内容(其他内容参见全文目录)
频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题。建议用...
下面是章节朴素贝叶斯的正文(其他内容参见全文目录)
朴素贝叶斯是一个简单的多分类算法。之所以称为朴素,是因为该算法假设特征之间相互独立。朴素贝叶斯...
Spark作为一种通用且高性能的计算框架,不仅在性能上相对于hadoop mapreduce有了很大的提升;在易用性上也运超hadoop, 不只提供了map/reduce计算接口,还提供...