机器学习 - 纯净天空

Spark机器学习库指南[Spark 1.3.1版]

@丹阳 ▣机器学习, 算法&结构 ♢MLib, spark, 机器学习, 翻译

本文内容关键词：Spark官方文档，Spark教程， Spark MLlib教程。本文翻译自Spark官方文档：Machine Learning Library (MLlib) Guide ，代码示例以P...

@丹阳 ▣机器学习, 算法&结构 ♢机器学习

AdaBoost：权值的作用是什么？1）对分错的样本给予更高的权值，给弱分类器的误差加权2）所有弱分类器的投票权重 SVM：超平面切割空间，支持向量距离最...

@丹阳 ▣机器学习, 算法&结构 ♢GIS, MaxEnt, 最大熵

理论说明部分见上一篇：最大熵模型简介[例子+推导+GIS求解] 为了是代码简短，方便阅读，去掉了很多健壮性检测的代码以及特殊处理。下面的代码实现的...

@丹阳 ▣机器学习, 算法&结构 ♢ALS, ALS-WR, 协同过滤

这篇文章是参考：https://github.com/ceys/jdml/wiki/ALS 改写的，由于原文Latex公式没有正常展现+少量笔误，妨碍阅读，所以这里重新整理了一下。 ALS是al...

@丹阳 ▣机器学习, 算法&结构 ♢GIS, MaxEnt, 最大熵, 机器学习

这篇文章是结合论文http://www.cqvip.com/Main/Detail.aspx?id=7707219对博文：http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了简化重...

@丹阳 ▣机器学习, 算法&结构 ♢slope one, 协同过滤, 机器学习

在传统基于内容的推荐系统中，根据商品特性的相似性来做推荐，例如：如果你购买了Machine Learning, Tom M.Mitchell这本书，系统会给你推荐The Elements of S...

@丹阳 ▣机器学习, 算法&结构 ♢PCA, SVD, 降维

下面是章节降维的内容(其他内容参见全文目录) 奇异值分解 (SVD) 性能 SVD示例主成分分析 (PCA) 降维是减少变量数量的过程。它可以用来...

@丹阳 ▣机器学习, 算法&结构 ♢spark, 抽样, 相关性, 统计, 翻译

下面是章节基础统计的目录(其他内容参见全文目录) 汇总统计(Summary statistics) 相关系数(Correlations) 分层抽样(Stratified sampling) 假设检验...

@丹阳 ▣机器学习, 算法&结构 ♢spark, 翻译

下面是章节数据类型的目录(其他内容参见全文目录) 局部向量[Local vector] 标记点[Labeled point] 局部矩阵[Local matrix] 分布式矩阵[Distributed...

@丹阳 ▣机器学习, 算法&结构 ♢TF-IDF, word2vec, 卡方, 归一化, 标准化

下面是章节特征提取和转换的内容(其他内容参见全文目录) TF-IDF Word2Vec 模型示例标准化（StandardScaler）模型拟合 ...

@丹阳 ▣机器学习, 算法&结构 ♢GMM, Kmeans, K均值, LDA, PIC, 聚类, 高斯混合

下面是章节聚类的内容(其他内容参见全文目录) 聚类是一个无监督学习问题，我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分...

@丹阳 ▣机器学习, 算法&结构 ♢L-BFGS, SGD, spark, 优化, 翻译

下面是章节优化的目录(参见全文目录) 数学描述梯度下降(Gradient descent) 随机梯度下降 (SGD) 分布式SGD的更新机制有限内存BFGS(Limited-...

@丹阳 ▣机器学习, 算法&结构 ♢GBT, RF, spark, 梯度提升树, 随机森林

下面是章节树的集成的目录(参见决策树，其他内容参见全文目录) 梯度提升树 vs. 随机森林随机森林基础算法训练预测使用建议 ...

@丹阳 ▣机器学习, 算法&结构 ♢GINI, spark, 决策树, 熵

下面是章节决策树的目录(其他内容参见全文目录) 基础算法节点不纯度和信息增益（Node impurity and information gain）分裂候选集（Split candid...

@丹阳 ▣机器学习, 算法&结构 ♢spark, SVM, 分类, 回归, 线性模型, 翻译

下面是章节线性模型的目录(其他内容参见全文目录) 数学公式损失函数(Loss functions) 正则化(Regularizers) 优化(Optimization) 分类 ...