下面是章节降维的内容(其他内容参见全文目录)
奇异值分解 (SVD)
性能
SVD示例
主成分分析 (PCA)
降维 是减少变量数量的过程。它可以...
下面是章节基础统计的目录(其他内容参见全文目录)
汇总统计(Summary statistics)
相关系数(Correlations)
分层抽样(Stratified sampling)
假设...
下面是章节数据类型的目录(其他内容参见全文目录)
局部向量[Local vector]
标记点[Labeled point]
局部矩阵[Local matrix]
分布式矩阵[Distrib...
下面是章节特征提取和转换的内容(其他内容参见全文目录)
TF-IDF
Word2Vec
模型
示例
标准化(StandardScaler)
模型...
下面是章节聚类的内容(其他内容参见全文目录)
聚类是一个无监督学习问题,我们基于相似的特性将数据分组成多个子集。聚类通常用于探索性分析或者作为分...
下面是章节优化的目录(参见全文目录)
数学描述
梯度下降(Gradient descent)
随机梯度下降 (SGD)
分布式SGD的更新机制
有限内存BFGS(Lim...
下面是章节树的集成的目录(参见决策树,其他内容参见全文目录)
梯度提升树 vs. 随机森林
随机森林
基础算法
训练
预测
使用建...
下面是章节决策树的目录(其他内容参见全文目录)
基础算法
节点不纯度和信息增益(Node impurity and information gain)
分裂候选集(Split can...
下面是章节线性模型的目录(其他内容参见全文目录)
数学公式
损失函数(Loss functions)
正则化(Regularizers)
优化(Optimization)
分...
下面是章节分类和回归的目录(其他内容参见全文目录)
MLlib支持多种机器学习方法,这些方法可以用于解决二分类、多分类以及回归分析问题。下表列出了针对每...
下面是章节频繁模式挖掘的内容(其他内容参见全文目录)
频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题。建议用...
下面是章节朴素贝叶斯的正文(其他内容参见全文目录)
朴素贝叶斯是一个简单的多分类算法。之所以称为朴素,是因为该算法假设特征之间相互独立。朴素贝叶斯...
Spark作为一种通用且高性能的计算框架,不仅在性能上相对于hadoop mapreduce有了很大的提升;在易用性上也运超hadoop, 不只提供了map/reduce计算接口,还提供...
本文是VIM常用命令总结,分成两部分:第一部分是一张VIM命令速查图,如下图所示;第二部分是VIM命令详解的表格。 [caption ...
摘要:文章介绍了集成学习的概念和它的发展,它有RF和GBDT两大杀器,它有嫁接法、集成半监督学习的最新进展能够提升学习效果,文章还着重分析了集成学习成功...
Introduction To Machine Learning_review
本分摘录翻译自wikipedia Viterbi algorithm。
维特比算法(Viterbi algorithm)是一种动态规划算法,它用于寻找最可能产生观测到的事件的序列,这个序列是隐...