這篇文章是結合論文http://www.cqvip.com/Main/Detail.aspx?id=7707219對博文:http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了簡化重...
在傳統基於內容的推薦係統中,根據商品特性的相似性來做推薦,例如:如果你購買了Machine Learning, Tom M.Mitchell這本書,係統會給你推薦The Elements of S...
下麵是章節降維的內容(其他內容參見全文目錄)
奇異值分解 (SVD)
性能
SVD示例
主成分分析 (PCA)
降維 是減少變量數量的過程。它可以用來...
下麵是章節基礎統計的目錄(其他內容參見全文目錄)
匯總統計(Summary statistics)
相關係數(Correlations)
分層抽樣(Stratified sampling)
假設檢驗...
下麵是章節數據類型的目錄(其他內容參見全文目錄)
局部向量[Local vector]
標記點[Labeled point]
局部矩陣[Local matrix]
分布式矩陣[Distributed...
下麵是章節特征提取和轉換的內容(其他內容參見全文目錄)
TF-IDF
Word2Vec
模型
示例
標準化(StandardScaler)
模型擬合
...
下麵是章節聚類的內容(其他內容參見全文目錄)
聚類是一個無監督學習問題,我們基於相似的特性將數據分組成多個子集。聚類通常用於探索性分析或者作為分...
下麵是章節優化的目錄(參見全文目錄)
數學描述
梯度下降(Gradient descent)
隨機梯度下降 (SGD)
分布式SGD的更新機製
有限內存BFGS(Limited-...
下麵是章節樹的集成的目錄(參見決策樹,其他內容參見全文目錄)
梯度提升樹 vs. 隨機森林
隨機森林
基礎算法
訓練
預測
使用建議
...
下麵是章節決策樹的目錄(其他內容參見全文目錄)
基礎算法
節點不純度和信息增益(Node impurity and information gain)
分裂候選集(Split candid...
下麵是章節線性模型的目錄(其他內容參見全文目錄)
數學公式
損失函數(Loss functions)
正則化(Regularizers)
優化(Optimization)
分類
...
下麵是章節分類和回歸的目錄(其他內容參見全文目錄)
MLlib支持多種機器學習方法,這些方法可以用於解決二分類、多分類以及回歸分析問題。下表列出了針對每...
下麵是章節頻繁模式挖掘的內容(其他內容參見全文目錄)
頻繁項集挖掘是通常是大規模數據分析的第一步,多年以來它都是數據挖掘領域的活躍研究主題。建議用...
下麵是章節樸素貝葉斯的正文(其他內容參見全文目錄)
樸素貝葉斯是一個簡單的多分類算法。之所以稱為樸素,是因為該算法假設特征之間相互獨立。樸素貝葉斯...
Spark作為一種通用且高性能的計算框架,不僅在性能上相對於hadoop mapreduce有了很大的提升;在易用性上也運超hadoop, 不隻提供了map/reduce計算接口,還提供...