機器學習 - 純淨天空

Spark機器學習庫指南[Spark 1.3.1版]

@丹陽 ▣機器學習, 算法&結構 ♢MLib, spark, 機器學習, 翻譯

本文內容關鍵詞：Spark官方文檔，Spark教程， Spark MLlib教程。本文翻譯自Spark官方文檔：Machine Learning Library (MLlib) Guide ，代碼示例以P...

@丹陽 ▣機器學習, 算法&結構 ♢機器學習

AdaBoost：權值的作用是什麽？1）對分錯的樣本給予更高的權值，給弱分類器的誤差加權2）所有弱分類器的投票權重 SVM：超平麵切割空間，支持向量距離最...

@丹陽 ▣機器學習, 算法&結構 ♢GIS, MaxEnt, 最大熵

理論說明部分見上一篇：最大熵模型簡介[例子+推導+GIS求解] 為了是代碼簡短，方便閱讀，去掉了很多健壯性檢測的代碼以及特殊處理。下麵的代碼實現的...

@丹陽 ▣機器學習, 算法&結構 ♢ALS, ALS-WR, 協同過濾

這篇文章是參考：https://github.com/ceys/jdml/wiki/ALS 改寫的，由於原文Latex公式沒有正常展現+少量筆誤，妨礙閱讀，所以這裏重新整理了一下。 ALS是al...

@丹陽 ▣機器學習, 算法&結構 ♢GIS, MaxEnt, 最大熵, 機器學習

這篇文章是結合論文http://www.cqvip.com/Main/Detail.aspx?id=7707219對博文：http://www.cnblogs.com/hexinuaa/p/3353479.html加入自己的理解做了簡化重...

@丹陽 ▣機器學習, 算法&結構 ♢slope one, 協同過濾, 機器學習

在傳統基於內容的推薦係統中，根據商品特性的相似性來做推薦，例如：如果你購買了Machine Learning, Tom M.Mitchell這本書，係統會給你推薦The Elements of S...

@丹陽 ▣機器學習, 算法&結構 ♢PCA, SVD, 降維

下麵是章節降維的內容(其他內容參見全文目錄) 奇異值分解 (SVD) 性能 SVD示例主成分分析 (PCA) 降維是減少變量數量的過程。它可以用來...

@丹陽 ▣機器學習, 算法&結構 ♢spark, 抽樣, 相關性, 統計, 翻譯

下麵是章節基礎統計的目錄(其他內容參見全文目錄) 匯總統計(Summary statistics) 相關係數(Correlations) 分層抽樣(Stratified sampling) 假設檢驗...

@丹陽 ▣機器學習, 算法&結構 ♢spark, 翻譯

下麵是章節數據類型的目錄(其他內容參見全文目錄) 局部向量[Local vector] 標記點[Labeled point] 局部矩陣[Local matrix] 分布式矩陣[Distributed...

@丹陽 ▣機器學習, 算法&結構 ♢TF-IDF, word2vec, 卡方, 歸一化, 標準化

下麵是章節特征提取和轉換的內容(其他內容參見全文目錄) TF-IDF Word2Vec 模型示例標準化（StandardScaler）模型擬合 ...

@丹陽 ▣機器學習, 算法&結構 ♢GMM, Kmeans, K均值, LDA, PIC, 聚類, 高斯混合

下麵是章節聚類的內容(其他內容參見全文目錄) 聚類是一個無監督學習問題，我們基於相似的特性將數據分組成多個子集。聚類通常用於探索性分析或者作為分...

@丹陽 ▣機器學習, 算法&結構 ♢L-BFGS, SGD, spark, 優化, 翻譯

下麵是章節優化的目錄(參見全文目錄) 數學描述梯度下降(Gradient descent) 隨機梯度下降 (SGD) 分布式SGD的更新機製有限內存BFGS(Limited-...

@丹陽 ▣機器學習, 算法&結構 ♢GBT, RF, spark, 梯度提升樹, 隨機森林

下麵是章節樹的集成的目錄(參見決策樹，其他內容參見全文目錄) 梯度提升樹 vs. 隨機森林隨機森林基礎算法訓練預測使用建議 ...

@丹陽 ▣機器學習, 算法&結構 ♢GINI, spark, 決策樹, 熵

下麵是章節決策樹的目錄(其他內容參見全文目錄) 基礎算法節點不純度和信息增益（Node impurity and information gain）分裂候選集（Split candid...

@丹陽 ▣機器學習, 算法&結構 ♢spark, SVM, 分類, 回歸, 線性模型, 翻譯

下麵是章節線性模型的目錄(其他內容參見全文目錄) 數學公式損失函數(Loss functions) 正則化(Regularizers) 優化(Optimization) 分類 ...