下麵是章節降維的內容(其他內容參見全文目錄)
奇異值分解 (SVD)
性能
SVD示例
主成分分析 (PCA)
降維 是減少變量數量的過程。它可以...
下麵是章節基礎統計的目錄(其他內容參見全文目錄)
匯總統計(Summary statistics)
相關係數(Correlations)
分層抽樣(Stratified sampling)
假設...
下麵是章節數據類型的目錄(其他內容參見全文目錄)
局部向量[Local vector]
標記點[Labeled point]
局部矩陣[Local matrix]
分布式矩陣[Distrib...
下麵是章節特征提取和轉換的內容(其他內容參見全文目錄)
TF-IDF
Word2Vec
模型
示例
標準化(StandardScaler)
模型...
下麵是章節聚類的內容(其他內容參見全文目錄)
聚類是一個無監督學習問題,我們基於相似的特性將數據分組成多個子集。聚類通常用於探索性分析或者作為分...
下麵是章節優化的目錄(參見全文目錄)
數學描述
梯度下降(Gradient descent)
隨機梯度下降 (SGD)
分布式SGD的更新機製
有限內存BFGS(Lim...
下麵是章節樹的集成的目錄(參見決策樹,其他內容參見全文目錄)
梯度提升樹 vs. 隨機森林
隨機森林
基礎算法
訓練
預測
使用建...
下麵是章節決策樹的目錄(其他內容參見全文目錄)
基礎算法
節點不純度和信息增益(Node impurity and information gain)
分裂候選集(Split can...
下麵是章節線性模型的目錄(其他內容參見全文目錄)
數學公式
損失函數(Loss functions)
正則化(Regularizers)
優化(Optimization)
分...
下麵是章節分類和回歸的目錄(其他內容參見全文目錄)
MLlib支持多種機器學習方法,這些方法可以用於解決二分類、多分類以及回歸分析問題。下表列出了針對每...
下麵是章節頻繁模式挖掘的內容(其他內容參見全文目錄)
頻繁項集挖掘是通常是大規模數據分析的第一步,多年以來它都是數據挖掘領域的活躍研究主題。建議用...
下麵是章節樸素貝葉斯的正文(其他內容參見全文目錄)
樸素貝葉斯是一個簡單的多分類算法。之所以稱為樸素,是因為該算法假設特征之間相互獨立。樸素貝葉斯...
Spark作為一種通用且高性能的計算框架,不僅在性能上相對於hadoop mapreduce有了很大的提升;在易用性上也運超hadoop, 不隻提供了map/reduce計算接口,還提供...
本文是VIM常用命令總結,分成兩部分:第一部分是一張VIM命令速查圖,如下圖所示;第二部分是VIM命令詳解的表格。 [caption ...
摘要:文章介紹了集成學習的概念和它的發展,它有RF和GBDT兩大殺器,它有嫁接法、集成半監督學習的最新進展能夠提升學習效果,文章還著重分析了集成學習成功...
Introduction To Machine Learning_review
本分摘錄翻譯自wikipedia Viterbi algorithm。
維特比算法(Viterbi algorithm)是一種動態規劃算法,它用於尋找最可能產生觀測到的事件的序列,這個序列是隱...