常用機器學習算法的點睛之筆

AdaBoost：權值的作用是什麽？1）對分錯的樣本給予更高的權值，給弱分類器的誤差加權2）所有弱分類器的投票權重

SVM：超平麵切割空間，支持向量距離最大化，hinge損失函數+L2正則, SGD求解

logistic回歸: log(1+exp(-yW^Tx)), sigmoid函數

線性回歸,最小二乘/Lasso/嶺回歸, SGD求解

決策樹：C4.5信息增益率， CART，GINI不純度

決策樁：隻有一個分裂點的決策樹，一般用於AdaBoost

樸素貝葉斯：樸素指的是特征相互獨立，所以可以連乘來表示同時發生的概率。二值直接統計頻率，連續值可以借助高斯分布計算概率。

Kmeans: K個中心點，最小距離，歐式距離

KNN: 找Ｋ個最近的點，KD樹

高斯混合聚類：樣本屬於K個高斯分布的後驗概率，ＥＭ算法求解，Ｅ求均值，M最大似然求解。實際求K個高斯分布的均值和方差以及每個高斯分布的比例。

SVD: 奇異值分解，矩陣分解。

SGD：梯度下降，求一階導數，用於優化問題求解。

牛頓法：求一階導數，xk+1 = xk – f(xk)/f'(xk)

牛頓二階導數法：求二階導數, xk+1 = xk – f'(xk)/f”(xk), 高維情況，需要求漢森矩陣的逆， xk+1 = xk – ∇f(xk)/∇²f(xk), 漢森矩陣[∂f/(∂xi∂xj)] i, j = 1,2, …, n

L-BFGS: 擬牛頓法的一種，近似漢森矩陣的逆，用於優化問題求解。

LDA : 潛在狄利克雷分布，EM算法求解，主題模型。

最大熵：熵最大化，天然多分類，最大熵+經驗分布等於期望分布約束+概率和為1，拉格朗日乘子，GIS/IIS求解，迭代速度慢。

隨機森林：每次選子集出來訓練，多個模型，最後投票

提升樹：

pagerank : 節點傳遞到下一點的權值為自身權值除以出度，節點接收的權值等於所有前驅節點的傳遞過來的權值之和。

反向傳播算法：backpropagation, 前饋權值，反向誤差, 輸出層殘差o(1-o)(t- o), 輸入層殘差h(1-h)sum_output_error, 衝量項

AutoEncoder : 稀疏，L2正則化, 輸入層到隱層權值為W, 隱層到輸出層權值為W^T

PCA : 降維，可以用於白化（ＺＡＣ）。標準化（建均值）/求協方差矩陣（相關係數）/求矩陣的特征值和特征向量，選取特征值最大的Ｋ個向量（按列）做正交映射。

Apriori: 頻繁項集挖掘，先求1項集，然後k項集兩兩組合成k+1項集。

FP-growth: FP->Frequent Pattern, 前綴樹，條件模式基，頭鏈表。

LTR： pointwise, pairwise, listwise

EM算法：解決有隱藏變量的問題，E部求隱藏變量的當前估計值，M將似然函數最大化以獲得新的參數值。本質是基於jensen不等式設定下界，然後迭代優化。

word2vec 將詞表示成詞向量，最大化單詞的上下文平均似然log(w[t+j]|w[t]) , j ∈{-k, -k+1, …, k-1, k}

slope協同 : 已知其他人兩項的差值，可以計算自己已知項和未知項的差值。有多個差的時候，取加權平均。

協同過濾： ALS-WR， A(m*n) = U(m*k)V(n*k)^T, U是用戶矩陣，V是產品矩陣，分別固定U和V做交替最小二乘法求解。

plsa : EM算法+拉格朗日, p(w|d) = sum_z(p(w|z)p(z|d))

距離度量：cosine, 歐式（一般化範數），馬氏 (xi – xj)S^-1(xi-xj), S^-1是協方差矩陣的逆