AdaBoost: 權值的作用是什麽?1)對分錯的樣本給予更高的權值,給弱分類器的誤差加權2)所有弱分類器的投票權重
SVM: 超平麵切割空間,支持向量距離最大化,hinge損失函數+L2正則, SGD求解
logistic回歸: log(1+exp(-yWTx)), sigmoid函數
線性回歸,最小二乘/Lasso/嶺回歸, SGD求解
決策樹:C4.5信息增益率, CART,GINI不純度
決策樁:隻有一個分裂點的決策樹,一般用於AdaBoost
樸素貝葉斯:樸素指的是特征相互獨立,所以可以連乘來表示同時發生的概率。二值直接統計頻率,連續值可以借助高斯分布計算概率。
Kmeans: K個中心點,最小距離,歐式距離
KNN: 找K個最近的點,KD樹
高斯混合聚類:樣本屬於K個高斯分布的後驗概率,EM算法求解,E求均值,M最大似然求解。實際求K個高斯分布的均值和方差以及每個高斯分布的比例。
SVD: 奇異值分解,矩陣分解。
SGD:梯度下降,求一階導數,用於優化問題求解。
牛頓法:求一階導數,xk+1 = xk – f(xk)/f'(xk)
牛頓二階導數法:求二階導數, xk+1 = xk – f'(xk)/f”(xk), 高維情況,需要求漢森矩陣的逆, xk+1 = xk – ∇f(xk)/∇2f(xk), 漢森矩陣[∂f/(∂xi∂xj)] i, j = 1,2, …, n
L-BFGS: 擬牛頓法的一種,近似漢森矩陣的逆,用於優化問題求解。
LDA : 潛在狄利克雷分布,EM算法求解,主題模型。
最大熵:熵最大化,天然多分類,最大熵+經驗分布等於期望分布約束+概率和為1,拉格朗日乘子,GIS/IIS求解,迭代速度慢。
隨機森林:每次選子集出來訓練,多個模型,最後投票
提升樹:
pagerank : 節點傳遞到下一點的權值為自身權值除以出度,節點接收的權值等於所有前驅節點的傳遞過來的權值之和。
反向傳播算法:backpropagation, 前饋權值,反向誤差, 輸出層殘差o(1-o)(t- o), 輸入層殘差h(1-h)sum_output_error, 衝量項
AutoEncoder : 稀疏,L2正則化, 輸入層到隱層權值為W, 隱層到輸出層權值為WT
PCA : 降維,可以用於白化(ZAC)。標準化(建均值)/求協方差矩陣(相關係數)/求矩陣的特征值和特征向量,選取特征值最大的K個向量(按列)做正交映射。
Apriori: 頻繁項集挖掘,先求1項集,然後k項集兩兩組合成k+1項集。
FP-growth: FP->Frequent Pattern, 前綴樹,條件模式基,頭鏈表。
LTR: pointwise, pairwise, listwise
EM算法:解決有隱藏變量的問題,E部求隱藏變量的當前估計值,M將似然函數最大化以獲得新的參數值。本質是基於jensen不等式設定下界,然後迭代優化。
word2vec 將詞表示成詞向量, 最大化單詞的上下文平均似然log(w[t+j]|w[t]) , j ∈{-k, -k+1, …, k-1, k}
slope協同 : 已知其他人兩項的差值,可以計算自己已知項和未知項的差值。有多個差的時候,取加權平均。
協同過濾: ALS-WR, A(m*n) = U(m*k)V(n*k)T, U是用戶矩陣,V是產品矩陣,分別固定U和V做交替最小二乘法求解。
plsa : EM算法+拉格朗日, p(w|d) = sum_z(p(w|z)p(z|d))
距離度量:cosine, 歐式(一般化 範數),馬氏 (xi – xj)S-1(xi-xj), S-1是協方差矩陣的逆