常用机器学习算法的点睛之笔

AdaBoost：权值的作用是什么？1）对分错的样本给予更高的权值，给弱分类器的误差加权2）所有弱分类器的投票权重

SVM：超平面切割空间，支持向量距离最大化，hinge损失函数+L2正则, SGD求解

logistic回归: log(1+exp(-yW^Tx)), sigmoid函数

线性回归,最小二乘/Lasso/岭回归, SGD求解

决策树：C4.5信息增益率， CART，GINI不纯度

决策桩：只有一个分裂点的决策树，一般用于AdaBoost

朴素贝叶斯：朴素指的是特征相互独立，所以可以连乘来表示同时发生的概率。二值直接统计频率，连续值可以借助高斯分布计算概率。

Kmeans: K个中心点，最小距离，欧式距离

KNN: 找Ｋ个最近的点，KD树

高斯混合聚类：样本属于K个高斯分布的后验概率，ＥＭ算法求解，Ｅ求均值，M最大似然求解。实际求K个高斯分布的均值和方差以及每个高斯分布的比例。

SVD: 奇异值分解，矩阵分解。

SGD：梯度下降，求一阶导数，用于优化问题求解。

牛顿法：求一阶导数，xk+1 = xk – f(xk)/f'(xk)

牛顿二阶导数法：求二阶导数, xk+1 = xk – f'(xk)/f”(xk), 高维情况，需要求汉森矩阵的逆， xk+1 = xk – ∇f(xk)/∇²f(xk), 汉森矩阵[∂f/(∂xi∂xj)] i, j = 1,2, …, n

L-BFGS: 拟牛顿法的一种，近似汉森矩阵的逆，用于优化问题求解。

LDA : 潜在狄利克雷分布，EM算法求解，主题模型。

最大熵：熵最大化，天然多分类，最大熵+经验分布等于期望分布约束+概率和为1，拉格朗日乘子，GIS/IIS求解，迭代速度慢。

随机森林：每次选子集出来训练，多个模型，最后投票

提升树：

pagerank : 节点传递到下一点的权值为自身权值除以出度，节点接收的权值等于所有前驱节点的传递过来的权值之和。

反向传播算法：backpropagation, 前馈权值，反向误差, 输出层残差o(1-o)(t- o), 输入层残差h(1-h)sum_output_error, 冲量项

AutoEncoder : 稀疏，L2正则化, 输入层到隐层权值为W, 隐层到输出层权值为W^T

PCA : 降维，可以用于白化（ＺＡＣ）。标准化（建均值）/求协方差矩阵（相关系数）/求矩阵的特征值和特征向量，选取特征值最大的Ｋ个向量（按列）做正交映射。

Apriori: 频繁项集挖掘，先求1项集，然后k项集两两组合成k+1项集。

FP-growth: FP->Frequent Pattern, 前缀树，条件模式基，头链表。

LTR： pointwise, pairwise, listwise

EM算法：解决有隐藏变量的问题，E部求隐藏变量的当前估计值，M将似然函数最大化以获得新的参数值。本质是基于jensen不等式设定下界，然后迭代优化。

word2vec 将词表示成词向量，最大化单词的上下文平均似然log(w[t+j]|w[t]) , j ∈{-k, -k+1, …, k-1, k}

slope协同 : 已知其他人两项的差值，可以计算自己已知项和未知项的差值。有多个差的时候，取加权平均。

协同过滤： ALS-WR， A(m*n) = U(m*k)V(n*k)^T, U是用户矩阵，V是产品矩阵，分别固定U和V做交替最小二乘法求解。

plsa : EM算法+拉格朗日, p(w|d) = sum_z(p(w|z)p(z|d))

距离度量：cosine, 欧式（一般化范数），马氏 (xi – xj)S^-1(xi-xj), S^-1是协方差矩阵的逆