AdaBoost: 权值的作用是什么?1)对分错的样本给予更高的权值,给弱分类器的误差加权2)所有弱分类器的投票权重
SVM: 超平面切割空间,支持向量距离最大化,hinge损失函数+L2正则, SGD求解
logistic回归: log(1+exp(-yWTx)), sigmoid函数
线性回归,最小二乘/Lasso/岭回归, SGD求解
决策树:C4.5信息增益率, CART,GINI不纯度
决策桩:只有一个分裂点的决策树,一般用于AdaBoost
朴素贝叶斯:朴素指的是特征相互独立,所以可以连乘来表示同时发生的概率。二值直接统计频率,连续值可以借助高斯分布计算概率。
Kmeans: K个中心点,最小距离,欧式距离
KNN: 找K个最近的点,KD树
高斯混合聚类:样本属于K个高斯分布的后验概率,EM算法求解,E求均值,M最大似然求解。实际求K个高斯分布的均值和方差以及每个高斯分布的比例。
SVD: 奇异值分解,矩阵分解。
SGD:梯度下降,求一阶导数,用于优化问题求解。
牛顿法:求一阶导数,xk+1 = xk – f(xk)/f'(xk)
牛顿二阶导数法:求二阶导数, xk+1 = xk – f'(xk)/f”(xk), 高维情况,需要求汉森矩阵的逆, xk+1 = xk – ∇f(xk)/∇2f(xk), 汉森矩阵[∂f/(∂xi∂xj)] i, j = 1,2, …, n
L-BFGS: 拟牛顿法的一种,近似汉森矩阵的逆,用于优化问题求解。
LDA : 潜在狄利克雷分布,EM算法求解,主题模型。
最大熵:熵最大化,天然多分类,最大熵+经验分布等于期望分布约束+概率和为1,拉格朗日乘子,GIS/IIS求解,迭代速度慢。
随机森林:每次选子集出来训练,多个模型,最后投票
提升树:
pagerank : 节点传递到下一点的权值为自身权值除以出度,节点接收的权值等于所有前驱节点的传递过来的权值之和。
反向传播算法:backpropagation, 前馈权值,反向误差, 输出层残差o(1-o)(t- o), 输入层残差h(1-h)sum_output_error, 冲量项
AutoEncoder : 稀疏,L2正则化, 输入层到隐层权值为W, 隐层到输出层权值为WT
PCA : 降维,可以用于白化(ZAC)。标准化(建均值)/求协方差矩阵(相关系数)/求矩阵的特征值和特征向量,选取特征值最大的K个向量(按列)做正交映射。
Apriori: 频繁项集挖掘,先求1项集,然后k项集两两组合成k+1项集。
FP-growth: FP->Frequent Pattern, 前缀树,条件模式基,头链表。
LTR: pointwise, pairwise, listwise
EM算法:解决有隐藏变量的问题,E部求隐藏变量的当前估计值,M将似然函数最大化以获得新的参数值。本质是基于jensen不等式设定下界,然后迭代优化。
word2vec 将词表示成词向量, 最大化单词的上下文平均似然log(w[t+j]|w[t]) , j ∈{-k, -k+1, …, k-1, k}
slope协同 : 已知其他人两项的差值,可以计算自己已知项和未知项的差值。有多个差的时候,取加权平均。
协同过滤: ALS-WR, A(m*n) = U(m*k)V(n*k)T, U是用户矩阵,V是产品矩阵,分别固定U和V做交替最小二乘法求解。
plsa : EM算法+拉格朗日, p(w|d) = sum_z(p(w|z)p(z|d))
距离度量:cosine, 欧式(一般化 范数),马氏 (xi – xj)S-1(xi-xj), S-1是协方差矩阵的逆