当前位置: 首页>>机器学习>>正文


常用机器学习算法的点睛之笔

AdaBoost: 权值的作用是什么?1)对分错的样本给予更高的权值,给弱分类器的误差加权2)所有弱分类器的投票权重

SVM:  超平面切割空间,支持向量距离最大化,hinge损失函数+L2正则, SGD求解

logistic回归: log(1+exp(-yWTx)), sigmoid函数

线性回归,最小二乘/Lasso/岭回归, SGD求解

决策树:C4.5信息增益率, CART,GINI不纯度

决策桩:只有一个分裂点的决策树,一般用于AdaBoost

朴素贝叶斯:朴素指的是特征相互独立,所以可以连乘来表示同时发生的概率。二值直接统计频率,连续值可以借助高斯分布计算概率。

Kmeans:  K个中心点,最小距离,欧式距离

KNN: 找K个最近的点,KD树

高斯混合聚类:样本属于K个高斯分布的后验概率,EM算法求解,E求均值,M最大似然求解。实际求K个高斯分布的均值和方差以及每个高斯分布的比例。

SVD: 奇异值分解,矩阵分解。

SGD:梯度下降,求一阶导数,用于优化问题求解。

牛顿法:求一阶导数,xk+1 = xk – f(xk)/f'(xk)

牛顿二阶导数法:求二阶导数, xk+1 = xk – f'(xk)/f”(xk), 高维情况,需要求汉森矩阵的逆, xk+1 = xk – ∇f(xk)/∇2f(xk),  汉森矩阵[∂f/(∂xi∂xj)] i, j = 1,2, …, n

L-BFGS: 拟牛顿法的一种,近似汉森矩阵的逆,用于优化问题求解。

LDA : 潜在狄利克雷分布,EM算法求解,主题模型。

最大熵:熵最大化,天然多分类,最大熵+经验分布等于期望分布约束+概率和为1,拉格朗日乘子,GIS/IIS求解,迭代速度慢。

随机森林:每次选子集出来训练,多个模型,最后投票

提升树:

pagerank :   节点传递到下一点的权值为自身权值除以出度,节点接收的权值等于所有前驱节点的传递过来的权值之和。

反向传播算法:backpropagation, 前馈权值,反向误差, 输出层残差o(1-o)(t- o),  输入层残差h(1-h)sum_output_error, 冲量项

AutoEncoder : 稀疏,L2正则化,  输入层到隐层权值为W, 隐层到输出层权值为WT

PCA : 降维,可以用于白化(ZAC)。标准化(建均值)/求协方差矩阵(相关系数)/求矩阵的特征值和特征向量,选取特征值最大的K个向量(按列)做正交映射。

Apriori: 频繁项集挖掘,先求1项集,然后k项集两两组合成k+1项集。

FP-growth: FP->Frequent Pattern, 前缀树,条件模式基,头链表。

LTR: pointwise, pairwise, listwise

EM算法:解决有隐藏变量的问题,E部求隐藏变量的当前估计值,M将似然函数最大化以获得新的参数值。本质是基于jensen不等式设定下界,然后迭代优化。

word2vec 将词表示成词向量, 最大化单词的上下文平均似然log(w[t+j]|w[t]) , j ∈{-k, -k+1, …, k-1, k}

slope协同 : 已知其他人两项的差值,可以计算自己已知项和未知项的差值。有多个差的时候,取加权平均。

协同过滤: ALS-WR, A(m*n) = U(m*k)V(n*k)T, U是用户矩阵,V是产品矩阵,分别固定U和V做交替最小二乘法求解。

143101135309093707

 

plsa : EM算法+拉格朗日, p(w|d) = sum_z(p(w|z)p(z|d))

距离度量:cosine, 欧式(一般化 范数),马氏 (xi – xj)S-1(xi-xj), S-1是协方差矩阵的逆

本文由《纯净天空》出品。文章地址: https://vimsky.com/article/755.html,未经允许,请勿转载。