虚拟变量和虚拟编码

虚拟变量和虚拟编码

        我们在做特征工程时,往往会遇到这样的情况:数据集里有个特征叫做“职业”,新手在做特征工程的时候往往会这样设计:把职业做成一个特征变量,然后赋值表示学生表示公务员表示工程师等等。这种分类方法,从术语上叫作“名义变量”Nominal Variabl)。从阅读的角度并没有错,在做机器学习的时候貌似也能起到不错的效果。但是这样做是否足够好?

        如果你的学习器是个多线性回归问题,你的模型是...

GBDT

GBD

1.前言

网上的GBD教程很多,但基本都是举一些具体的例子演示一下算法的流程。对于原理往往给个Pape的地址叫自己看,我又搜了下Gradient Boostin和梯度增强才知道为什么,恩根本没有Gradient Boostin的中文教程。自己动手丰衣足食吧。

.

2.梯度增强

GBDGradient Boosting Decision Tre)叫做梯度增强决策树。看到眼熟的Boostin...

Adaboost

AdaBoos

1.前言最近在学习Adaboos,看了不少大神的博文,也有算法执行的演练,但比较偏应用,有些地方没有解释就直接蹦出个公式套用,所以自己硬着头皮重新推导一遍。希望大神帮忙指出错误。AdaBoost(Adaptive Boosting,中文叫做“自适应增强”,是boos集成学习的一种实现方式。AdaBoos是一种迭代算法,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率。每一个训练样本都被赋予一个权重,表明它被某个分 类器选入训练集的概率。如果某个样本点已经被准确地分类,那么在...

ROC和AUC

在机器学习中,通常利用ROC和AUC分析二分类性能。其基本原理是通过ROC绘制一条曲线(左下角原点向上方或右上方绘制,越向右绘制表示分类性能越差,越向上绘制表示分类性能越好),然后通过AUC计算曲线右下方空间的面积,面积越大代表分类器性能越好。即曲线与Y轴重叠,面积可达到最大,性能达到100%正确率;反之如果与X轴重叠,则面积为0,分类正确率也为0。详细内容可以看:http://blog.csdn...

全局最优解算法

在计算最优解时,如果是非凸函数,往往会遇到局部最优解和全局最优解的问题,常用的梯度下降算法(Gradient Descent)和爬山算法(Hill Climbing)由于是贪心算法,往往算出来的是局部最优解,那么怎么达到全局最优解?1.模拟退火算法(Simulated Annealing或SA):简单说就是以一定概率跳出当前最优解继续搜索全局最优解,这个概率会随着时间的增加而降低,以达到趋于稳定,...