虚拟变量和虚拟编码

虚拟变量和虚拟编码

        我们在做特征工程时,往往会遇到这样的情况:数据集里有个特征叫做“职业”,新手在做特征工程的时候往往会这样设计:把职业做成一个特征变量,然后赋值表示学生表示公务员表示工程师等等。这种分类方法,从术语上叫作“名义变量”Nominal Variabl)。从阅读的角度并没有错,在做机器学习的时候貌似也能起到不错的效果。但是这样做是否足够好?

        如果你的学习器是个多线性回归问题,你的模型是...