作者yun611 (芸芸)
看板R_Language
标题[问题] Variable selection
时间Fri Aug 26 18:08:06 2016
小妹现在正在做data mining相关的project
但是遇到一个问题
我的data里面有categorical 和numeric variable
如果是在回归里
我知道要把分类变量转换成factor
然後回归会帮我跑出dummy variables来解释结果
但是如果是用lasso在variable selection这个步骤的时候
分类变量要怎麽去解读呢?
(因为可能变量选择完後,部分dummy variable有系数部分没有)
另外如果是要分析这样的数据集,
是不是只有特定的variable selection方法才能做?
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 31.205.91.208
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1472206089.A.3D1.html
1F:→ JX660: 以4类3栏设成dummy的变数为例 应该是视为一个变数来看 08/26 18:46
2F:→ JX660: 所以只有三栏全拿掉或三栏全加入两种 就算有一栏的系数是0 08/26 18:48
3F:→ yun611: 那要怎麽决定全拿掉还是全留下呢? 08/26 18:57
4F:→ yun611: 如果全留下的话,建立模型的时候要用原始变量 08/26 18:59
5F:→ yun611: 还是dummy variable来做预测? 08/26 18:59
6F:→ celestialgod: 用group lasso 08/26 20:03
7F:→ yun611: 能不能把变量当成continuous做变量选择後 08/26 22:12
8F:→ yun611: 建立模型的时候再把分类变量设成factor 08/26 22:13