作者cawaiilulu (across)
看板Statistics
标题[问题] 变项转换IV值
时间Thu Sep 4 10:51:06 2014
我用了一个可算informaiton value的package
某变项IV显着 但把此变项转成catgorical的7个变项 完全不显着
data set中有一个变项是income 是用数字表示顺序性的范围
ex: 1:20K-25K 2:26K-35K 3:....... 7:200K以上
变项是 income_level IV值显着
如果把变项转换成 income_1 ....income_7 7个变项 没有一个变项IV显着
请问为甚麽会有这种现像呢?
究竟income可采纳吗?
我目前是姑且相信它可采纳 但是我使用转换後的7个变项进行预测
这样的作法会有问题吗? (apply 到一个logistic的model)
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 24.210.58.35
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Statistics/M.1409799069.A.4FC.html
1F:推 onionsteven: 也是浅见:把资料做了类别转换 丧失了部分资讯 所以 09/04 17:19
2F:→ onionsteven: 检定结果变成不显着 09/04 17:20
3F:→ yhliu: 楼上说的不对. 其原始资料本就是分组码. 09/05 16:54
4F:→ yhliu: 先不管显着性, 把用类别变项配适得到的 effect 与各类别的 09/05 16:56
5F:→ yhliu: 关系图示, 看是否与所代表的值大致是直线关系, 如是的话, 09/05 16:56
6F:→ yhliu: 将各类别转成代表 income 数值的指标, 然後以此指标为模型 09/05 16:59
7F:→ yhliu: 之解释变数. 09/05 16:59
8F:→ yhliu: 会发生所问现象, 可能基本上 income 的效应是简单趋势, 而 09/05 17:01
9F:→ yhliu: 用类别变数, 7类占用了6个自由度. 想像 income 的总效应被 09/05 17:02
10F:→ yhliu: 6个自由度分享, 每个自由度平均的 effect 当然比较不容易显 09/05 17:03
11F:→ yhliu: 着. 而如果趋势是直线的, 大部分效应归属於这个直线趋势, 09/05 17:04
12F:→ yhliu: 是比较容易达到统计显着性的. 09/05 17:04
13F:→ lynnctc: 如上所述, 可减少组别试试看 09/05 23:29
谢谢大家分享指教
※ 编辑: cawaiilulu (24.210.58.35), 09/08/2014 03:08:44