作者cawaiilulu (across)
看板Statistics
標題[問題] 變項轉換IV值
時間Thu Sep 4 10:51:06 2014
我用了一個可算informaiton value的package
某變項IV顯著 但把此變項轉成catgorical的7個變項 完全不顯著
data set中有一個變項是income 是用數字表示順序性的範圍
ex: 1:20K-25K 2:26K-35K 3:....... 7:200K以上
變項是 income_level IV值顯著
如果把變項轉換成 income_1 ....income_7 7個變項 沒有一個變項IV顯著
請問為甚麼會有這種現像呢?
究竟income可採納嗎?
我目前是姑且相信它可採納 但是我使用轉換後的7個變項進行預測
這樣的作法會有問題嗎? (apply 到一個logistic的model)
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.210.58.35
※ 文章網址: http://webptt.com/m.aspx?n=bbs/Statistics/M.1409799069.A.4FC.html
1F:推 onionsteven: 也是淺見:把資料做了類別轉換 喪失了部分資訊 所以 09/04 17:19
2F:→ onionsteven: 檢定結果變成不顯著 09/04 17:20
3F:→ yhliu: 樓上說的不對. 其原始資料本就是分組碼. 09/05 16:54
4F:→ yhliu: 先不管顯著性, 把用類別變項配適得到的 effect 與各類別的 09/05 16:56
5F:→ yhliu: 關係圖示, 看是否與所代表的值大致是直線關係, 如是的話, 09/05 16:56
6F:→ yhliu: 將各類別轉成代表 income 數值的指標, 然後以此指標為模型 09/05 16:59
7F:→ yhliu: 之解釋變數. 09/05 16:59
8F:→ yhliu: 會發生所問現象, 可能基本上 income 的效應是簡單趨勢, 而 09/05 17:01
9F:→ yhliu: 用類別變數, 7類佔用了6個自由度. 想像 income 的總效應被 09/05 17:02
10F:→ yhliu: 6個自由度分享, 每個自由度平均的 effect 當然比較不容易顯 09/05 17:03
11F:→ yhliu: 著. 而如果趨勢是直線的, 大部分效應歸屬於這個直線趨勢, 09/05 17:04
12F:→ yhliu: 是比較容易達到統計顯著性的. 09/05 17:04
13F:→ lynnctc: 如上所述, 可減少組別試試看 09/05 23:29
謝謝大家分享指教
※ 編輯: cawaiilulu (24.210.58.35), 09/08/2014 03:08:44