作者yun611 (芸芸)
看板R_Language
標題[問題] categorical & continuous variable
時間Sat Aug 27 00:18:06 2016
之前在做project的時候
沒有多想就沒有把分類變量設成factor
所以在做變量選擇和建立模型的時候
都是把分類變量默認成continuous
像是Race分成5種(1.2.3.4.5用這五個數字代替)
但是因為現在所剩時間不多...
所以可能沒辦法再從頭改整個data mining過程
如果直接默認成continuous做出來的結果是可以的嗎?
會不會有很大的問題出現...
查了一些國內國外資訊
沒有特別講到這塊
然後好像也有人是直接就默認成continuous
想問版上各位強者有什麼想法?
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 130.88.240.81
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1472228289.A.B8A.html
※ 編輯: yun611 (31.205.91.208), 08/27/2016 01:18:59
※ 編輯: yun611 (31.205.91.208), 08/27/2016 01:19:30
1F:推 andrew43: 非常不恰當,建議還是轉factor。 08/27 18:20
2F:→ yun611: 請問一下轉factor之後,有哪些方法可以用來 08/27 18:46
3F:→ yun611: variable selection的嗎?大多數找到都是continuous情況的 08/27 18:47
4F:→ yun611: 有查過group lasso但是一直做不出來..... 08/27 18:47
5F:→ yun611: 或是說在有dummy的情況下,有沒有什麼選擇變量的原則? 08/27 19:15
6F:→ andrew43: 我不熟lasso,但建議你先給一段具體的程式碼請再大家修 08/27 20:34
7F:→ andrew43: 至少要知道你用什麼function之類的,不然難回應。 08/27 20:34
8F:→ Wush978: continuous的變數在處理時常常假設 1與2的差距和2與3相同 08/30 00:45
9F:→ Wush978: 所以以race為例,如果你設定為continuous很容易處理時出 08/30 00:45
10F:→ Wush978: 問題 08/30 00:45
11F:→ Wush978: factor的缺點在資料量不夠時,會有模型不穩定的問題 08/30 00:46
12F:→ Wush978: 但是通常作法是小類合併成大類,而非轉成continuous 08/30 00:46
13F:→ Wush978: 你必須要確保我剛剛講的假設是正確的,才用continuous處 08/30 00:46
14F:推 Wush978: 理會比較好 08/30 00:46