作者lovealllive (檬檬果)
看板Statistics
標題[問題] 虛擬變項問題
時間Sat Jan 3 21:37:48 2015
各位高手您好
想請教一下,一些統計書上說在跑分析時,
所需要的樣本數通常為變項數量*10
那在做虛擬變項時,會把變項分成變成K-1個,
像性別可能沒問題,因為2-1個,還是一個變項
但像是年齡,可能會分成二個或三個變項,
那這時所需的樣本數是否也要增加?
統計基礎不強請包含。。。
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.89.166
※ 文章網址: http://webptt.com/m.aspx?n=bbs/Statistics/M.1420292271.A.096.html
1F:推 goshfju: 你解釋變數太多 可能就對導致自由度不夠扣 01/03 23:54
2F:→ ethan0970: 你增加的是變數不是觀測值 01/04 20:20
3F:→ ethan0970: 切的越細只是橫的變量增加,與直向的觀測值無關 01/04 20:22
4F:→ ethan0970: 還有切太多要考量過度擬合的問題 01/04 20:23
5F:→ yhliu: 類別解釋變數分類多, 當然要相應地增加樣本數. 01/05 08:52
6F:→ yhliu: 以迴歸模型 n = 變項數*10 的 rule of thumb 而言, 若解釋 01/05 08:53
7F:→ yhliu: 變項是類別的, 那麼參考準則的 "變項數" 是指虛擬變項個數. 01/05 08:55
8F:→ yhliu: 不過, 除了總樣本數之考慮外, 還有樣本數在分類變項各分類 01/05 08:56
9F:→ yhliu: 之分配型態要考慮. 如果某一解釋變項之某一分類樣本數太少, 01/05 08:56
10F:→ yhliu: 也會產生一些不好的結果. 01/05 08:57