作者lovealllive (檬檬果)
看板Statistics
标题[问题] 虚拟变项问题
时间Sat Jan 3 21:37:48 2015
各位高手您好
想请教一下,一些统计书上说在跑分析时,
所需要的样本数通常为变项数量*10
那在做虚拟变项时,会把变项分成变成K-1个,
像性别可能没问题,因为2-1个,还是一个变项
但像是年龄,可能会分成二个或三个变项,
那这时所需的样本数是否也要增加?
统计基础不强请包含。。。
感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.89.166
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Statistics/M.1420292271.A.096.html
1F:推 goshfju: 你解释变数太多 可能就对导致自由度不够扣 01/03 23:54
2F:→ ethan0970: 你增加的是变数不是观测值 01/04 20:20
3F:→ ethan0970: 切的越细只是横的变量增加,与直向的观测值无关 01/04 20:22
4F:→ ethan0970: 还有切太多要考量过度拟合的问题 01/04 20:23
5F:→ yhliu: 类别解释变数分类多, 当然要相应地增加样本数. 01/05 08:52
6F:→ yhliu: 以回归模型 n = 变项数*10 的 rule of thumb 而言, 若解释 01/05 08:53
7F:→ yhliu: 变项是类别的, 那麽参考准则的 "变项数" 是指虚拟变项个数. 01/05 08:55
8F:→ yhliu: 不过, 除了总样本数之考虑外, 还有样本数在分类变项各分类 01/05 08:56
9F:→ yhliu: 之分配型态要考虑. 如果某一解释变项之某一分类样本数太少, 01/05 08:56
10F:→ yhliu: 也会产生一些不好的结果. 01/05 08:57