作者chanmer (client center)
看板Statistics
标题[问题]多元回归转换虚拟变项
时间Sat Jan 11 01:20:25 2014
各位统计前辈好:
小弟目前正在跑多元回归,但现在有几个问题想请前辈们解惑:
一、间断(名义)变项转换为虚拟变项:
以年龄为例:30岁以下,31-40岁,41-50岁,51岁以上
目前看到的转法有两种:
(1)在Dummy variables,将水准数减一,也就是4个转成3个
预设参照组为51岁以上,30岁以下在dummy成不同变数过程是
1-->1 2-->0 3-->0 4-->0 ,输出名称是"年龄1"
第41-50岁那组就是
1-->0 2-->0 3-->1 4-->0,输出名称是"年龄3"
出来的资料名称也会只有三组(因为全部都0的那组就是51岁这组)
(2)将四组各自分别dummy,水准数就是原本的四组
也就是30岁以下在dummy成不同变数过程是
1-->1 2-->0 3-->0 4-->0 ,输出名称是"年龄1"
依此类推,51岁以上那组就是
1-->0 2-->0 3-->0 4-->1 ,输出名称是"年龄4"
我看吴明隆和陈正昌的书都是用(1),但我不知道我这样解读是对还错?
所以想请大家解惑,到底哪一种才是对的?
二、如果跑回归,是要将所有被背景变项都丢进去吗?小弟的背景变项有8个,
每一项再各自转成虚拟变项,也有20个以上
不是不能跑,只是小弟在想有什麽可以事先筛选的方式
以小弟研究为例,所有背景变项中,什麽性别、学历、年资
在F检定时都没有显着,
就只有年龄一项有达显着,
这样可以再丢回归的变项时,可以假设性别、学历、年资
这些没有预测力而先剔除丢入吗?
(意即我只要丢入年龄的虚拟变项就好)
小弟这样的推论正确吗? (当然我知道大绝招是全部丢进去,
我只是想知道一些可能筛选的依准)
另外,还有一个更窘的情况,假设真的某些虚拟变项有预测效力,
如年资的其中一个虚拟变项好了,可是解释力实在很低,
大约只有1%-3%,其他设定的自变项解释力远高於年资,
假设是领导魅力的其中一项(关怀领导),占了15%,
那这样,年资的解释还有存在的意义吗?
以上是小弟目前深切的疑惑,望请各位先进指导~~谢谢大家 ^^~
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 112.105.89.196
1F:→ andrew43:第一种方法很常见,但要小心它是非正交对比。 01/11 05:39
2F:→ andrew43:第二种方法的alpha会澎涨,於是p-value就不宜参考了。 01/11 05:41
3F:→ andrew43:我从来没有看过用第二种方法的。不知道你哪里看到的? 01/11 05:42
4F:→ andrew43:第一种方法你可以查 simple contrast 得到更多资料。 01/11 05:42
5F:→ andrew43:以上回答你第一个问题。 01/11 05:43
6F:→ andrew43:第二个问题比较复杂,但至少和dummy variable无关。 01/11 05:44
7F:→ andrew43:要不要采用某个因子是全有全无的,所以先不用想dummy。 01/11 05:45
8F:→ andrew43:先检验某因子的边际效果,而不要直接就看到dummy里去。 01/11 05:46
9F:→ andrew43:另外,都不考虑交互作用吗?你可能要想一想。 01/11 05:50
10F:→ BugEater:Dummy variables,将水准数减一的原因是什么呢? 01/11 06:23
11F:→ BugEater:是因为reference category的effect是表现在intercept那里 01/11 06:23
12F:→ BugEater:所以需要减1。如果你的model没有intercept这一项,那么 01/11 06:25
13F:→ BugEater:你就要包括所有的水准数,当然coefficient的解释就不同了 01/11 06:25
14F:→ BugEater:对第二个问题,放背景变量的目的是进行一定的control, 01/11 06:27
15F:→ BugEater:如果背景变项可能没有effect,那么你可以认为无须control 01/11 06:29
16F:→ BugEater:所以放不放要取决于你的研究hypothesis是如何表述的 01/11 06:31
17F:推 andrew43:BugEater说的没错。我倒没想过你可能没有截距项。 01/11 07:18
18F:→ andrew43:但如果超过一个因子在模型里,那也只有一个因子能这样做 01/11 07:24
19F:→ andrew43:而且没有截距项在解释上往往有困难,且检验的H0也不同。 01/11 07:26
20F:推 BugEater:是,当多于一个因子时候会变复杂,用dummy就好。 01/11 08:06
21F:→ chanmer:感谢各位大大 虽然小弟功力尚浅 但是获益良多 有了指点 01/11 14:51
22F:→ chanmer:大概有了些头绪 像TWO-WAY ANOVA等 真的很谢谢大家解惑 01/11 14:52
23F:→ yhliu:第一种方法就是4组只取3个 dummy, 第2种方法是有几组就取几 01/11 21:00
24F:→ yhliu:个 dummy. 第2法的4个 dummy 加起来是常数 1, 也就是说会和 01/11 21:01
25F:→ yhliu:常数项重叠, 或术语说是 "完全线性重合". 因此, 类别变数取 01/11 21:02
26F:→ yhliu:dummy 时是少一个, 也就是第1法. 01/11 21:02
27F:→ yhliu:第2个问题基本上是模型选择问题. 与简单数值变数不同的是: 01/11 21:03
28F:→ yhliu:一个类别解释变数对应多个 dummy, 因此在利用软体执行时需要 01/11 21:04
29F:→ yhliu:该软体能直接处理类别解释变数. 像这样的软体通常也会自动建 01/11 21:05
30F:→ yhliu:立虚拟变数. 01/11 21:06