[问题]多元回归转换虚拟变项

时间Sat Jan 11 01:20:25 2014

各位统计前辈好：小弟目前正在跑多元回归，但现在有几个问题想请前辈们解惑：一、间断(名义)变项转换为虚拟变项：以年龄为例：30岁以下，31-40岁，41-50岁，51岁以上目前看到的转法有两种： (1)在Dummy variables，将水准数减一，也就是4个转成3个预设参照组为51岁以上，30岁以下在dummy成不同变数过程是 1-->1 2-->0 3-->0 4-->0 ,输出名称是"年龄1" 第41-50岁那组就是 1-->0 2-->0 3-->1 4-->0，输出名称是"年龄3" 出来的资料名称也会只有三组(因为全部都0的那组就是51岁这组) (2)将四组各自分别dummy，水准数就是原本的四组也就是30岁以下在dummy成不同变数过程是 1-->1 2-->0 3-->0 4-->0 ，输出名称是"年龄1" 依此类推，51岁以上那组就是 1-->0 2-->0 3-->0 4-->1 ，输出名称是"年龄4" 我看吴明隆和陈正昌的书都是用(1)，但我不知道我这样解读是对还错? 所以想请大家解惑，到底哪一种才是对的? 二、如果跑回归，是要将所有被背景变项都丢进去吗?小弟的背景变项有8个，每一项再各自转成虚拟变项，也有20个以上不是不能跑，只是小弟在想有什麽可以事先筛选的方式以小弟研究为例，所有背景变项中，什麽性别、学历、年资在F检定时都没有显着，就只有年龄一项有达显着，这样可以再丢回归的变项时，可以假设性别、学历、年资这些没有预测力而先剔除丢入吗? (意即我只要丢入年龄的虚拟变项就好) 小弟这样的推论正确吗? (当然我知道大绝招是全部丢进去，我只是想知道一些可能筛选的依准) 另外，还有一个更窘的情况，假设真的某些虚拟变项有预测效力，如年资的其中一个虚拟变项好了，可是解释力实在很低，大约只有1%-3%，其他设定的自变项解释力远高於年资，假设是领导魅力的其中一项(关怀领导)，占了15%，那这样，年资的解释还有存在的意义吗? 以上是小弟目前深切的疑惑，望请各位先进指导~~谢谢大家 ^^~ --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 112.105.89.196

1^F：→ andrew43:第一种方法很常见，但要小心它是非正交对比。 01/11 05:39

2^F：→ andrew43:第二种方法的alpha会澎涨，於是p-value就不宜参考了。 01/11 05:41

3^F：→ andrew43:我从来没有看过用第二种方法的。不知道你哪里看到的？ 01/11 05:42

4^F：→ andrew43:第一种方法你可以查 simple contrast 得到更多资料。 01/11 05:42

5^F：→ andrew43:以上回答你第一个问题。 01/11 05:43

6^F：→ andrew43:第二个问题比较复杂，但至少和dummy variable无关。 01/11 05:44

7^F：→ andrew43:要不要采用某个因子是全有全无的，所以先不用想dummy。 01/11 05:45

8^F：→ andrew43:先检验某因子的边际效果，而不要直接就看到dummy里去。 01/11 05:46

9^F：→ andrew43:另外，都不考虑交互作用吗？你可能要想一想。 01/11 05:50

10^F：→ BugEater:Dummy variables，将水准数减一的原因是什么呢？ 01/11 06:23

11^F：→ BugEater:是因为reference category的effect是表现在intercept那里 01/11 06:23

12^F：→ BugEater:所以需要减１。如果你的model没有intercept这一项，那么 01/11 06:25

13^F：→ BugEater:你就要包括所有的水准数，当然coefficient的解释就不同了 01/11 06:25

14^F：→ BugEater:对第二个问题，放背景变量的目的是进行一定的control, 01/11 06:27

15^F：→ BugEater:如果背景变项可能没有effect，那么你可以认为无须control 01/11 06:29

16^F：→ BugEater:所以放不放要取决于你的研究hypothesis是如何表述的 01/11 06:31

17^F：推 andrew43:BugEater说的没错。我倒没想过你可能没有截距项。 01/11 07:18

18^F：→ andrew43:但如果超过一个因子在模型里，那也只有一个因子能这样做 01/11 07:24

19^F：→ andrew43:而且没有截距项在解释上往往有困难，且检验的H0也不同。 01/11 07:26

20^F：推 BugEater:是，当多于一个因子时候会变复杂，用dummy就好。 01/11 08:06

21^F：→ chanmer:感谢各位大大虽然小弟功力尚浅但是获益良多有了指点 01/11 14:51

22^F：→ chanmer:大概有了些头绪像TWO-WAY ANOVA等真的很谢谢大家解惑 01/11 14:52

23^F：→ yhliu:第一种方法就是4组只取3个 dummy, 第2种方法是有几组就取几 01/11 21:00

24^F：→ yhliu:个 dummy. 第2法的4个 dummy 加起来是常数 1, 也就是说会和 01/11 21:01

25^F：→ yhliu:常数项重叠, 或术语说是 "完全线性重合". 因此, 类别变数取 01/11 21:02

26^F：→ yhliu:dummy 时是少一个, 也就是第1法. 01/11 21:02

27^F：→ yhliu:第2个问题基本上是模型选择问题. 与简单数值变数不同的是: 01/11 21:03

28^F：→ yhliu:一个类别解释变数对应多个 dummy, 因此在利用软体执行时需要 01/11 21:04

29^F：→ yhliu:该软体能直接处理类别解释变数. 像这样的软体通常也会自动建 01/11 21:05

30^F：→ yhliu:立虚拟变数. 01/11 21:06

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Statistics 板

[问题]多元回归转换虚拟变项

热门看板

赞助商连结