作者hexjacal (黑麻糬)
看板Statistics
标题[问题] R-数值 & 类别变数混合回归
时间Wed Nov 5 19:13:48 2014
各位版大平安,小弟有些类别变数回归的问题
小弟有 40 笔对於家庭耗电量的资料,每笔资料含有
一个依变数:耗电量
三个自变数:
1. 当日气温 Temp (连续数值资料)
2. 该家庭的人数 NPeople (离散数值资料 1~8)
3. 该家庭的综合指数指标 Home (坪数、楼层、收入等,类别变数资料,编码 1~5)
================================ 法一 =============================
我先使用 Dummy variable 以综合指标=1 的为基准
做 Home=2~5 的 0,1 编码,变数为 D1~D4
直觉上 Temp 与 Home 变数没交互作用,所以我考虑 NPeople & Dummy 的交互作用
跑 Rcode 如下
model.1=lm(EC~Temp+NPeople*(D1+D2+D3+D4))
summary(model.1)
Call:
lm(formula = EC ~ Temp + NPeople * (D1 + D2 + D3 + D4))
Residuals:
Min 1Q Median 3Q Max
-169.87 -41.89 -14.33 39.70 157.56
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -381.67754 121.13553 -3.151 0.003761 **
Temp 0.27810 0.04011 6.933 1.28e-07 ***
NPeople 50.92800 22.32545 2.281 0.030067 *
D1 303.96626 134.06259 2.267 0.030999 *
D2 493.61280 158.77994 3.109 0.004184 **
D3 833.86495 209.62244 3.978 0.000425 ***
D4 665.27769 153.25152 4.341 0.000157 ***
NPeople:D1 -31.43522 27.99453 -1.123 0.270688
NPeople:D2 -59.75671 35.05763 -1.705 0.098975 .
NPeople:D3 -107.25406 42.48099 -2.525 0.017304 *
NPeople:D4 -68.95722 32.23289 -2.139 0.040954 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 79.35 on 29 degrees of freedom
Multiple R-squared: 0.8501, Adjusted R-squared: 0.7984
F-statistic: 16.44 on 10 and 29 DF, p-value: 2.119e-09
报表如上,NPeople:D1 交互不显着,但这不能拿掉吧? 拿掉=拿掉整个变数?
看到这个报表突然不晓得要怎麽往下做,想请问版大们有何建议
========================= 法二 =================================
之後自己上 youtube 看了一个 ANCOVA 影片教学
Home=as.factor(Home)
mod.IA=aov(EC~Temp+NPeople*Home,contrasts=list(Home=contr.sum))
Anova(mod.IA,type=3)
Anova Table (Type III tests)
Response: EC
Sum Sq Df F value Pr(>F)
(Intercept) 7654 1 1.2158 0.2792569
Temp 302615 1 48.0664 1.278e-07 ***
NPeople 266 1 0.0423 0.8384794
Home 173958 4 6.9077 0.0004927 ***
NPeople:Home 56055 4 2.2259 0.0907737 .
Residuals 182577 29
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
报表如上,影片说是 Type III SSE, dummy 编码与法一不同,是比较好吗?
法二的报表可以说 NPeople & Npeople:Home 都不显着,最後只留 Temp + Home 吗?
因为这部份在课堂上真的听的雾飒飒,不晓得哪个比较正确
以前还听过主效应如果不显着,一般不考虑交互作用,是正确的吗? 还是我记错了...
想请问各位版大,以上报表该如何挑选及解释变数,谢谢各位。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.252.232.220
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Statistics/M.1415186031.A.033.html
1F:→ andrew43: 方法一里要不要删变数,从回归式的解来看很难辨别。 11/06 03:43
2F:→ andrew43: 可能是还由ANOVA的角度才能决定。 11/06 03:43
3F:→ andrew43: 方法二如果要删,一次删一个并检视之,不要一次二个。 11/06 03:48
4F:→ andrew43: 「主效应如果不显着,一般不考虑交互作用」没这回事。 11/06 03:49
5F:→ andrew43: 想想「长得像一个叉叉」的二因子交互作用图。 11/06 03:50
6F:→ andrew43: 补充:方法二的交互作用并不是很弱。要拿掉可能要再考虑 11/06 03:57
7F:→ hexjacal: 感谢A大提供的宝贵意见~ 11/06 09:28