作者Cleria (^^)
看板Statistics
标题[程式] SPSS logistic回归模式问题
时间Tue Jun 2 20:18:52 2015
[软体程式类别]:SPSS
[程式问题]: multivariate logistic regression
[软体熟悉度]:
新手(不到1个月)
[问题叙述]:
我是SPSS的超级新手,在图书馆里面翻了很久也查了很多网路上的资料,也爬过文,
但还是无法解决问题,
恳求热心的大家帮忙解惑, 或者推荐我相关书籍自行研究,万分感谢!!!
在做multivariate logistic regression的时候,
我感兴趣的IV,有时候会得到与univariate regression完全相反的结果
例如 我想要看
胖的人(类别变项, IV) 是否比较容易有
肝功能异常(类别变项, DV)
单变项回归的时候:
肥胖, 年龄, 性别, 血压, 血糖值 这些IV的odds ratio都显着大於1
多变项回归的时候:
肥胖(类别) + 年龄 + 高血压有无 (类别) 放入模型 --> 肥胖的 OR 1.2
肥胖(类别) + 年龄 + 血压 (连续) --> 肥胖的 OR 0.7
肥胖(类别) + 年龄 + 血压 (连续) + 高血糖(类别) --> 肥胖的 OR 0.9
ps. 这些模型都有符合Omnibus <0.05, hosmer and lemeshow test >0.05
类别变项我都有使用Dummy variable
受检者超过一万人,可以排除样本数过少的问题
疑问:
(1) 光是把 "血压(连续变项)" 改成 "高血压有无(类别变项)",
就得到完全相反的结果(肥胖的OR <1 变成 OR >1)...不知道是怎麽一回事 ??
要怎麽判断哪个模型才是真正适合的呢?
(查不到如何用SPSS判断哪个模型比较好,不知道是不是SPSS没有内建这个功能??)
(2) 如果在单变项分析时 OR >1,在多变项分析的时候OR却<1,
以下的解读是否正确:
虽然在单变项分析的时候,看出肥胖者的风险比较高
但在校正其他变项的影响之後,肥胖反而可以降低风险 (感觉怪怪的)
(3) 看了很多网路上的资料,猜测可能是IV之间共线性所导致的问题
肥胖和血压(连续)的相关系数约0.3,
肥胖和高血压有无(类别)的相关系数约2.6
只查的到用SAS来算Tolerance/VIF的方法,不知道SPSS有没有办法诊断共线性?
(4) 我就是特别想要看肥胖和血压这两个IV对DV的影响,不希望删除其中一个
而且看到很多医学论文都会把一堆高度相关的IV一起放进
multivariate logistic regression model中,
这样不是会造成模式的共线性问题吗?? (百思不得其解)
实在太多疑问,再次感谢大家
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.192.61.104
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1433247535.A.1EE.html
※ 编辑: Cleria (123.192.61.104), 06/02/2015 21:26:54
1F:推 evilove: 你在spss跑一般线性回归就可以诊断共线性。 06/02 21:55
感谢!! ~不好意思想再请教一下,有爬过您的文,您之前也有在推文提过可以用线性回归
做简单的估计
但是意思是指,直接把我的DV和IV丢进线性回归模型里面去估算,不用管他们是连续或类
别变项吗?
因为我照这样跑出来的结果VIF都只有1点多
不确定是真的没有共线性问题,还是我误解了这边的做法
2F:→ andrew43: 检查共线性。另外,multivariate是别的意思,明显用错字 06/02 22:02
3F:→ andrew43: 那些不好好做模型诊断的paper不表示它是对的。 06/02 22:04
4F:→ andrew43: 题外话:肥胖只是二类别好像有点太简单了。没有连续资料 06/02 22:15
5F:→ andrew43: 可以分析吗(像BMI之类的)。 06/02 22:16
我的"肥胖"的确是使用BMI来判定,
BMI已经有大家公认的切点,所以想要分成肥胖与非肥胖两组来比较
另外也是因为看到很多医学期刊的做法是这样的:
如果DV是类别变项,就把IV也都转换成类别变项来跑logistic regression
只是很直觉的想法,倒是没有想到这样会把连续变项降阶使用 orz
我会再试试看用连续变项来分析~谢谢您的热心提醒!!
※ 编辑: Cleria (42.72.245.21), 06/03/2015 01:29:40