作者mushiue (mushiue)
看板NCHU-AE98
标题[讨论] 一些可能会遇到的模型处理方法
时间Fri Nov 19 09:10:57 2010
http://lms.ctl.cyut.edu.tw/sys/read_attach.php?id=432151
附上转贴档案网址
主要还是在找共线性的时候找到的介绍
可以把下面这些中文假想成一年级上过的计量好读版
步骤一
遗漏值处理
1. 遗漏值或不完全资料为量化研究中,最容易出现且具干扰结果分析的一个问题
2. 遗漏值发生原因:作答过程疏忽、题意不明漏答、拒绝作答,尚有资料输入所造
成的失误亦可能被迫转换成遗漏值来处理
3. 最大影响:样本流失,造成研究资源的浪费或样本不足问题
4. 某些情况,遗漏值有特定组型或倾向,称为系统性遗漏,对研究结果造成更严重
影响
一、 遗漏资料的类型
(一) 遗漏组型
1. 遗漏值处理的基本原则,为遗漏值发生的型态。(型态比量更重要)
2. 遗漏型态问题,反应了遗漏值有可能有规则或次序的系统性遗漏,或者是毫无规
则与逻辑可循的非系统性或随机性遗漏
3. 遗漏的数量与研究样本大小考量有关,一般情况下,随机遗漏在5%至10%之间是
可接受的(Cohen & Cohen, 1993)
4. Rubin(1976)指出,资料中的遗漏如果属於非系统性或随机性的遗漏,称为可忽略
遗漏,其对研究影响:
5. Rubin(1976)指出,资料中的遗漏如果属於非系统性或随机性的遗漏,可利用两种
不同随机模式分析(MCAR,MAR)并处理:
6. 系统性遗漏:作答者一致性漏填或拒填,或受到其他因素的影响所造成,为一种
不可忽略遗漏,若任意填补或估计,亦造成研究结果一致高估或低估
7. 结论:需先对遗漏组型进行分析在决定如何采取估计程序
(二) 遗漏的机制
1. 系统性遗漏处理:利用结构方程模式处理,Little (1993)认为:
(1) 选择模式:遗漏值受到某特定外在因素影响(如性别),反应测量资料是一种外
在选择的结果
(2) 组型混和模型:遗漏组型可能与外在变项产生交互作用,造成特定遗漏现象
二、 遗漏资料的预防与处置
(一) 事先预防法
1. 题目安排、增加「其他」选项、开放式问项,提供回答者在无法作答下,填入可
能答案
2. 随机抽样,则一般遗漏值多呈现随机遗漏
3. 施测者能力
(二) 删除法
1. 删除任一个变项出现遗漏值遗漏者。又称完全删除法、全列删除法
、完全资料分析
2. 针对分析时所牵涉的变项具有遗漏时才加以排除,称为配对删除法
、有效样本分析,检定力降低
(三) 取代法:分为冷层差补法(研究者以先前研究资料数据或利用先备知识来取代遗
漏值)、热层差补法(自研究资料中,寻者与需要补漏的该笔资料具有相同特徵
的其他的资料,进行遗漏值差补,为通用法)
1. 中间数取代法
2. 回归估计法
3. 遗漏资料相关矩阵法
4. 最大期望法:利用最大概似法来进行估计,EM程序最常7528,利用叠代程序完成
,每一次叠代包含
(1) E:找出遗漏资料的条件化期望值(利用完整资料建立对於遗漏资料相关参数的
估计值)
(2) M:带入期望值,利用先前E步骤所建立的遗漏资料期望值,取代遗漏值,再估计
出最契合了理想值
(3) 一但最大概似估计的叠代达到收敛,所得最後资料即为遗漏值可以取代的资料
(McLachlan, Krishnan, 1997; Little & Rubin, 1987)
5. 目前软体进行EM(SPSS, Missing value analysis)
步骤二 常态性假设
1. 常态化为许多统计计数共同基本假设
2. 常态化假设决定统计分析是否可以是用一般性的机率概念或数学原理
3. 若常态化假设遭到违反,研究者必须进行适当的校正或转换
4. 若同时处理多个连续变项的统计意义的检验时,常态化假设就必须延伸到多个连续变
数同时存在下的常态化现象必须维系的基础,即为多元常态性假设,如误差项常态性与独
立性在回归分析、变异数分析十分重要
一、 多元常态性检验
(一) 图表判定法
1. 简单次数分配图、
2. 散布图
3. 进阶P-P图
(二) 统计判定法
若为常态,两者值为0
1. 偏态系数(S),S>0为正偏态S<0为负偏态,多为极端值或偏离值所影响,可以
做删除或资料转换。
2. 峰度系数(K),K>0为高狭峰K<0为低阔峰
3. 一般在结构方程模式中,S绝对值>3,K绝对值>10,被视为非常态(Kline,1998)
(三) 多元常态性检验
Kolmogorov-smirnov test (用在大样本检定)、Lilliefors 检定、
Shapero-Wilk normality test(观察个数少於50)
二、 非常态性资料处理
(一) 资料检和与过滤
(二) 资料转换
1. 偏态严重,取平方根,或取对数
2. 单变量Box-Cox转换(Mooijaart, 1993)
(三) 不同估计程序的使用
步骤三 线性关系假设
一、 线性关系的概念
1. 线性关系是指两个连续变项的关系可以被一条最具代表性的直线来表达之时,
所存在的关连情形。此两变项可能是单独的两个变项,也可能是一组变项的线性
组合,当一组变项进行整合後的新连续变项与其他变项的关系如果亦成为一条直
线,也符合线性关系的概念
2. 统计上常以皮尔森相关系数(Pearson’s r)表示
3. 线性关系在相关与回归分析当中,十分重要基本假设。如果线性关系条件不成立
,则以两变项共变数为基础所发展的统计概念,将失去合理性,结构方程模式对於
线性关系的依赖更胜於回归分析
二、 线性关系的检验
散布图
三、 多元共线性的问题
多元回归分析中,经常发现,如果两个自变项之间的相关很高,对於依变项的相关亦很高
,但是执行回归分析之後,可能只剩下一个自变项对依变项具有预测力,另一个变项的预
测力则无故消失了此现象即因为自变项间具有高度多元共线性(multicollinearnality)
所造成
四、 多元共线性的侦测
1. 容忍值(tolerance)
Tolerance=1-Ri2 该自变项被其他自变项无法解释的残差比
Ri2 某一自变项被其他自变项当作依变项来预测时,该自变项可以被解释的比例
2. 变异数膨胀因数(Variance inflation factor, VIF)
VIF=1/Tolerance
VIF愈大,及预测变项回归系数的变异数增加,共变性愈明显
Myers 建议VIF大於10时,变项共线性明显,应加以去除或合并变项以避免估计问题
五、 误差独立与等分散性假设
1. 回归分析与变异数分析中,皆假设误差项具有常态化与独立性之假设(无自我相
关),否则将无法获得有效参数估计值,并降低统计检定力,易得到不显着的
结果
2. 另外回归分析会假设在特定X水准下对Y的预测残差项,其误差变异量应相等,称
为误差等分散性(homoscedasticity)
3. 不相等的误差变异量(及误差变异歧异性heteroscedasticity),反应不同水准
的X分数下,对於Y分数的预测力不同,不应以单一回归式去预测Y
4. 当研究数据具有极端值出现时,或非线性关系存在时,误差变异数歧异性的问题
就容易出现
--
◣◣,◢█◣◣ _◢ ﹎____________ ◢ ◣
◥◣\▆▆▆◣◣ ◤ _▇ _ ′√▲ ∥阿婆大欢喜!▍◢◤////◣
◣
◣◥◤◤◥█◥║ ▋∥︻◣ _ ▇◤◥_▊▋╱▲_▁_ ̄_▁_ ̄_▁_◥ ≡ == ◣
║║ ⊙ ⊙∕▇▆▇︵@▏"▉#[μ \╱ ︵Nㄟ _▁_ _▁_ _▁_ ◥ ○—○◥●
▆▇_◤# ● ‵ ‘︶ ╱︶ ╲ ╲╲ ╲╲●~*
◣*\'◢ ◤
◣◥
=◣ ▽◢=◤
_▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁_ ̄▇ ̄ ̄▇ ̄ ◢◣◥`︸'◤◤
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.120.95.44