作者belly938 (菸酒与性)
看板NCKU_EDU97
标题主成分分析
时间Thu Mar 12 18:34:07 2009
主成分分析的用意就是把五个变项V1-V5
用一组数字W1-W5加权组合成一个新的分数C
W1-W5就是特徵向量,C就是主成分
产生组合可以使用共变数矩阵和相关矩阵
其中产生相关矩阵之前要先把原本变项V1-V5
都化成标准分数之後再求V1-V5两两之间的相关
进而形成相关矩阵
五个变项可以产生最多五个主成分
五个主成分累积起来可以解释全部变项的总变异
特徵值就是该主成分所能解释的变异量(解释量)
而且五个特徵值的加总一定等於5(变项数量)
以第一个主成分C1来说
把C1的特徵向量乘以根号C1的特徵值等於负荷量
(接着请参阅课本表12的第一个直行)
.983 .982 .939意谓着C1跟V1的简单相关为.983
C1跟V2的简单相关为.982,依此类推
相关越高表示C1越能够代表、解释这个变项
想像一下有五个主成分C1-C5
他们的平均数与变异数都不一样
如果现在设法使其全部标准化
每一个主成分的变异数都是1
(参阅课本表14跟16)
那麽特徵向量也会跟着调整变动
这个就是成分分数系数(表15)
也就是特徵向量除以根号特徵值
主成分彼此之间的相关为0
表13就是这个意思而已
最重要的来了,"23县市之主成份数据"
前面提过V1-V5已经被标准化成标准分数
C = V1W1 + V2W2 + V3W3 + V4W4 + V5W5
代表第一个县市在五个变项上面的加权总分
而这个总分属於第一个主成分
如果第二个到第23个县市也这样做
第一个主成分下面就会出现23个总分
如果五个主成分都这样做
结果就是SAS的Data Set WORK.PRIN2这个表格
如果你具有实验精神
把PRIN 1的23个数值加总求平均和变异数
你会发现结果就在Summary statistics表格里面
而这个庞大表格的目的只是要告诉你
每个主成分里面包括了哪些组合分数
有人问到
SAS的报表里面总共出现三次princomp
其实这是三次相同的检定过程与结果
只是第一次用的是共变数矩阵
第二次是用相关矩阵
第三次是把主成分标准化之後重作一次
这次的作业只需要截取第二次的部分
如果有问题请提出来一起讨论
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.223.141
※ 编辑: belly938 来自: 220.134.160.27 (03/12 21:43)
1F:推 cat417:帮你加分!好棒的孩子!记得作业好好写~姐姐看完书跟你讨论^^ 03/13 15:38
2F:推 rong7325:推推,谢谢林林喔!超热心~~~ 03/15 22:59