作者fragmentwing (片翼碎梦)
看板Statistics
标题[问题] PCA处理後主成分间相关系数超高?
时间Mon Jul 17 23:13:55 2023
如图
https://imgur.com/wNaueoB
我想说PCA理论上不是要去找正交吗?结果除了第一、二主成分之间以外
一整个满满的超高正相关和超高负相关,这样正常吗?
贡献比率前三个累计起来约90%,第三个贡献比率约为13%
还有,VIF值除了第一个勉强在300以内外,其他全部破万......
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.139.190.17 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1689606838.A.3B0.html
※ 编辑: fragmentwing (223.139.190.17 台湾), 07/17/2023 23:32:03
1F:→ yhliu: 正交就零相关。 07/18 06:26
2F:→ andrew43: 原始变数之间是不是有几乎+/-1的线性相关? 07/18 14:45
3F:→ fragmentwing: 是有没错 可是PCA会放大这现象? 原本是三个 PCA弄 07/18 17:38
4F:→ fragmentwing: 完变成4个 07/18 17:38
5F:→ fragmentwing: 所以PCA其实不会消除共线性吗? 07/18 17:39
6F:→ fragmentwing: 啊不对这边也要扣掉自己 所以是3个 07/18 17:40
7F:→ andrew43: 如果有完美共线,PCA有意义的轴数不会是原变数个数 07/18 17:48
8F:→ andrew43: 例如1到10和10到1,这二个变数做PCA,第二轴并没有意义 07/18 17:49
9F:→ andrew43: 至於这些没用的轴可能会和前面的轴碰巧有相关性 07/18 17:57
10F:→ andrew43: 至於你说原3变数生出4个PCA轴,我觉得你一定做错了什麽 07/18 17:58
11F:→ fragmentwing: 我是说原本的n轴中有3个相关系数绝对值趋近1的意思 07/18 19:33
12F:→ fragmentwing: 话说a大 你让我想到一件事 为什麽kPCA最大轴数是用 07/18 19:33
13F:→ fragmentwing: 资料数算的? 07/18 19:33
14F:→ fragmentwing: 我後来发现可能我程式要检查一下 虽然原始数据确实 07/19 13:37
15F:→ fragmentwing: 共线很严重 可是我今天专门写一个计算vif和相关系数 07/19 13:37
16F:→ fragmentwing: 的程式来验证却又发现pca有好好把正交做出来…… 07/19 13:37
17F:推 cuylerLin: 要先知道 PCA 的理论模型在算什麽(把资料当成一个 glo 07/20 00:20
18F:→ cuylerLin: bal ellipsoid 来看待的话)而不是直接随便一个 raw da 07/20 00:20
19F:→ cuylerLin: ta 丢 PCA 就没事,垃圾进就会垃圾出 07/20 00:20
20F:→ cuylerLin: 要怎样的 data preprocessing 之後才丢 PCA 与 PCA 能 07/20 00:21
21F:→ cuylerLin: 够帮你做到怎样的事情两者无关 07/20 00:21
22F:→ fragmentwing: 後来几次重算发现应该纯粹当初程式写错的锅 07/21 07:59