作者fragmentwing (片翼碎夢)
看板Statistics
標題[問題] PCA處理後主成分間相關係數超高?
時間Mon Jul 17 23:13:55 2023
如圖
https://imgur.com/wNaueoB
我想說PCA理論上不是要去找正交嗎?結果除了第一、二主成分之間以外
一整個滿滿的超高正相關和超高負相關,這樣正常嗎?
貢獻比率前三個累計起來約90%,第三個貢獻比率約為13%
還有,VIF值除了第一個勉強在300以內外,其他全部破萬......
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.139.190.17 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1689606838.A.3B0.html
※ 編輯: fragmentwing (223.139.190.17 臺灣), 07/17/2023 23:32:03
1F:→ yhliu: 正交就零相關。 07/18 06:26
2F:→ andrew43: 原始變數之間是不是有幾乎+/-1的線性相關? 07/18 14:45
3F:→ fragmentwing: 是有沒錯 可是PCA會放大這現象? 原本是三個 PCA弄 07/18 17:38
4F:→ fragmentwing: 完變成4個 07/18 17:38
5F:→ fragmentwing: 所以PCA其實不會消除共線性嗎? 07/18 17:39
6F:→ fragmentwing: 啊不對這邊也要扣掉自己 所以是3個 07/18 17:40
7F:→ andrew43: 如果有完美共線,PCA有意義的軸數不會是原變數個數 07/18 17:48
8F:→ andrew43: 例如1到10和10到1,這二個變數做PCA,第二軸並沒有意義 07/18 17:49
9F:→ andrew43: 至於這些沒用的軸可能會和前面的軸碰巧有相關性 07/18 17:57
10F:→ andrew43: 至於你說原3變數生出4個PCA軸,我覺得你一定做錯了什麼 07/18 17:58
11F:→ fragmentwing: 我是說原本的n軸中有3個相關係數絕對值趨近1的意思 07/18 19:33
12F:→ fragmentwing: 話說a大 你讓我想到一件事 為什麼kPCA最大軸數是用 07/18 19:33
13F:→ fragmentwing: 資料數算的? 07/18 19:33
14F:→ fragmentwing: 我後來發現可能我程式要檢查一下 雖然原始數據確實 07/19 13:37
15F:→ fragmentwing: 共線很嚴重 可是我今天專門寫一個計算vif和相關係數 07/19 13:37
16F:→ fragmentwing: 的程式來驗證卻又發現pca有好好把正交做出來…… 07/19 13:37
17F:推 cuylerLin: 要先知道 PCA 的理論模型在算什麼(把資料當成一個 glo 07/20 00:20
18F:→ cuylerLin: bal ellipsoid 來看待的話)而不是直接隨便一個 raw da 07/20 00:20
19F:→ cuylerLin: ta 丟 PCA 就沒事,垃圾進就會垃圾出 07/20 00:20
20F:→ cuylerLin: 要怎樣的 data preprocessing 之後才丟 PCA 與 PCA 能 07/20 00:21
21F:→ cuylerLin: 夠幫你做到怎樣的事情兩者無關 07/20 00:21
22F:→ fragmentwing: 後來幾次重算發現應該純粹當初程式寫錯的鍋 07/21 07:59