作者blacklove (Tom)
看板Statistics
標題[問題] 卡方檢定在特徵篩選上(數值response)
時間Tue Mar 22 11:04:08 2022
請問各位大大,
最近在研究使用卡方檢定來進來特徵篩選,主要是針對「類別特徵」。
大部份都是在response也是類別時。
但我不確定,如果使用在數值response上頭,也是可行嗎?
下面這一篇,建議使用的方式,是將數值型特徵discritize. 這樣就可以用卡方了。
https://stats.stackexchange.com/a/479206/250305
不知道是不是如果遇到數值反應變數,也是只能將其discritize以使用卡方檢定呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.150.205 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1647918254.A.5B3.html
1F:→ andrew43: 就我所知,一定是離散的反應變數。預先離散化也有方法。 03/23 16:49
2F:→ andrew43: 或是考慮其它特徵選擇的方法。 03/23 16:49
3F:→ recorriendo: 不是 你連續就有更多方法可以比較兩組的分佈是否不 03/23 21:53
4F:→ recorriendo: 同 為何要繞一大圈先離散化再做卡方 03/23 21:53
5F:→ recorriendo: 不是不能做 而是沒有意義 03/23 21:54
6F:→ recorriendo: 連續甚至有方法可以同時考慮更多東西 例如:特徵之 03/23 21:58
7F:→ recorriendo: 間的重疊性 (correlation-based feature selection 03/23 21:58
8F:→ recorriendo: ) 03/23 21:58
9F:→ yhliu: 你的卡方檢定是準備檢定什麼東西呢? 兩變數關聯, 或檢定資 03/24 18:52
10F:→ yhliu: 料是否適合某一分布? 或幾個樣本對應的群體分布是否相同? 03/24 18:54
11F:→ yhliu: 基本上數值性資料會先考慮數值性資料的方法; 在數值性的方 03/24 18:55
12F:→ yhliu: 不合適例如兩變數不是直線型關聯而且關聯型態不知時, 才會 03/24 18:57
13F:→ yhliu: 考慮離散化進行卡方檢定. 此時當然要分組, 各組次數要足夠, 03/24 19:00
14F:→ yhliu: 因為卡方檢定是大樣本近似方法, 也就是套用中央極限定理而 03/24 19:01
15F:→ yhliu: 出的方法. 03/24 19:02
16F:→ blacklove: 謝謝大家的回覆,我的這個問題主要是想了解如果處理 03/28 16:28
17F:→ blacklove: 特徵篩選,在建模時,常會先將無相關的特徵排除, 03/28 16:30
18F:→ blacklove: 那麼針對特徵是類別變數,該怎麼確認是否需將它排除 03/28 16:31
19F:→ blacklove: 我目前僅知的作法是用tree-based模型的 03/28 16:32
20F:→ blacklove: feature importance來作為篩選依據 03/28 16:33
21F:→ blacklove: 謝謝你們,我在cross-validated上提問,也有網友回覆 03/28 16:34
22F:→ blacklove: 將數值離散化後,會有資訊丟失的狀況,雖然可以使用 03/28 16:35
23F:→ blacklove: 但是不建議! 03/28 16:35