作者blacklove (Tom)
看板Statistics
标题[问题] 卡方检定在特徵筛选上(数值response)
时间Tue Mar 22 11:04:08 2022
请问各位大大,
最近在研究使用卡方检定来进来特徵筛选,主要是针对「类别特徵」。
大部份都是在response也是类别时。
但我不确定,如果使用在数值response上头,也是可行吗?
下面这一篇,建议使用的方式,是将数值型特徵discritize. 这样就可以用卡方了。
https://stats.stackexchange.com/a/479206/250305
不知道是不是如果遇到数值反应变数,也是只能将其discritize以使用卡方检定呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.82.150.205 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1647918254.A.5B3.html
1F:→ andrew43: 就我所知,一定是离散的反应变数。预先离散化也有方法。 03/23 16:49
2F:→ andrew43: 或是考虑其它特徵选择的方法。 03/23 16:49
3F:→ recorriendo: 不是 你连续就有更多方法可以比较两组的分布是否不 03/23 21:53
4F:→ recorriendo: 同 为何要绕一大圈先离散化再做卡方 03/23 21:53
5F:→ recorriendo: 不是不能做 而是没有意义 03/23 21:54
6F:→ recorriendo: 连续甚至有方法可以同时考虑更多东西 例如:特徵之 03/23 21:58
7F:→ recorriendo: 间的重叠性 (correlation-based feature selection 03/23 21:58
8F:→ recorriendo: ) 03/23 21:58
9F:→ yhliu: 你的卡方检定是准备检定什麽东西呢? 两变数关联, 或检定资 03/24 18:52
10F:→ yhliu: 料是否适合某一分布? 或几个样本对应的群体分布是否相同? 03/24 18:54
11F:→ yhliu: 基本上数值性资料会先考虑数值性资料的方法; 在数值性的方 03/24 18:55
12F:→ yhliu: 不合适例如两变数不是直线型关联而且关联型态不知时, 才会 03/24 18:57
13F:→ yhliu: 考虑离散化进行卡方检定. 此时当然要分组, 各组次数要足够, 03/24 19:00
14F:→ yhliu: 因为卡方检定是大样本近似方法, 也就是套用中央极限定理而 03/24 19:01
15F:→ yhliu: 出的方法. 03/24 19:02
16F:→ blacklove: 谢谢大家的回覆,我的这个问题主要是想了解如果处理 03/28 16:28
17F:→ blacklove: 特徵筛选,在建模时,常会先将无相关的特徵排除, 03/28 16:30
18F:→ blacklove: 那麽针对特徵是类别变数,该怎麽确认是否需将它排除 03/28 16:31
19F:→ blacklove: 我目前仅知的作法是用tree-based模型的 03/28 16:32
20F:→ blacklove: feature importance来作为筛选依据 03/28 16:33
21F:→ blacklove: 谢谢你们,我在cross-validated上提问,也有网友回覆 03/28 16:34
22F:→ blacklove: 将数值离散化後,会有资讯丢失的状况,虽然可以使用 03/28 16:35
23F:→ blacklove: 但是不建议! 03/28 16:35