作者Tinderstick ( )
看板Statistics
标题[问题] 回归分析中变数重要性
时间Thu Aug 1 00:32:29 2024
大家好
我不是统计背景出身的
但今天跟学生咪挺时聊到
在回归分析中可以利用某解释变数加入前後的 R^2 变化
来当作该变数的重要程度
请问这个做法是常见或正确的吗?
有没有相关文献可供参考呢?
我自己想了一个反例如下:
假设有三个解释变数 x1, x2, x3
其中 x1 和 x2 很有解释力但却高度共线性
x3 则是聊胜於无的变数
在控制 x1 和 x3 时
由於 x2 和 x1 高度共线性
所以额外加入 x2 并不会让 R^2 上升太多
另一方面
在控制 x1 和 x2 时
由於 x3 本身没啥用处
所以额外加入 x3 也不会让 R^2 上升太多
综上所述
光靠 R^2 的变化来定义变数重要性可能会有问题(?)
但如果把上例的 x1 拿掉呢?
我也不知道答案
印象中在随机森林里有类似的变数重要性定义方式
但我查了 ISLR 第二版的 8.2.1 节
其定义是将每棵树加入该解释变数後下降的 RSS 取平均
但这麽一来
由於资料已经重新取样
共线性的问题应该不大
与上述范例里的回归分析似乎又不相同
还请各位大大指点迷津或者提供相关文献
万分感谢~ <(_ _)>
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.78.36.246 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1722443551.A.5FF.html
1F:推 chang1248w: RF一般会讲到的variable importance 有 ISLR 8.2.1中 08/01 07:13
2F:→ chang1248w: 的 loss gain和2001年的那篇review中使用的variable 08/01 07:13
3F:→ chang1248w: importance (又称 permutation importance ) 08/01 07:13
4F:→ chang1248w: 後者的行为更像linear regression 里面会遇到的共线 08/01 07:15
5F:→ chang1248w: 性问题 08/01 07:15
6F:推 chang1248w: 前者因为predictor subsampling的关系,对每棵树而讲 08/01 07:30
7F:→ chang1248w: 变数加入的顺序是不一定的,每个变数都有机会在它变 08/01 07:30
8F:→ chang1248w: 得没有用之前被计算loss gain 08/01 07:30
9F:→ chang1248w: 这个问题的重点在,你期望的importance,到底是 info 08/01 07:33
10F:→ chang1248w: rmative 还是 uniqueness 08/01 07:33
11F:→ recorriendo: 至少要用adjusted R^2 ... 08/01 12:55
12F:→ recorriendo: "变数重要性"本来就是一个笼统的概念 每个人说的重要 08/01 13:08
13F:→ recorriendo: 性指涉的东西可能不一样 例如如您所述考虑/不考虑其 08/01 13:10
14F:→ recorriendo: 他变数就是一个在每个人理解的"重要性"中扮演脚色不 08/01 13:13
15F:→ recorriendo: 一的考量 08/01 13:13
16F:→ recorriendo: 一旦想要考虑各种变数组合 其实就是在问某变数在不同 08/01 13:28
17F:→ recorriendo: 个regression model里的重要性如何统合成单一指标 08/01 13:29
18F:→ recorriendo: 这其实没有一个标准方法 甚至不同研究圈的主流方法也 08/01 13:30
19F:→ recorriendo: 不一致 也有看过有研究者个人会特别偏好某种方法 08/01 13:31
20F:→ recorriendo: 我熟悉的领域现在大都使用Burnham的方法 算一遍所有 08/01 13:34
21F:→ recorriendo: 变数子集的regression model後用AIC去组出一个score 08/01 13:35
22F:→ andrew43: 一个比较简单的方法,就是同时报导复回归及单回归的 08/01 13:45
23F:→ andrew43: 标准化回归系数。但这还不是一个单一的「重要性指标」。 08/01 13:45
24F:推 WangElly: regression model很忌讳共线性,要先排除,r square 才 08/01 20:08
25F:→ WangElly: 有意义,无他法。 08/01 20:08
26F:→ andrew43: R package relaimpo 中提供的数种方法也可以参考。 08/02 11:05