作者s82237823 ()
看板Python
标题[问题] python sklearn DT/RF feature important
时间Thu Apr 8 11:54:51 2021
大家好
我最近正在练习使用sklearn library
主要是在用decision tree/random forest这两个演算法
我想请问一下这两个的feature importance
(同一个dataset 以及使用sklearn的importance_ )
我每一个feature importance的值都落在0.1-0.2之间
请问这个值本身有什麽意义吗?
另外这个是只限於这个演算法里面使用还是可以比较?
比如说我同一个dataset
DT 的 importance 是10-20之间
然後 RF得到的是0.1-0.2之间
这两个演算法拿到的feature importance是有可比性的吗?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 174.81.22.61 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1617854095.A.AE1.html
1F:→ aassdd926: Random forest 本身就是多个DT,他的 feature importa 04/09 10:50
2F:→ aassdd926: nce 是所有树加权平均过的。而这个数值主要依据树以此 04/09 10:50
3F:→ aassdd926: 特徵分裂下,数据impurity的下降程度(样本比例权重下 04/09 10:50
4F:→ aassdd926: )。用途上feature importance可以用来选取特徵,例如 04/09 10:50
5F:→ aassdd926: 重覆删除後面10位不重要的特徵,以找出让模型表现最好 04/09 10:50
6F:→ aassdd926: 的特徵subset,但也要小心过拟合的特徵feature improt 04/09 10:50
7F:→ aassdd926: ance 也会很高,容易受到误导 04/09 10:50
8F:→ aassdd926: 如果要比较的话,我应该会把它转换成 rank 04/09 10:58