作者iambakr (123)
看板DataScience
标题[问题] 文字探勘的特徵选取问题
时间Tue Jul 1 00:23:07 2025
作业系统:(ex:mac,win10,win8,win7,linux,etc...)
win10
问题类别:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
ML
使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...)
R
问题内容:
我打算使用 TF-IDF 作文字探勘,碰到以下几个问题:
Q1:我打算用 mutual information 与 mRMR作特徵选取
我应该先做 TF-IDF 然後再做特徵选取?
还是反过来?
Q2: 承上,我将降维後的词汇作机器学习分类 (ex: svm, rf, etc)
我需要将这些文字特徵以及其他数值型特徵作标准化吗?
如下面 code 最後一行
以及倒数第二行有注解的 step_nzv() 这个实务上也是需要的吗?
rec <- recipe(Label ~ ., data = train_data) |>
step_zv(all_predictors()) |>
#step_nzv(all_predictors()) |>
step_normalize(all_numeric_predictors())
谢谢各位
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.37.214.84 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1751300589.A.FD5.html
1F:→ chang1248w: 要不要标准化看後续的处理是不是scale invariant,基 07/01 02:26
2F:→ chang1248w: 本上tree based algorithm 都不用 07/01 02:26
3F:推 fragmentwing: 要标准化应该是在降维之前做? 07/04 14:59
4F:推 jigfopsda: 看你降维用什麽方法 07/05 18:54
5F:→ chang1248w: 至於tf idf和mrmr的顺序可能要做个消融实验看结果, 07/10 08:29
6F:→ chang1248w: 算法设计的目的上并没办法决定谁先谁後 07/10 08:29