作者iambakr (123)
看板DataScience
標題[問題] 文字探勘的特徵選取問題
時間Tue Jul 1 00:23:07 2025
作業系統:(ex:mac,win10,win8,win7,linux,etc...)
win10
問題類別:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
ML
使用工具:(ex:python,Java,C++,tensorflow,keras,MATLAB,etc...)
R
問題內容:
我打算使用 TF-IDF 作文字探勘,碰到以下幾個問題:
Q1:我打算用 mutual information 與 mRMR作特徵選取
我應該先做 TF-IDF 然後再做特徵選取?
還是反過來?
Q2: 承上,我將降維後的詞彙作機器學習分類 (ex: svm, rf, etc)
我需要將這些文字特徵以及其他數值型特徵作標準化嗎?
如下面 code 最後一行
以及倒數第二行有註解的 step_nzv() 這個實務上也是需要的嗎?
rec <- recipe(Label ~ ., data = train_data) |>
step_zv(all_predictors()) |>
#step_nzv(all_predictors()) |>
step_normalize(all_numeric_predictors())
謝謝各位
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.214.84 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1751300589.A.FD5.html
1F:→ chang1248w: 要不要標準化看後續的處理是不是scale invariant,基 07/01 02:26
2F:→ chang1248w: 本上tree based algorithm 都不用 07/01 02:26
3F:推 fragmentwing: 要標準化應該是在降維之前做? 07/04 14:59
4F:推 jigfopsda: 看你降維用什麼方法 07/05 18:54
5F:→ chang1248w: 至於tf idf和mrmr的順序可能要做個消融實驗看結果, 07/10 08:29
6F:→ chang1248w: 算法設計的目的上並沒辦法決定誰先誰後 07/10 08:29