作者dummytrue (就只是大叔而已)
看板Statistics
標題[問題] 關於遺失值的處理
時間Fri Oct 13 18:00:20 2017
不好意思 新手發問
在資料預處理的時候
發現有些變數的遺失值過大(>90%以上都是)
像這樣的變數還適合做遺失值的填補來做後續的分析(回歸、成分分析...)嗎?
還是說有一定的原則來取捨變數?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.76.175.139
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1507888823.A.3FE.html
1F:推 f496328mm: 主要還是看問題吧 10/14 04:09
2F:→ f496328mm: 遺失值也是一個訊息 不是NA就不理他 10/14 04:09
3F:→ f496328mm: 你要想為何會產生 NA 10/14 04:10
4F:→ f496328mm: 在 ML 的 tree 上 遺失值也能做分析 10/14 04:10
5F:→ f496328mm: 而大多數 ML ,都是從 tree 出發, RF、XGB 等等 10/14 04:11
6F:→ f496328mm: 例如在製程的問題上 NA 是正常的 不能不理他 10/14 04:12
7F:→ dummytrue: 是病歷資料庫的分析...有些項目有做 有些則沒 10/15 20:54
8F:→ dummytrue: 想找出幾個可能和疾病有關的變數 10/15 20:55
9F:→ dummytrue: 才會想說遺失過大的填補是否有意義? 10/15 20:56
10F:→ f496328mm: 你可以從醫學領域出發去想 10/15 22:35
11F:→ f496328mm: 疾病應該就是 有病跟沒病 10/15 22:35
12F:→ f496328mm: 填補可以試試平均 10/15 22:36
13F:→ f496328mm: 或是特殊醫療檢測 例如核磁共振 10/15 22:36
14F:→ f496328mm: 一般很難做到核磁共振 就算做這個能高度判斷出有無病 10/15 22:37
15F:→ f496328mm: 一般醫院還是從X光、超音波開始,頂多到電腦斷層 10/15 22:37
16F:→ f496328mm: 你做出核磁的變量x超強 但好像意義不大? 10/15 22:38
18F:→ f496328mm: 基本上也是高度遺失值 10/15 22:41
19F:→ dummytrue: f大的東西看起來好誘人XD 我目前是還在鑽統計的模型 10/16 09:37
20F:→ dummytrue: 不過很想走到ML的領域去 可以的話 f大能否再多介紹一些 10/16 09:41
21F:→ dummytrue: 另外我的變數都是一般抽血檢查或問診結果 10/16 09:43
22F:→ dummytrue: 我後來想想填補的效果不應該在模型中跑出顯著差異 10/16 09:44
23F:→ dummytrue: 所以就大膽補下去了 10/16 09:44
24F:推 f496328mm: 我剛好10/16被抓去當兵 以後很難回你啦 10/28 15:11
25F:→ f496328mm: 基本上醫學上做這個 應該就是希望 10/28 15:12
26F:→ f496328mm: 最少成本(檢驗方法) 達到最高判斷率吧? 10/28 15:12
27F:→ f496328mm: 一般迴歸可以看 p value, 或是 lasso AIC BIC 等等 10/28 15:13
28F:→ f496328mm: 遺失值方面 應該有相對應的統計模型 10/28 15:14
29F:→ f496328mm: 我是從 ML 的角度去看 10/28 15:14
30F:→ f496328mm: 利用少量變數 達到不錯的準確度 10/28 15:14
31F:→ f496328mm: 另外 lasso 也很多種變形 10/28 15:15
32F:→ f496328mm: 不要侷限在單一檢驗方法 全部一起用會比較好 10/28 15:15