作者dummytrue (就只是大叔而已)
看板Statistics
标题[问题] 关於遗失值的处理
时间Fri Oct 13 18:00:20 2017
不好意思 新手发问
在资料预处理的时候
发现有些变数的遗失值过大(>90%以上都是)
像这样的变数还适合做遗失值的填补来做後续的分析(回归、成分分析...)吗?
还是说有一定的原则来取舍变数?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.76.175.139
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1507888823.A.3FE.html
1F:推 f496328mm: 主要还是看问题吧 10/14 04:09
2F:→ f496328mm: 遗失值也是一个讯息 不是NA就不理他 10/14 04:09
3F:→ f496328mm: 你要想为何会产生 NA 10/14 04:10
4F:→ f496328mm: 在 ML 的 tree 上 遗失值也能做分析 10/14 04:10
5F:→ f496328mm: 而大多数 ML ,都是从 tree 出发, RF、XGB 等等 10/14 04:11
6F:→ f496328mm: 例如在制程的问题上 NA 是正常的 不能不理他 10/14 04:12
7F:→ dummytrue: 是病历资料库的分析...有些项目有做 有些则没 10/15 20:54
8F:→ dummytrue: 想找出几个可能和疾病有关的变数 10/15 20:55
9F:→ dummytrue: 才会想说遗失过大的填补是否有意义? 10/15 20:56
10F:→ f496328mm: 你可以从医学领域出发去想 10/15 22:35
11F:→ f496328mm: 疾病应该就是 有病跟没病 10/15 22:35
12F:→ f496328mm: 填补可以试试平均 10/15 22:36
13F:→ f496328mm: 或是特殊医疗检测 例如核磁共振 10/15 22:36
14F:→ f496328mm: 一般很难做到核磁共振 就算做这个能高度判断出有无病 10/15 22:37
15F:→ f496328mm: 一般医院还是从X光、超音波开始,顶多到电脑断层 10/15 22:37
16F:→ f496328mm: 你做出核磁的变量x超强 但好像意义不大? 10/15 22:38
18F:→ f496328mm: 基本上也是高度遗失值 10/15 22:41
19F:→ dummytrue: f大的东西看起来好诱人XD 我目前是还在钻统计的模型 10/16 09:37
20F:→ dummytrue: 不过很想走到ML的领域去 可以的话 f大能否再多介绍一些 10/16 09:41
21F:→ dummytrue: 另外我的变数都是一般抽血检查或问诊结果 10/16 09:43
22F:→ dummytrue: 我後来想想填补的效果不应该在模型中跑出显着差异 10/16 09:44
23F:→ dummytrue: 所以就大胆补下去了 10/16 09:44
24F:推 f496328mm: 我刚好10/16被抓去当兵 以後很难回你啦 10/28 15:11
25F:→ f496328mm: 基本上医学上做这个 应该就是希望 10/28 15:12
26F:→ f496328mm: 最少成本(检验方法) 达到最高判断率吧? 10/28 15:12
27F:→ f496328mm: 一般回归可以看 p value, 或是 lasso AIC BIC 等等 10/28 15:13
28F:→ f496328mm: 遗失值方面 应该有相对应的统计模型 10/28 15:14
29F:→ f496328mm: 我是从 ML 的角度去看 10/28 15:14
30F:→ f496328mm: 利用少量变数 达到不错的准确度 10/28 15:14
31F:→ f496328mm: 另外 lasso 也很多种变形 10/28 15:15
32F:→ f496328mm: 不要局限在单一检验方法 全部一起用会比较好 10/28 15:15