作者lenofire (lenofire)
看板R_Language
标题[问题] 有关於bootstrapping的谜思
时间Wed Oct 26 19:13:44 2016
我看完了一些文献,想要做bootstrapping 的resample(随机抽样)以达成减少多数类别
问题(一 使用bootstrapping後该如何看随机抽样结果?
问题(二 使用bootstrapping是需要把三类别一起放进去才能运作?
问题(三 我是该输人哪句指令?用这句但没反应
http://i.imgur.com/ggcnikf.jpg
-----------
https://youtu.be/tb6wb9ZdPH0?t=6m46s
大家可以参考该影片 ,我是不懂怎麽运用在大量资料上
-------------
http://i.imgur.com/Lg4WvMv.jpg
如图所见
资料红色Label A有过多的现象,发生了imbalance dataset ,所以我要使用undersample
与over
sample 但Rose package 不能应用在多分类上
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 163.22.18.105
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1477480426.A.F8F.html
1F:→ andrew43: 看不懂你做bootstrap的目的10/26 21:04
2F:→ andrew43: 然後…你的三个问题虽是中文但我没有一句看得懂的...10/26 21:07
3F:→ lenofire: 我boostrap 目的是为了做随机抽选,但我不会做这动作10/26 21:49
※ 编辑: lenofire (163.22.18.73), 10/26/2016 21:49:49
※ 编辑: lenofire (163.22.18.73), 10/26/2016 21:50:47
4F:→ clansoda: 随机抽样会用到bootstrap吗? 这不是用来减少variance吗10/26 22:24
5F:→ abc2090614: 感觉你搞错bootstrap的意思10/26 22:33
6F:→ andrew43: 嗯。还是不知道你在说什麽。可否再说白一点?10/26 23:35
7F:→ cywhale: 看不懂问题+1 不过你执行完打a enter 就会有反应了 真的10/26 23:45
8F:→ lenofire: 我简单来说就是要用拔靴法做resample 但不懂看结果10/26 23:55
9F:→ lenofire: Bootstrap 本来就会做随机抽选 而且可以用于undersample10/26 23:57
10F:→ lenofire: 问题10/26 23:57
11F:→ andrew43: 那段原码跑不出来正常,因为它少了一个括号。10/27 00:37
12F:→ andrew43: 它的意思是从x中抽出且放回10个取平均,这样100次。10/27 00:39
13F:→ andrew43: 「以达成减少多数类别」到底是?10/27 00:46
14F:→ celestialgod: 统计应该都称bootstrapping 没有再用bootstrap吧10/27 00:52
※ 编辑: lenofire (223.140.208.2), 10/27/2016 09:14:45
15F:→ cywhale: 随机抽选没错,但你问题中多数类别、三类别指的是什麽?~~10/27 09:48
※ 编辑: lenofire (163.22.18.105), 10/27/2016 10:39:33
16F:→ lenofire: 我是不懂是只用把A类放进去随机抽选就好了吗 http://i.i10/27 11:20
17F:→ lenofire: mgur.com/2MpNdoy.jpg10/27 11:20
※ 编辑: lenofire (163.22.18.105), 10/27/2016 11:34:05
19F:→ clansoda: imbalance data? 10/27 11:37
20F:→ clansoda: 你可以试试看ROSE package 里面也是用你说的bootstrapin 10/27 11:40
21F:→ clansoda: 来作为oversample undersample 与 人造资料的用途10/27 11:41
23F:→ lenofire: 我先看 谢谢了 10/27 11:56
24F:→ lenofire: 可是这个不能用在多分类上 10/27 23:37
25F:→ andrew43: 原po要不要再把实际需求明确地描述一次? 10/28 00:47
26F:→ andrew43: 或是举一个简单的例子但明确地说明你想做什麽事 10/28 00:49
※ 编辑: lenofire (163.22.18.73), 10/28/2016 09:15:34
27F:→ lenofire: 更新了 10/28 09:15
※ 编辑: lenofire (163.22.18.73), 10/28/2016 09:16:20
28F:→ andrew43: 老实说我并没有看懂。例如,你每一次bootstraping後要做 10/28 13:20
29F:→ andrew43: 或收集什麽统计量? 10/28 13:21
30F:→ andrew43: 如果你不说明白,老实说,bootstraping本身不必管类别 10/28 13:22
31F:→ andrew43: 就只是单纯抽出且放回而已。 10/28 13:23
32F:→ andrew43: 例如你有三组,那就三组都做抽100个取统计量共10000次。 10/28 13:26
33F:→ andrew43: 这样不就是「平衡」了? 10/28 13:27
35F:→ clansoda: 我想你需要把你的资料型态解释一下,这样很难猜测 10/28 14:12
36F:→ clansoda: classification problem的binary classification 10/28 14:13
37F:→ clansoda: 就会有常见的imbalance data,所以target variable要是 10/28 14:13
38F:→ clansoda: 两个是很正常的,像是EMAIL是不是垃圾信这种,就会有这 10/28 14:13
39F:→ clansoda: 个问题,但是我现在看不太懂你的资料型态,所以只能猜 10/28 14:14
40F:→ lenofire: 没错,但有时候会遇上多分类情况 ,的确binary classifi 10/28 15:07
41F:→ lenofire: cation 是常见的情况 10/28 15:07
42F:→ andrew43: 既然您不明说,我也帮不了你了。 10/28 15:19