作者kero961240 (kobe)
看板DataScience
标题[问题] 多个模型比较问题
时间Fri Nov 2 21:25:06 2018
想请问各位大大,目前小弟在工作上用了一个二分类模型
预测率来到 90%,但老板不太满意,问说假如要99% 怎麽办
小弟提出一个想法,目前有三个差不多的模型
分别为SVM 深度学习 随机森林 都有接近 90% 的准确
我倒入一组新的样本(假设未知标签),让三个去辨别,
选择三个模型中最多人判别的结果,再把另一个当作判别错误
丢进去那个模型的 train data,重新训练模型,请问这样是可行的吗
会造成什麽问题吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.172.92.239
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1541165109.A.12F.html
1F:→ Mchord: 感觉这种做法会产生很强的bias,搞不好的东西更加搞不好 11/02 22:09
我懂 M 大意思,容易错更是错的
我原本是想说三者皆有长处,撷取他们长处
※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:11:45
※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:12:26
※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:15:18
※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:15:38
2F:推 jkkert: 有点ensemble的概念 11/02 22:32
3F:推 dongogo: kaggle比赛常用ensemble多个模型结果 是可以improve一些 11/02 22:53
4F:推 a78998042a: 假设你现在建模的资料集是A,未标记的是B。 11/03 00:47
5F:→ a78998042a: 如果你的A、B相似性高,则训练出来新样本也就90%准度 11/03 00:47
6F:→ a78998042a: 所以不会提升准确性;如果B的刚好适应模行,使得B资 11/03 00:47
7F:→ a78998042a: 料的正确率100%,准确率会提高,但模型更容易overfitt 11/03 00:48
8F:→ a78998042a: 如果A、B根本不像,你用A预测B都是错的,很难期望会 11/03 00:48
9F:→ a78998042a: 拉更高。 11/03 00:48
10F:→ a78998042a: 只有B的资料跟A不像,但B拥有正确标签,才有可能cover 11/03 00:49
11F:→ a78998042a: 原本没解释到的部分。 11/03 00:49
12F:→ a78998042a: 用原始资料调整增加样本是挺常见的,不过目标通常是希 11/03 00:51
13F:→ a78998042a: 望之後在预测时可以cover一些资料没有,但可能出现的 11/03 00:52
14F:→ a78998042a: 况,像是图像翻转。所以期望是模型更广泛,提高是看运 11/03 00:53
15F:→ a78998042a: 气。至於你的方式让模型更general都做不到,如果真的 11/03 00:55
16F:→ a78998042a: 预测正确率提升,我反而会担心。 11/03 00:55
17F:→ a78998042a: 第一段指的都是你新增自建标签资料後,新模型的变化。 11/03 00:58
18F:→ wrt: 论文多读一点可以发现其实蛮多人在用组合模型 11/03 01:51
19F:→ wrt: 只是准确率提升但是速度很慢 11/03 01:51
20F:→ yoyololicon: 要提升到99%只靠组合有点难ㄟ 11/03 07:09
21F:→ yoyololicon: 而且又不知道你的三个Model是不是刚好互补 11/03 07:11
22F:→ yoyololicon: 99%>>>>>不可跨越之壁>>>>>>90% 11/03 07:12
23F:推 gbd37: 资料已经90%了 应该无法跨越到99%去 11/03 07:59
24F:→ a78998042a: 不确定楼上有没有看懂或是我误解了,原po说他有一组没 11/03 10:11
25F:→ a78998042a: 标签的资料,想用投票设定标签,利用这组资料增加正确 11/03 10:11
26F:→ a78998042a: 率。这个想法可不可行後,才会去探讨有没有90%跟99%的 11/03 10:11
27F:→ a78998042a: 问题吧。 11/03 10:11
28F:推 zxp9505007: 通常提升程度没那麽高 11/03 10:30
29F:→ ice80712: 半监督式学习? 11/03 18:28
30F:推 yoyololicon: 喔我搞错惹 11/03 19:28
31F:→ yoyololicon: 应该可以试试但提升程度应该不大 11/03 19:28
32F:→ Mchord: 如果你真想要增加伪标签,用这三者产出soft-label可能还安 11/03 19:41
33F:→ Mchord: 全一点 11/03 19:41
M大您好,不太懂您的意思,可否交流一下
※ 编辑: kero961240 (1.172.112.140), 11/03/2018 23:10:18
34F:推 steveyeh987: 先尝试做模型的ensemble,semi-supervised learning 11/03 23:44
35F:→ steveyeh987: 不一定会比较好 11/03 23:44
36F:推 yiefaung: training acc是多少?data是否imbalance或有noise? 11/04 17:35