DataScience 板


LINE

想请问各位大大,目前小弟在工作上用了一个二分类模型 预测率来到 90%,但老板不太满意,问说假如要99% 怎麽办 小弟提出一个想法,目前有三个差不多的模型 分别为SVM 深度学习 随机森林 都有接近 90% 的准确 我倒入一组新的样本(假设未知标签),让三个去辨别, 选择三个模型中最多人判别的结果,再把另一个当作判别错误 丢进去那个模型的 train data,重新训练模型,请问这样是可行的吗 会造成什麽问题吗? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.172.92.239
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1541165109.A.12F.html
1F:→ Mchord: 感觉这种做法会产生很强的bias,搞不好的东西更加搞不好 11/02 22:09
我懂 M 大意思,容易错更是错的 我原本是想说三者皆有长处,撷取他们长处 ※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:11:45 ※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:12:26 ※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:15:18 ※ 编辑: kero961240 (1.172.92.239), 11/02/2018 22:15:38
2F:推 jkkert: 有点ensemble的概念 11/02 22:32
3F:推 dongogo: kaggle比赛常用ensemble多个模型结果 是可以improve一些 11/02 22:53
4F:推 a78998042a: 假设你现在建模的资料集是A,未标记的是B。 11/03 00:47
5F:→ a78998042a: 如果你的A、B相似性高,则训练出来新样本也就90%准度 11/03 00:47
6F:→ a78998042a: 所以不会提升准确性;如果B的刚好适应模行,使得B资 11/03 00:47
7F:→ a78998042a: 料的正确率100%,准确率会提高,但模型更容易overfitt 11/03 00:48
8F:→ a78998042a: 如果A、B根本不像,你用A预测B都是错的,很难期望会 11/03 00:48
9F:→ a78998042a: 拉更高。 11/03 00:48
10F:→ a78998042a: 只有B的资料跟A不像,但B拥有正确标签,才有可能cover 11/03 00:49
11F:→ a78998042a: 原本没解释到的部分。 11/03 00:49
12F:→ a78998042a: 用原始资料调整增加样本是挺常见的,不过目标通常是希 11/03 00:51
13F:→ a78998042a: 望之後在预测时可以cover一些资料没有,但可能出现的 11/03 00:52
14F:→ a78998042a: 况,像是图像翻转。所以期望是模型更广泛,提高是看运 11/03 00:53
15F:→ a78998042a: 气。至於你的方式让模型更general都做不到,如果真的 11/03 00:55
16F:→ a78998042a: 预测正确率提升,我反而会担心。 11/03 00:55
17F:→ a78998042a: 第一段指的都是你新增自建标签资料後,新模型的变化。 11/03 00:58
18F:→ wrt: 论文多读一点可以发现其实蛮多人在用组合模型 11/03 01:51
19F:→ wrt: 只是准确率提升但是速度很慢 11/03 01:51
20F:→ yoyololicon: 要提升到99%只靠组合有点难ㄟ 11/03 07:09
21F:→ yoyololicon: 而且又不知道你的三个Model是不是刚好互补 11/03 07:11
22F:→ yoyololicon: 99%>>>>>不可跨越之壁>>>>>>90% 11/03 07:12
23F:推 gbd37: 资料已经90%了 应该无法跨越到99%去 11/03 07:59
24F:→ a78998042a: 不确定楼上有没有看懂或是我误解了,原po说他有一组没 11/03 10:11
25F:→ a78998042a: 标签的资料,想用投票设定标签,利用这组资料增加正确 11/03 10:11
26F:→ a78998042a: 率。这个想法可不可行後,才会去探讨有没有90%跟99%的 11/03 10:11
27F:→ a78998042a: 问题吧。 11/03 10:11
28F:推 zxp9505007: 通常提升程度没那麽高 11/03 10:30
29F:→ ice80712: 半监督式学习? 11/03 18:28
30F:推 yoyololicon: 喔我搞错惹 11/03 19:28
31F:→ yoyololicon: 应该可以试试但提升程度应该不大 11/03 19:28
32F:→ Mchord: 如果你真想要增加伪标签,用这三者产出soft-label可能还安 11/03 19:41
33F:→ Mchord: 全一点 11/03 19:41
M大您好,不太懂您的意思,可否交流一下 ※ 编辑: kero961240 (1.172.112.140), 11/03/2018 23:10:18
34F:推 steveyeh987: 先尝试做模型的ensemble,semi-supervised learning 11/03 23:44
35F:→ steveyeh987: 不一定会比较好 11/03 23:44
36F:推 yiefaung: training acc是多少?data是否imbalance或有noise? 11/04 17:35







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP