作者ruthertw (督人无数就是我)
看板DataScience
标题[问题] 标记的图片数据集,样本个体之间差异性太小
时间Mon May 23 00:21:02 2022
由专业人士标记的数据集,
他们当初深怕样本之间差异性太大,
(不知为何?)
刻意挑选了类似的母样本.
结果,
导致他们在母样本上标记出的图片数据集,
样本个体之间差异性太小.
随便拿一个模型学习,
不进行data augumentation,
test accuracy都能轻松超过95%
进行data augumentation後,
有些模型可达到99%
指导教授也同意我的结论,
觉得这样只是训练出一个在单一条件下独断的分类器,
不能写什麽研究论述.
想要求专业人士多找些不类似的母样本,
请他们标记.
他们觉得好累好烦,
标记好花时间,
拼命拒绝,
反问应该有什麽方法能解决这个问题?
我原先提出Few-Shot,Zero-Shot,GAN类,...的模型概念,
建议先尝试看看输出结果会如何.
後来在报告後,
虽然这些专家没提出什麽进一步的想法.
但我突然发现不对,
test accuracy还是会回到原来的问题,
样本个体之间差异性太小.
怎麽验证都会有好的结果.
想请问有什麽方法可以解决这个本质上的问题?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.200.51.13 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1653236464.A.B9A.html
1F:推 ctr1: 自己标记最实在 05/23 00:30
2F:→ chang1248w: semi supervise learning,卢专家每个母体标注一些就 05/23 03:29
3F:→ chang1248w: 好 05/23 03:29
4F:→ chang1248w: 或者你可以试着建模母体间的差异,把多语言翻译模型 05/23 03:31
5F:→ chang1248w: 的概念斜杠过来(这只是在干话 05/23 03:31
6F:→ yoyololicon: 没救 05/23 12:57
7F:推 wuyiulin: 你是用什麽资料集?为什麽会有这个现象 05/23 21:06
8F:→ chang1248w: 你弄不弄得到没有标记的数据? 05/24 00:10
9F:→ chang1248w: 去看一下semi supervise learning 怎麽和你的任务连 05/24 02:20
10F:→ chang1248w: 结,现在大部分的领域都有办法做了 05/24 02:20
11F:→ chang1248w: 不过要找一下paper就是 05/24 02:21
12F:→ chang1248w: 这一块发展的用意就是克服标注昂贵的问题 05/24 02:23
13F:→ chang1248w: 至於标注分布狭隘得另外克服 05/24 02:26
14F:推 ej0cl6: 也可以看看self-supervised pre-training 05/24 12:06
15F:→ ej0cl6: 拿得到没标记但是大量的data试试看semi-supervised或是sel 05/24 12:08
16F:→ ej0cl6: f-supervised都有机会变好 05/24 12:08
17F:推 ILYY: self-supervised learning和自己标 05/24 15:23
18F:→ ILYY: 然後请专家再检查标完的结果 他们可能比较愿意 05/24 15:24
19F:→ chang1248w: 感觉他的任务可能是分割类型的,那他的资料量应该没 05/24 19:40
20F:→ chang1248w: 办法跑自监督 05/24 19:40
21F:推 goldflower: 但你拿来judge的若都是那个test set你搞这堆有意义吗 05/25 02:02
22F:→ goldflower: 你至少要拿更符合母体的test set才能去评断你做的事情 05/25 02:03
23F:→ goldflower: 有没有用 05/25 02:03
24F:→ ruthertw: 指叫不准我自己标,就算模型标,那些专家也推说很忙,不看. 05/26 00:58
25F:→ wuyiulin: 遇到这种神人教授,只能说你加油啊。 05/26 04:22
26F:→ wuyiulin: 这样出来的结果感觉就不能发,我这边看过的论文都是用 05/26 04:24
27F:→ wuyiulin: 严谨的资料集去跑的 05/26 04:24
28F:推 wuyiulin: 这样发出去很容易被 challenge 资料集在乱做吧www 05/26 04:28
29F:→ ruthertw: 目前用比较大的dimension切samples,改成比较小Dimension 05/26 08:28
30F:→ ruthertw: 来切,总数量可以达至少2倍以上.我不指望指叫的误人子弟! 05/26 08:31
31F:→ yoyololicon: 你现在这些操作都做在test data上?不行吧 05/26 08:53
32F:→ yoyololicon: 不如拿没标记的raw data跑些unsupervised 的tasks, 05/26 08:54
33F:→ yoyololicon: 至少有东西可以秀 05/26 08:54
34F:→ yoyololicon: 标记很麻烦的话也一定程度代表用unsupervised 比较 05/26 08:56
35F:→ yoyololicon: 合适 05/26 08:56
36F:→ ruthertw: 这几天重新手动调整采样比例分配,现阶段不使用乱数分配. 05/26 08:56
37F:→ ruthertw: 也按照比例分割母体里面的samples,希望能有好的结果... 05/26 13:25
39F:→ ruthertw: 想请问微调和改进模型方法和方式,感谢~ 05/31 20:47
40F:→ chang1248w: 找任务sota搂 06/04 20:21
41F:→ ruthertw: 好,谢谢楼上大大的帮忙~ 06/05 12:20
※ 编辑: ruthertw (180.217.243.20 台湾), 08/19/2022 15:51:10