作者sssh (叫我松高魂 ~~)
看板DataScience
标题[问题] 怎麽确保资料分布跟真实世界相近 ?
时间Wed May 27 10:14:48 2020
最近进行一些电脑视觉的专案,
发现实在很难确认收集来的资料(图片)到底够不够贴近真实世界的状况。
举例来说,我用一个开放资料集,以这个资料集为基础上可以取得相当不错的训练成果,
但发现在真实世界的推论却达不到标准。
回过头来看,如果要加资料,也不知道可以怎麽加,
要加上哪种资料才可以让模型更 robust
想请教大家,在收集资料上面,都是怎麽确保资料的品质 ?
不管是图像资料或是量化资料,
要用什麽方式或从什麽面向来确定自己的资料本身是没问题的呢 ?
--
◤ ◤ ◣
● Ο ο ◤ ◣ ◣
◣ ◤ 。 ο ○ 。 ○ °●
◣ ≡ ◤ ° ο Ο ◣ ◤
◤ ◣ ≡ ◤
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.115.192.106 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1590545693.A.2A0.html
1F:推 p122607: 从你测试的真实世界中撷取资料呀 05/27 15:29
2F:推 ddavid: 基本上这是一个有点吊诡的问题,如果你能验证你的资料是否 05/27 17:52
3F:→ ddavid: 跟真实世界相同或相近,那表示你已经能够知道真实世界资料 05/27 17:53
4F:→ ddavid: 的分布了,那哪还需要Learning一个model来学习呢XD 05/27 17:54
5F:→ ddavid: 基本上你只能尽可能让你收集资料的手段合理公平均匀,但是 05/27 17:55
6F:→ ddavid: 谈不到什麽验证 05/27 17:55
7F:推 jojojen: 你有用k-fold cross-validation排除你的模型可能只适用於 05/30 16:53
8F:→ jojojen: 某一特定训练集跟测试集的问题吗? 05/30 16:53
9F:→ WengeKong: you will never know 06/07 04:11
10F:推 aidansky0989: 检查一下学习曲线,应该是过拟合 06/07 19:07
11F:推 luli0034: 推 你永远不能知道未来的世界(真实资料)会长什麽样 06/10 12:27