Python 板


LINE

近来作了一些跟以前不一样的分析,以前做的是大数据分析,我几乎有100%的把握 训练不会做得太烂。 但现在正在做材料分析,材料光一种成分组成,就需要一个制备过程,这制备过程 也影响到最终材料性质如何。不过非常幸运的是同事做的刚好就是在一个样本上溅 镀各种元素,所以可以一口气得到非常多数据,制备条件基本上可以视为一样, 这对做数据分析来说真的是一件好事,不过说数据非常多,其实大概也就400个数据。 我试了四种方法 做7 inputs => 5 outputs的训练,没有一个训练可以很准确预测 真实值,大概是y = 1.2*x的程度,因此最近也正在研究怎麽使用小数据训练出好的 模型,目前最好的是单纯用NN,努力了好几天还是找不出怎麽分析这种数据少的资 料。老实话真的不太容易,要请同事帮我做到一千个点的数据,他花的时间跟精力 大概是4倍。 所以这篇虽然我标注的是心得,不过是否有人知道对於这种小数据有没有比较好的 分析方式? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.192.89.152 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1617278346.A.BFB.html
1F:→ yiche: 传统机器学习方法:SVM、Tree structure尝试过了吗? 04/01 20:50
2F:→ yiche: 也许要考虑统计方法了 04/01 20:50
3F:推 ToastBen: 小样本,推楼上 04/02 15:59
4F:推 ddavid: 我觉得可能还需要考虑一点是,这个问题(元素配比如何影响 04/03 04:00
5F:→ ddavid: 结合後的性质)是否真的是这些学习方式的模型能表达的 04/03 04:01
6F:→ ddavid: 我对该领域不熟,虽然稍微Google了一点但也不能确定 04/03 04:02
7F:→ ddavid: 所以举例而言,如果只有很狭窄范围的某种配比才能凸显出特 04/03 04:02
8F:→ ddavid: 定性质,一离开这范围就会造成这种性质快速减弱。如果这种 04/03 04:03
9F:→ ddavid: 情况很常见的话,这会导致模型要嘛很难学习准确,要嘛很容 04/03 04:04
10F:→ ddavid: 易overfitting 04/03 04:04
11F:→ ThePttUser: 楼上没错,材料分析就是有这问题,不过目前国外的确 04/03 09:52
12F:→ ThePttUser: 有一批人在做元素成分的比例跟之後的材料性质 04/03 09:53
13F:→ ThePttUser: 目前我看到的是在大约三种元素的调配下有不错训练 04/03 09:53
14F:→ ThePttUser: 尤其是还要考虑到制备过程都可能让长晶方式有差异 04/03 09:55
15F:→ ThePttUser: 所以我目前只是先玩玩看,主要还是看能不能另辟蹊径 04/03 09:56
16F:→ ThePttUser: 另外回一楼tree我也做过了,训练结果是第二好的 04/03 10:01
17F:→ ThePttUser: 我再试试svm 04/03 10:01
18F:推 ddavid: 考量制备过程真的就很复杂了,会不会有可能是与其去学习那 04/03 20:25
19F:→ ddavid: 个不容易甚至根本学不了的模型,想办法做出模拟系统反而直 04/03 20:26
20F:→ ddavid: 接?XD 04/03 20:26
21F:推 ddavid: 虽然模拟系统应该成本远高且细节必须完全清楚XD 04/03 20:38
22F:→ razer: 看完这段我只能说这个世代的数据分析已经跟我想的完全不同 04/03 20:57
23F:→ razer: 了 04/03 20:57
24F:→ razer: 你不觉得用物理模型去抓一些参数用在模型里,或是设定资料 04/03 21:00
25F:→ razer: 上下界,会比你完全放数字自由移动更好一点吗? 04/03 21:00
26F:推 Starcraft2: 除了model外, data部分可以参考oversampling像是SMOTE 04/04 01:10
27F:→ Starcraft2: 可以参考这篇Kaggle文章 04/04 01:10
28F:→ Starcraft2: kaggle.com/rafjaa/dealing-with-very-small-datasets 04/04 01:10
29F:→ Starcraft2: 如果是在深度学习的影像处理等领域 04/04 01:12
30F:→ Starcraft2: 关键字Data Augmentation可以去看看 04/04 01:12
31F:推 Virness: 样本数太少了 可以找简单的模型试试看Logistic Regressio 04/04 01:13
32F:→ Virness: n 决策树 04/04 01:13
33F:→ Starcraft2: 400个不能说真的很少, 但不推荐用NN 先从前面大家 04/04 01:26
34F:→ Starcraft2: 提到的几个比较基本的模型试试吧 04/04 01:27
35F:推 heavyking02: 可以试试看GAN 虽说训练时间真的比较久 但是对於某 04/05 11:49
36F:→ heavyking02: 些类别成效是还不错 04/05 11:49
37F:→ yiche: 请问楼上意指要用GAN 生成data吗? 04/05 12:35
38F:推 a78998042a: 推22楼,小样本分析要搭配domain资讯,而基本上400在 04/07 08:00
39F:→ a78998042a: 统计分析的领域也不算小了,搭配统计检定来了解模型残 04/07 08:01
40F:→ a78998042a: 差,赋予模型解释能力。样本不够、资讯不够就是加资讯 04/07 08:01
41F:→ a78998042a: 进去、更精细的了解模型。 04/07 08:01
42F:推 mewtwo: 我看到这个样本数跟问题,第一个想到的不是NN。 04/07 19:27
43F:→ mewtwo: 是multinomial logistic regression 04/07 19:27







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:iOS站内搜寻

TOP