作者ThePttUser (YhePttUser)
看板Python
标题[心得] 数据分析的心得
时间Thu Apr 1 19:59:04 2021
近来作了一些跟以前不一样的分析,以前做的是大数据分析,我几乎有100%的把握
训练不会做得太烂。
但现在正在做材料分析,材料光一种成分组成,就需要一个制备过程,这制备过程
也影响到最终材料性质如何。不过非常幸运的是同事做的刚好就是在一个样本上溅
镀各种元素,所以可以一口气得到非常多数据,制备条件基本上可以视为一样,
这对做数据分析来说真的是一件好事,不过说数据非常多,其实大概也就400个数据。
我试了四种方法 做7 inputs => 5 outputs的训练,没有一个训练可以很准确预测
真实值,大概是y = 1.2*x的程度,因此最近也正在研究怎麽使用小数据训练出好的
模型,目前最好的是单纯用NN,努力了好几天还是找不出怎麽分析这种数据少的资
料。老实话真的不太容易,要请同事帮我做到一千个点的数据,他花的时间跟精力
大概是4倍。
所以这篇虽然我标注的是心得,不过是否有人知道对於这种小数据有没有比较好的
分析方式?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.192.89.152 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1617278346.A.BFB.html
1F:→ yiche: 传统机器学习方法:SVM、Tree structure尝试过了吗? 04/01 20:50
2F:→ yiche: 也许要考虑统计方法了 04/01 20:50
3F:推 ToastBen: 小样本,推楼上 04/02 15:59
4F:推 ddavid: 我觉得可能还需要考虑一点是,这个问题(元素配比如何影响 04/03 04:00
5F:→ ddavid: 结合後的性质)是否真的是这些学习方式的模型能表达的 04/03 04:01
6F:→ ddavid: 我对该领域不熟,虽然稍微Google了一点但也不能确定 04/03 04:02
7F:→ ddavid: 所以举例而言,如果只有很狭窄范围的某种配比才能凸显出特 04/03 04:02
8F:→ ddavid: 定性质,一离开这范围就会造成这种性质快速减弱。如果这种 04/03 04:03
9F:→ ddavid: 情况很常见的话,这会导致模型要嘛很难学习准确,要嘛很容 04/03 04:04
10F:→ ddavid: 易overfitting 04/03 04:04
11F:→ ThePttUser: 楼上没错,材料分析就是有这问题,不过目前国外的确 04/03 09:52
12F:→ ThePttUser: 有一批人在做元素成分的比例跟之後的材料性质 04/03 09:53
13F:→ ThePttUser: 目前我看到的是在大约三种元素的调配下有不错训练 04/03 09:53
14F:→ ThePttUser: 尤其是还要考虑到制备过程都可能让长晶方式有差异 04/03 09:55
15F:→ ThePttUser: 所以我目前只是先玩玩看,主要还是看能不能另辟蹊径 04/03 09:56
16F:→ ThePttUser: 另外回一楼tree我也做过了,训练结果是第二好的 04/03 10:01
17F:→ ThePttUser: 我再试试svm 04/03 10:01
18F:推 ddavid: 考量制备过程真的就很复杂了,会不会有可能是与其去学习那 04/03 20:25
19F:→ ddavid: 个不容易甚至根本学不了的模型,想办法做出模拟系统反而直 04/03 20:26
20F:→ ddavid: 接?XD 04/03 20:26
21F:推 ddavid: 虽然模拟系统应该成本远高且细节必须完全清楚XD 04/03 20:38
22F:→ razer: 看完这段我只能说这个世代的数据分析已经跟我想的完全不同 04/03 20:57
23F:→ razer: 了 04/03 20:57
24F:→ razer: 你不觉得用物理模型去抓一些参数用在模型里,或是设定资料 04/03 21:00
25F:→ razer: 上下界,会比你完全放数字自由移动更好一点吗? 04/03 21:00
26F:推 Starcraft2: 除了model外, data部分可以参考oversampling像是SMOTE 04/04 01:10
27F:→ Starcraft2: 可以参考这篇Kaggle文章 04/04 01:10
28F:→ Starcraft2: kaggle.com/rafjaa/dealing-with-very-small-datasets 04/04 01:10
29F:→ Starcraft2: 如果是在深度学习的影像处理等领域 04/04 01:12
30F:→ Starcraft2: 关键字Data Augmentation可以去看看 04/04 01:12
31F:推 Virness: 样本数太少了 可以找简单的模型试试看Logistic Regressio 04/04 01:13
32F:→ Virness: n 决策树 04/04 01:13
33F:→ Starcraft2: 400个不能说真的很少, 但不推荐用NN 先从前面大家 04/04 01:26
34F:→ Starcraft2: 提到的几个比较基本的模型试试吧 04/04 01:27
35F:推 heavyking02: 可以试试看GAN 虽说训练时间真的比较久 但是对於某 04/05 11:49
36F:→ heavyking02: 些类别成效是还不错 04/05 11:49
37F:→ yiche: 请问楼上意指要用GAN 生成data吗? 04/05 12:35
38F:推 a78998042a: 推22楼,小样本分析要搭配domain资讯,而基本上400在 04/07 08:00
39F:→ a78998042a: 统计分析的领域也不算小了,搭配统计检定来了解模型残 04/07 08:01
40F:→ a78998042a: 差,赋予模型解释能力。样本不够、资讯不够就是加资讯 04/07 08:01
41F:→ a78998042a: 进去、更精细的了解模型。 04/07 08:01
42F:推 mewtwo: 我看到这个样本数跟问题,第一个想到的不是NN。 04/07 19:27
43F:→ mewtwo: 是multinomial logistic regression 04/07 19:27