作者y956403 ( )
看板DataScience
标题[问题] 时间序列资料分类问题
时间Fri May 10 21:15:13 2019
大家好,
想问一个资料在时间上相关的分类问题。
假设我有10000笔资料,每笔有20个feature,跟一个label(假设是1到5),
这10000笔有时间上先後顺序的关系。
要解的任务是去分类另外100笔从训练资料中随机抽出的测试资料,
我目前想做的是一次随机取连续10笔给LSTM然後预测第10笔时的label,
但是label有很严重的imbalance(训练资料中1占40%,5占2%),
而label随着时间会很像这样:
1111222111122223322111111122223333433222111111
随便增加4 or 5的资料量感觉怪怪的,也不知道要插在哪里,
我如果试着在train的时候把ground truth为5的10笔重复喂给model,
这样算是合理的解决方法吗?
因为目前什麽都不做,在验证资料里几乎都会判断1,没什麽意义。
另外,有的feature视觉化後跟label的趋势几乎无关(有点像杂讯那样),
有的看起来有周期性,有的大致上符合label的起伏,
我想做的是用不同的LSTM来处理这些feature,
最後再用linear层把多个lstm的output结合起来预测出label,
不知道有没有人推荐如何把feature分群(哪些feature用同一个LSTM),
或者说有人推荐其他解决方法吗?
感觉这是feature engineering,小弟经验很少QQ
以上,有讲不清楚或说错的欢迎指正!!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.114.212.6
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1557494115.A.E37.html
1F:推 conartist: 先用其他方法解决imbalance class 比较重要,lstm 没05/11 09:37
2F:→ conartist: 有保证能解决这个问题05/11 09:37
3F:推 sma1033: 如果你要预测5,那你最好先确定5的出现是存在规律的,若505/11 10:39
4F:→ sma1033: 出现的时机并没有很明显的规律性,这问题大概是无解05/11 10:41
5F:→ sma1033: 若没办法先确认资料之间的关系的话,大概怎麽做都是GIGO05/11 10:42
6F:推 sma1033: LSTM没那麽神奇,通常也就只是把输入跟输出背起来而已05/11 10:45
回c大,因为label其实是代表系统正不正常,5是最异常所以最少,我目前比较可以确定
的是通常如果要出现5几乎是1慢慢提升变成5(类似111122234454432221111)
因为不太可能从1突然变成5,所以我想说一组10笔如果ground truth是5(第10笔的label)
,就重复多喂几次,不知道这样解决得了吗?
回s大,你是指出现5的时候,feature要有固定的pattern吗?我觉得应该有因为5出现不
是随机的,如同我上一段回覆,但现在我不太确定视觉化像杂讯的feature要不要给lstm
,会不会破坏它的学习呢?比起我只给视觉化比较合理的feature
※ 编辑: y956403 (110.26.126.119), 05/11/2019 19:15:56
7F:→ sxy67230: 如果4、5出现的机率很低,又没有规则,你应该要把这些fe 05/11 19:22
8F:→ sxy67230: ature 视为是outlier,可以用很多聚类的方式one class s 05/11 19:22
9F:→ sxy67230: vm做异常检测。如果有规则,但你不知道规则,试试看有没 05/11 19:22
10F:→ sxy67230: 有办法用生成模型(hmm)产出,产不出来代表这就真的是 05/11 19:22
11F:→ sxy67230: 异常点。 05/11 19:22
12F:推 sxy67230: 异常点理论上机器是学不出产出4.5 label的。 05/11 19:23
13F:推 sma1033: 机器学习适用的范围是在於你可以明确知道 05/11 21:15
14F:→ sma1033: 规则,但是不容易写成code的应用,比方说 05/11 21:16
15F:→ sma1033: 是辨认猫的图片这种。 05/11 21:17
16F:推 sma1033: 我觉得你应该先试着看看人工有没有办法写下 05/11 21:18
17F:→ sma1033: 明确的判断规则,再决定下一步要怎麽做 05/11 21:19
18F:推 sma1033: 你刚才提的feature特性我觉得代表性不足 05/11 21:20
19F:推 sma1033: 因为出现4为出现5的必要条件但并非充分条件 05/11 21:23
20F:推 sma1033: 慢慢的出现1234跟「必然会出现5」之间是否 05/11 21:26
21F:→ sma1033: 有足够的因果关系,你可能要自己想一下 05/11 21:27
22F:推 ruokcnn: 1~5是ordinal吗? 是的话要不要先用arima尻尻看 05/12 01:18
23F:→ ruokcnn: 搞不好label本身有自回归? 05/12 01:18