DataScience 板


LINE

大家好, 想问一个资料在时间上相关的分类问题。 假设我有10000笔资料,每笔有20个feature,跟一个label(假设是1到5), 这10000笔有时间上先後顺序的关系。 要解的任务是去分类另外100笔从训练资料中随机抽出的测试资料, 我目前想做的是一次随机取连续10笔给LSTM然後预测第10笔时的label, 但是label有很严重的imbalance(训练资料中1占40%,5占2%), 而label随着时间会很像这样: 1111222111122223322111111122223333433222111111 随便增加4 or 5的资料量感觉怪怪的,也不知道要插在哪里, 我如果试着在train的时候把ground truth为5的10笔重复喂给model, 这样算是合理的解决方法吗? 因为目前什麽都不做,在验证资料里几乎都会判断1,没什麽意义。 另外,有的feature视觉化後跟label的趋势几乎无关(有点像杂讯那样), 有的看起来有周期性,有的大致上符合label的起伏, 我想做的是用不同的LSTM来处理这些feature, 最後再用linear层把多个lstm的output结合起来预测出label, 不知道有没有人推荐如何把feature分群(哪些feature用同一个LSTM), 或者说有人推荐其他解决方法吗? 感觉这是feature engineering,小弟经验很少QQ 以上,有讲不清楚或说错的欢迎指正!! --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.114.212.6
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1557494115.A.E37.html
1F:推 conartist: 先用其他方法解决imbalance class 比较重要,lstm 没05/11 09:37
2F:→ conartist: 有保证能解决这个问题05/11 09:37
3F:推 sma1033: 如果你要预测5,那你最好先确定5的出现是存在规律的,若505/11 10:39
4F:→ sma1033: 出现的时机并没有很明显的规律性,这问题大概是无解05/11 10:41
5F:→ sma1033: 若没办法先确认资料之间的关系的话,大概怎麽做都是GIGO05/11 10:42
6F:推 sma1033: LSTM没那麽神奇,通常也就只是把输入跟输出背起来而已05/11 10:45
回c大,因为label其实是代表系统正不正常,5是最异常所以最少,我目前比较可以确定 的是通常如果要出现5几乎是1慢慢提升变成5(类似111122234454432221111) 因为不太可能从1突然变成5,所以我想说一组10笔如果ground truth是5(第10笔的label) ,就重复多喂几次,不知道这样解决得了吗? 回s大,你是指出现5的时候,feature要有固定的pattern吗?我觉得应该有因为5出现不 是随机的,如同我上一段回覆,但现在我不太确定视觉化像杂讯的feature要不要给lstm ,会不会破坏它的学习呢?比起我只给视觉化比较合理的feature ※ 编辑: y956403 (110.26.126.119), 05/11/2019 19:15:56
7F:→ sxy67230: 如果4、5出现的机率很低,又没有规则,你应该要把这些fe 05/11 19:22
8F:→ sxy67230: ature 视为是outlier,可以用很多聚类的方式one class s 05/11 19:22
9F:→ sxy67230: vm做异常检测。如果有规则,但你不知道规则,试试看有没 05/11 19:22
10F:→ sxy67230: 有办法用生成模型(hmm)产出,产不出来代表这就真的是 05/11 19:22
11F:→ sxy67230: 异常点。 05/11 19:22
12F:推 sxy67230: 异常点理论上机器是学不出产出4.5 label的。 05/11 19:23
13F:推 sma1033: 机器学习适用的范围是在於你可以明确知道 05/11 21:15
14F:→ sma1033: 规则,但是不容易写成code的应用,比方说 05/11 21:16
15F:→ sma1033: 是辨认猫的图片这种。 05/11 21:17
16F:推 sma1033: 我觉得你应该先试着看看人工有没有办法写下 05/11 21:18
17F:→ sma1033: 明确的判断规则,再决定下一步要怎麽做 05/11 21:19
18F:推 sma1033: 你刚才提的feature特性我觉得代表性不足 05/11 21:20
19F:推 sma1033: 因为出现4为出现5的必要条件但并非充分条件 05/11 21:23
20F:推 sma1033: 慢慢的出现1234跟「必然会出现5」之间是否 05/11 21:26
21F:→ sma1033: 有足够的因果关系,你可能要自己想一下 05/11 21:27
22F:推 ruokcnn: 1~5是ordinal吗? 是的话要不要先用arima尻尻看 05/12 01:18
23F:→ ruokcnn: 搞不好label本身有自回归? 05/12 01:18







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP