DataScience 板


LINE

大家好, 想問一個資料在時間上相關的分類問題。 假設我有10000筆資料,每筆有20個feature,跟一個label(假設是1到5), 這10000筆有時間上先後順序的關係。 要解的任務是去分類另外100筆從訓練資料中隨機抽出的測試資料, 我目前想做的是一次隨機取連續10筆給LSTM然後預測第10筆時的label, 但是label有很嚴重的imbalance(訓練資料中1佔40%,5佔2%), 而label隨著時間會很像這樣: 1111222111122223322111111122223333433222111111 隨便增加4 or 5的資料量感覺怪怪的,也不知道要插在哪裡, 我如果試著在train的時候把ground truth為5的10筆重複餵給model, 這樣算是合理的解決方法嗎? 因為目前什麼都不做,在驗證資料裡幾乎都會判斷1,沒什麼意義。 另外,有的feature視覺化後跟label的趨勢幾乎無關(有點像雜訊那樣), 有的看起來有週期性,有的大致上符合label的起伏, 我想做的是用不同的LSTM來處理這些feature, 最後再用linear層把多個lstm的output結合起來預測出label, 不知道有沒有人推薦如何把feature分群(哪些feature用同一個LSTM), 或者說有人推薦其他解決方法嗎? 感覺這是feature engineering,小弟經驗很少QQ 以上,有講不清楚或說錯的歡迎指正!! --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.212.6
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1557494115.A.E37.html
1F:推 conartist: 先用其他方法解決imbalance class 比較重要,lstm 沒05/11 09:37
2F:→ conartist: 有保證能解決這個問題05/11 09:37
3F:推 sma1033: 如果你要預測5,那你最好先確定5的出現是存在規律的,若505/11 10:39
4F:→ sma1033: 出現的時機並沒有很明顯的規律性,這問題大概是無解05/11 10:41
5F:→ sma1033: 若沒辦法先確認資料之間的關係的話,大概怎麼做都是GIGO05/11 10:42
6F:推 sma1033: LSTM沒那麼神奇,通常也就只是把輸入跟輸出背起來而已05/11 10:45
回c大,因為label其實是代表系統正不正常,5是最異常所以最少,我目前比較可以確定 的是通常如果要出現5幾乎是1慢慢提升變成5(類似111122234454432221111) 因為不太可能從1突然變成5,所以我想說一組10筆如果ground truth是5(第10筆的label) ,就重複多餵幾次,不知道這樣解決得了嗎? 回s大,你是指出現5的時候,feature要有固定的pattern嗎?我覺得應該有因為5出現不 是隨機的,如同我上一段回覆,但現在我不太確定視覺化像雜訊的feature要不要給lstm ,會不會破壞它的學習呢?比起我只給視覺化比較合理的feature ※ 編輯: y956403 (110.26.126.119), 05/11/2019 19:15:56
7F:→ sxy67230: 如果4、5出現的機率很低,又沒有規則,你應該要把這些fe 05/11 19:22
8F:→ sxy67230: ature 視為是outlier,可以用很多聚類的方式one class s 05/11 19:22
9F:→ sxy67230: vm做異常檢測。如果有規則,但你不知道規則,試試看有沒 05/11 19:22
10F:→ sxy67230: 有辦法用生成模型(hmm)產出,產不出來代表這就真的是 05/11 19:22
11F:→ sxy67230: 異常點。 05/11 19:22
12F:推 sxy67230: 異常點理論上機器是學不出產出4.5 label的。 05/11 19:23
13F:推 sma1033: 機器學習適用的範圍是在於你可以明確知道 05/11 21:15
14F:→ sma1033: 規則,但是不容易寫成code的應用,比方說 05/11 21:16
15F:→ sma1033: 是辨認貓的圖片這種。 05/11 21:17
16F:推 sma1033: 我覺得你應該先試著看看人工有沒有辦法寫下 05/11 21:18
17F:→ sma1033: 明確的判斷規則,再決定下一步要怎麼做 05/11 21:19
18F:推 sma1033: 你剛才提的feature特性我覺得代表性不足 05/11 21:20
19F:推 sma1033: 因為出現4為出現5的必要條件但並非充分條件 05/11 21:23
20F:推 sma1033: 慢慢的出現1234跟「必然會出現5」之間是否 05/11 21:26
21F:→ sma1033: 有足夠的因果關係,你可能要自己想一下 05/11 21:27
22F:推 ruokcnn: 1~5是ordinal嗎? 是的話要不要先用arima尻尻看 05/12 01:18
23F:→ ruokcnn: 搞不好label本身有自回歸? 05/12 01:18







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP