作者CharlieL (心平氣和)
看板DataScience
標題Re: [問題] 時間序列資料的訓練集切法
時間Sun Apr 14 01:44:05 2019
拙作「機器學習基石」第十六講第十頁有個小故事
https://www.csie.ntu.edu.tw/~htlin/mooc/doc/16_handout.pdf
可能可以幫助到您的困惑。加油!
※ 引述《avonasac0800 (Adolph)》之銘言:
: 作業系統: Win 10
: 問題類別: RNN/CNN
: 使用工具: Python3.6 + Keras/TensorFlow
: 問題內容:
: 各位大大晚安,
: 小弟想請教, 如果我的資料如下所示(共1,000筆, 只是示意):
: index date value
: 0 20190101 5.1
: 1 20190102 6.6
: 2 20190103 4.8
: 3 20190104 2.7
: ... ... ...
: ... ... ...
: 999 2021xxxx 12
: 而我要以過去20天的資料預測第21天的數值, 如:
: INDEX X Y
: 0 [x0, x1, x2... x19] x20
: 1 [x1, x2, x3... x20] x21
: ... ... ...
: ... ... ...
: 979 [x979, x980... x998] x999
: 假設我要拿總資料的80%來當作訓練集,
: 請問我可以將INDEX打亂後再拿裡面的80%出來嗎?
: 或者非得拿INDEX[0:784]當作訓練集呢?
: 若打亂後再加以訓練,
: 其測試集(test)的MAE可以比未打亂的MAE少50%,
: 所以才有這樣的疑問,
: 我在書上及網路上看到的時間序列模型都是以INDEX[0:784]作為訓練集,
: 但它們都沒有提及原因,
: 只有一個人說到"你總不會想拿那麼遠的資料做測試吧".
: 如果我就是想這樣建模型, 請問會有甚麼潛在的問題嗎?
: 請各位大大不吝賜教, 謝謝orz
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.171.160.250
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1555177447.A.FA9.html
1F:推 moneylys99: 推田神大師!! 04/14 02:10
2F:推 mimiya: 推田神大師 04/14 07:28
3F:推 st1009: 田神!!! 04/14 08:15
4F:推 xddd333: 太神啦 04/14 09:34
5F:推 choral: 太神啦! 04/14 09:53
6F:推 kokolotl: 推! 04/14 10:35
7F:→ sxy67230: 有神快拜! 04/14 13:35
8F:推 sma1033: 推神來電!! 04/14 16:22
9F:推 jimmy40124: 推 04/14 16:37
10F:推 ruokcnn: 田哥 04/14 21:46
11F:推 purpleboy01: 有神快拜 04/15 23:57
12F:推 abc53: 推推 04/17 00:33
13F:推 gloriousCJH: 推 04/17 11:21
14F:→ goldflower: 田神推個 04/17 15:41
15F:推 HYDE1986: 有神快拜!! 04/19 10:54
16F:推 OnePiecePR: 有神 04/19 13:55
17F:推 ylc500224: 推推 04/24 00:41
18F:推 PyTorch: 田神! 04/25 20:46
19F:推 r51303: 推田神!!! 04/30 18:51
20F:推 chengyou: 朝聖推! 06/12 22:41
21F:推 appleseed: 田神!跪惹 07/19 20:27