DataScience 板


LINE

大家好,最近開始入門 Kaggle 基本的競賽, 在這些競賽中都先分好訓練跟測試資料集。 而在看過一些熱門的kernel發現, 多數人在一開始就先將training跟testing資料集合併, 接著進入EDA(Exploratory Data Analysis)階段。 其中在這個階段中需要處理缺失值的問題。 小弟想問的是 先把兩個資料集合併後,利用mean或median方式處理缺失值不會有偷看答案的問題嗎?(因為使用包含testing的資料進行處理) 非常謝謝大家的回答~ ----- Sent from JPTT on my iPhone --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.115.70.106 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1590564153.A.465.html ※ 編輯: world1220 (140.115.70.106 臺灣), 05/27/2020 15:25:18 ※ 編輯: world1220 (140.115.70.106 臺灣), 05/27/2020 15:26:46
1F:推 jigfopsda: 看使用的情境 比賽的情況下可以先拿到 test data 我覺 05/27 16:04
2F:→ jigfopsda: 得就可以用 05/27 16:04
3F:推 kokolotl: 為了分數就合在一起處理 05/27 16:30
4F:→ hit5180214: 不會 05/27 17:12
5F:→ world1220: 非常謝謝大家回答 05/27 17:52
6F:→ world1220: 想請問hit大大 為什麼這樣不會有偷看答案的問題呢? 05/27 17:52
7F:→ truehero: 這不是偷看答案,而是讓你的mean更合理 05/27 19:35
8F:→ world1220: 謝謝truehero大大的回答。 05/27 21:27
9F:→ world1220: 對於讓mean更加合理我想我可以理解。 05/27 21:27
10F:→ world1220: 那另外想問 若是使用scale的動作時,也能夠將資料合併 05/27 21:27
11F:→ world1220: 在一起同時scale嗎?因為我過去學到的是在scale時必須 05/27 21:27
12F:→ world1220: 將資料拆分後再做這個動作。 05/27 21:27
13F:推 st1009: 假設你今天在一家公司裡,你們蒐集了很多資料,這些資料你 05/28 09:16
14F:→ st1009: 門僱用了工讀生label了20%,你希望得到剩下80%的label,那 05/28 09:18
15F:→ st1009: 現在你對那些未知label的資料做你所說的處理合理嗎? 05/28 09:19
16F:推 sxy67230: 就一起做scale啊,這是比賽,本來很多trick可以用就先 05/28 11:53
17F:→ sxy67230: 用上,尤其是連測試資料一起做分析,最後在訓練train da 05/28 11:53
18F:→ sxy67230: ta來預測test data,說白了就是讓特徵分佈的尺度縮限在 05/28 11:53
19F:→ sxy67230: 一定範圍內而已。 05/28 11:53
20F:→ world1220: 謝謝sxy大,所以在比賽時規則沒有明訂的前提下用盡身邊 05/28 13:40
21F:→ world1220: 的資源以及手段去提高準確率是可以的。 05/28 13:40
22F:→ world1220: 那小弟我好奇如果是在實務或是在嚴謹研究上呢?也能夠 05/28 13:40
23F:→ world1220: 這麼做嗎?因為test data的定義不是只能拿來最後衡量模 05/28 13:40
24F:→ world1220: 型的表現嗎?我們在建造model的時候是不能用到任何關於 05/28 13:40
25F:→ world1220: test data的資訊的吧? 05/28 13:40
26F:推 aidansky0989: 我在info就補缺失值,mean用整體是比較準,只要訓練 05/28 14:56
27F:→ aidansky0989: 時沒用到test就好 05/28 14:56
28F:推 andy086: 我的經驗啦,基本上在實務上不可能只會有一組test data, 05/28 15:53
29F:→ andy086: 通常會拆成train validation和test,而val是從train拆出 05/28 15:53
30F:→ andy086: 來的,而test則是真實的未來資料。所以模型建立時要像你 05/28 15:53
31F:→ andy086: 說的那樣處理並不是不可以,因為val就是從train當中切出 05/28 15:53
32F:→ andy086: 來的一部分,但最後驗證一定會需要一筆從來沒看過的未來 05/28 15:53
33F:→ andy086: 資料驗證才行 05/28 15:53
34F:→ andy086: 如果只是針對比賽就像前幾樓所說的囉 05/28 15:54
35F:→ yoyololicon: 比賽最後評分的那個才是test data 05/28 18:52
36F:→ yoyololicon: 你拿不到的 05/28 18:52
37F:推 andy086: 對欸我都忘記了,感謝樓上提醒,所以其實還是一樣的 05/28 19:23
38F:→ world1220: 了解了 謝謝上面各位的幫忙~ 05/28 20:03







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:WOW站內搜尋

TOP