作者sssh (叫我松高魂 ~~)
看板DataScience
標題[問題] 怎麼確保資料分布跟真實世界相近 ?
時間Wed May 27 10:14:48 2020
最近進行一些電腦視覺的專案,
發現實在很難確認收集來的資料(圖片)到底夠不夠貼近真實世界的狀況。
舉例來說,我用一個開放資料集,以這個資料集為基礎上可以取得相當不錯的訓練成果,
但發現在真實世界的推論卻達不到標準。
回過頭來看,如果要加資料,也不知道可以怎麼加,
要加上哪種資料才可以讓模型更 robust
想請教大家,在收集資料上面,都是怎麼確保資料的品質 ?
不管是圖像資料或是量化資料,
要用什麼方式或從什麼面向來確定自己的資料本身是沒問題的呢 ?
--
◤ ◤ ◣
● Ο ο ◤ ◣ ◣
◣ ◤ 。 ο ○ 。 ○ °●
◣ ≡ ◤ ° ο Ο ◣ ◤
◤ ◣ ≡ ◤
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.192.106 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1590545693.A.2A0.html
1F:推 p122607: 從你測試的真實世界中擷取資料呀 05/27 15:29
2F:推 ddavid: 基本上這是一個有點弔詭的問題,如果你能驗證你的資料是否 05/27 17:52
3F:→ ddavid: 跟真實世界相同或相近,那表示你已經能夠知道真實世界資料 05/27 17:53
4F:→ ddavid: 的分佈了,那哪還需要Learning一個model來學習呢XD 05/27 17:54
5F:→ ddavid: 基本上你只能盡可能讓你收集資料的手段合理公平均勻,但是 05/27 17:55
6F:→ ddavid: 談不到什麼驗證 05/27 17:55
7F:推 jojojen: 你有用k-fold cross-validation排除你的模型可能只適用於 05/30 16:53
8F:→ jojojen: 某一特定訓練集跟測試集的問題嗎? 05/30 16:53
9F:→ WengeKong: you will never know 06/07 04:11
10F:推 aidansky0989: 檢查一下學習曲線,應該是過擬合 06/07 19:07
11F:推 luli0034: 推 你永遠不能知道未來的世界(真實資料)會長什麼樣 06/10 12:27