作者littleyuan (baby)
看板DataScience
標題[討論] 機器學習如何做好version control???
時間Sat Apr 14 05:14:58 2018
大家好
我是ML新手 跟的前輩是很優秀的超強者
但是前輩很不organized 寫的code總是不commit
主管希望下個項目之前我可以提出報告要如何改進並且希望前輩能跟進
我是覺得ML和其他寫程式有點不同
因為不斷測試參數 每次調參數都commit的話好像太繁雜 所以我一般是有了好結果才com
mit一次 不知道大家一般怎麼做的
另一個問題是資料庫會更新 更新過程那原來的model 不變讀到的數據就不一樣了那出來
的結果也還是不一樣
這樣要怎麼reproduce做出和原來一樣正確率??
大家會寫個word檔紀錄每次Data的變化嗎?
想知道大家實際工作上是如何管理的呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 184.64.125.141
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1523654101.A.7A3.html
1F:推 abc2090614: ....這算大哉問等級的問題 (拉椅子等回答04/14 05:33
2F:→ abc2090614: 我通常是參數會存到另一個檔裡04/14 05:34
3F:→ abc2090614: /data 部分丟進.gitignore 會備份但盡量不動04/14 05:35
4F:→ abc2090614: 在訓練模型時不能一直用新data 不然會變多頭馬車04/14 05:36
5F:→ abc2090614: 取什麼data或一些business logic寫進.md或test cases04/14 05:37
6F:→ abc2090614: 之前有試過用GNU make 不過不太順手04/14 05:38
7F:→ abc2090614: 最近發現這個但還沒試過, 他的模板大致不錯, 有些04/14 05:39
8F:→ abc2090614: 我不太同意就是: 04/14 05:39
9F:→ abc2090614: google搜 cookie cutter data science04/14 05:39
謝謝 因為我主管是軟體部門的 對於ML他本來的認知是我和前輩每次只要碰script就應該
要commit阿 我怎麼想都覺得不太對 我目前也是覺得弄個txt檔紀錄比較好 不過只要我的
建議有理主管會聽我的
我來查查這個cookie cutter data science
※ 編輯: littleyuan (184.64.125.141), 04/14/2018 07:34:33
10F:推 lucien0410: 推 簡單但高級實用的問題 04/14 08:21
12F:→ Wush978: 你可以請前輩讀這篇文章做開始: 04/16 02:25
14F:→ Wush978: 裡面具體地指出機器學習系統的挑戰 04/16 02:25
15F:→ Wush978: 然後你們可以開始研究解法(這應該還是Open Problem) 04/16 02:26
16F:→ Wush978: 我不覺得version control可以解決所有的問題, 但是如 04/16 02:26
17F:→ Wush978: code / data schema 進 version control 應該只是基本 04/16 02:26
18F:→ Wush978: 版上很多人給的建議是關於"code"方面的管理,下面有板友 04/16 02:28
19F:→ Wush978: 推薦了"data"上的管理工具, 不過如果你們是每天收集新資 04/16 02:28
20F:→ Wush978: 料更新模型的系統,那我想data dependency的挑戰人然很大 04/16 02:29