作者littleyuan (baby)
看板DataScience
标题[讨论] 机器学习如何做好version control???
时间Sat Apr 14 05:14:58 2018
大家好
我是ML新手 跟的前辈是很优秀的超强者
但是前辈很不organized 写的code总是不commit
主管希望下个项目之前我可以提出报告要如何改进并且希望前辈能跟进
我是觉得ML和其他写程式有点不同
因为不断测试参数 每次调参数都commit的话好像太繁杂 所以我一般是有了好结果才com
mit一次 不知道大家一般怎麽做的
另一个问题是资料库会更新 更新过程那原来的model 不变读到的数据就不一样了那出来
的结果也还是不一样
这样要怎麽reproduce做出和原来一样正确率??
大家会写个word档纪录每次Data的变化吗?
想知道大家实际工作上是如何管理的呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 184.64.125.141
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1523654101.A.7A3.html
1F:推 abc2090614: ....这算大哉问等级的问题 (拉椅子等回答04/14 05:33
2F:→ abc2090614: 我通常是参数会存到另一个档里04/14 05:34
3F:→ abc2090614: /data 部分丢进.gitignore 会备份但尽量不动04/14 05:35
4F:→ abc2090614: 在训练模型时不能一直用新data 不然会变多头马车04/14 05:36
5F:→ abc2090614: 取什麽data或一些business logic写进.md或test cases04/14 05:37
6F:→ abc2090614: 之前有试过用GNU make 不过不太顺手04/14 05:38
7F:→ abc2090614: 最近发现这个但还没试过, 他的模板大致不错, 有些04/14 05:39
8F:→ abc2090614: 我不太同意就是: 04/14 05:39
9F:→ abc2090614: google搜 cookie cutter data science04/14 05:39
谢谢 因为我主管是软体部门的 对於ML他本来的认知是我和前辈每次只要碰script就应该
要commit阿 我怎麽想都觉得不太对 我目前也是觉得弄个txt档纪录比较好 不过只要我的
建议有理主管会听我的
我来查查这个cookie cutter data science
※ 编辑: littleyuan (184.64.125.141), 04/14/2018 07:34:33
10F:推 lucien0410: 推 简单但高级实用的问题 04/14 08:21
12F:→ Wush978: 你可以请前辈读这篇文章做开始: 04/16 02:25
14F:→ Wush978: 里面具体地指出机器学习系统的挑战 04/16 02:25
15F:→ Wush978: 然後你们可以开始研究解法(这应该还是Open Problem) 04/16 02:26
16F:→ Wush978: 我不觉得version control可以解决所有的问题, 但是如 04/16 02:26
17F:→ Wush978: code / data schema 进 version control 应该只是基本 04/16 02:26
18F:→ Wush978: 版上很多人给的建议是关於"code"方面的管理,下面有板友 04/16 02:28
19F:→ Wush978: 推荐了"data"上的管理工具, 不过如果你们是每天收集新资 04/16 02:28
20F:→ Wush978: 料更新模型的系统,那我想data dependency的挑战人然很大 04/16 02:29