作者supersnoII (想い出は溶けない..)
看板DataScience
标题Re: [讨论] 机器学习如何做好version control???
时间Mon Apr 16 00:18:13 2018
有一个比较新的工具叫dvc (data version control)
详情:
https://github.com/dataversioncontrol/dvc
它的核心概念大概是这样︰
1) 当你新增data时,产生一组md5 hash作为cache路径,而这个路径
是data的hard link。这些资讯被存在.dvc档中。
2) 当你操作这些data时,不论是跑script还是command,一样产生.dvc
档案,而且记录指令(cmd)、输入(deps)跟输出(outs)。
3) 不论是1还是2所产生的.dvc档案,都像进code一样进到git里面。
注意这里是进.dvc档而已,不是进真的data。
4) 对原本的pipeline作修改之後(ex: 改preprocessing),只要下一
行指令就可以马上reproduce整个pipeline的结果。
5) data本身可以push到s3或gcp storage,也可以直接把cache资料夹
分享给同事,很轻易可以重现结果。
6) 因为是用git,所以切/合branch都很容易,实验的管理变得比较灵活。
希望有帮助
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.72.213.103
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1523809096.A.A39.html
1F:推 abc2090614: 看了一下, 他想法满有趣的, 研究看看 04/16 02:49
2F:→ abc2090614: 看了一下他的tutorial 主要还是讲modeling 04/16 02:52
3F:→ abc2090614: 如果是作report或是exploratory analysis不知道有没 04/16 02:52
4F:→ abc2090614: 有类似的工具 04/16 02:52
5F:→ supersnoII: dvc就是用git做资料版本控制,其他需求就是开branch 04/16 08:23
6F:→ supersnoII: 再用其他工具,能上线再合到production branch 04/16 08:23