作者lucien0410 (lucein)
看板DataScience
标题Re: [讨论] 机器学习如何做好version control???
时间Sat Apr 14 08:47:58 2018
让小孬孬我来献丑一下
不太确定你的计画的细节 但听起来好像是 每次调参数
(这里的参数应该是指超参数的意思吧?)
都要*手动*改script
如果是这样的话 你们的这个script写的不好用
应该要弄一个类似入口 控制台的地方
这个控制台可以让你输入训练资料和超参数 并且*自动*存下log
而log 大概要纪录下:
(1).time stamp; (2) 训练资料版本资讯; (3) 超参数设定; (4)测试成绩
实际的作法应该是用类似 Makefile Make 的方式
或是写一个小script 这个小script 要求你输入 (2)跟 (3)
接着他呼叫你的训练脚本 把(2)(3)传给训练脚本 开始训练测试
最後这个小script就输出 (1)(2)(3)(4) 存在log里
log可能长的像csv 或tsv 千万不要用word阿
不知道我有没有回答到问题 还是我根本误会了 你参考看看 :)
※ 引述《littleyuan (baby)》之铭言:
: 大家好
: 我是ML新手 跟的前辈是很优秀的超强者
: 但是前辈很不organized 写的code总是不commit
: 主管希望下个项目之前我可以提出报告要如何改进并且希望前辈能跟进
: 我是觉得ML和其他写程式有点不同
: 因为不断测试参数 每次调参数都commit的话好像太繁杂 所以我一般是有了好结果才com
: mit一次 不知道大家一般怎麽做的
: 另一个问题是资料库会更新 更新过程那原来的model 不变读到的数据就不一样了那出来
: 的结果也还是不一样
: 这样要怎麽reproduce做出和原来一样正确率??
: 大家会写个word档纪录每次Data的变化吗?
: 想知道大家实际工作上是如何管理的呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 68.230.60.98
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1523666881.A.BC5.html
1F:推 Cprogramming: 推不要用word 04/14 09:16
2F:→ littleyuan: 谢谢你! 因为我和前辈都不是写程式出身所以很多都是 04/14 10:09
3F:→ littleyuan: 自己摸索 前辈理论很强 我则是对公司产品domain knoel 04/14 10:09
4F:→ littleyuan: edge很熟但是ML方面是新手主管要我ML能有一天和前辈 04/14 10:09
5F:→ littleyuan: 能平起平坐所以开始要我lead一些项目累积经验 以後可 04/14 10:09
6F:→ littleyuan: 能还会问很多奇怪的问题谢谢大家的指教了! 04/14 10:09
7F:→ lucien0410: 你们公司如果有其他的程式设计师 可以请他们帮你作这 04/14 10:15
8F:→ lucien0410: 这个小script很容易写 码农等级的就能写出来了 04/14 10:16
9F:→ lucien0410: 可能10行以内 就可以写完了 04/14 10:16
10F:→ lucien0410: 我想通则应该是这样的 像这种重复性高 人类又很容易 04/14 10:22
11F:→ lucien0410: 犯错的任务(e.g. 7打成8的typo 就该让电脑帮你自动做 04/14 10:24