作者pelicanper (派立肯)
看板Soft_Job
标题Re: [请益] 资料科学与网页後端领域的选择
时间Sat Sep 21 18:46:40 2019
现实生活中Data Scientist/Engineer/Analyst的界线很模糊
事实上据统计Data Scientist有60%的时间都在做Data Cleaning
这并不表示DE没有做好自己的工作,DE的功能像是比较进阶的BI
但是举例来说在不同资料库里面可能对性别的标注不一样
DS做Feature Engineering的时候可能要花很多时间去把很多来自不同来源的资料标准化
另外,只会做研究的DS是无法在现实生活中生存,很多专案都是有迫切性的问题要处理
建模型是一回事,如何说服决策者模型可以解决问题是一回事,
把模型Productionize到即时系统里面又是另一回事,
一个好棒棒的DS用了很酷的R/Python做了一个超屌的Model结果前端系统跑在C#上面
请问接下来该怎麽处理,丢给SE然後说这不关DS的事?
一个ML的Life Cycle里面有很多事情如果拆开来给太多不同人来做并不会比较快
因为光是沟通就会花掉大半的时间,所以不要对DS抱有太高的期待
除非你待的是研究走向而不是要求产出的部门
不过这也是一种商机,台湾不知道有没有公司用DataRobot
这家公司就是专门提供机器学习自动化的解决方案,也就是说当资料准备好了
DataRobot可以自己跑上百的不同的模型,分析并以Performance来建议最好的模型
当你选择好模型之後可以自动产生API,所以前端只需要套API就可以用
当然细节上还有很多可以微调,DataRobot还可以自动产生技术文件
尤其是对一些有金融规范审查需要的公司就很方便,我们公司这两年导入
Snowflake资料库和DataRobot做机器学习,整个部门包括我只有三个人
从ETL到ML/Tableau全做,事实上没有人说自己专门做甚麽
可是也是因为这样做起来很有效率,东西在三个人手上大家都知道甚麽是甚麽
参考一下...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.98.136.57 (纽西兰)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1569062802.A.E41.html
1F:推 king22649: 这API是落地的? 09/21 18:55
2F:推 b10130402C: 谢谢p大的分享,p大这份工作前是什麽领域的啊? 09/21 20:57
3F:推 wilson85771: 推,非常接地气的回文 09/22 02:28
4F:推 neo5277: C# 不好吗? 09/22 03:29
5F:推 laba5566: 不想花钱请人做模型用datarobot还挺方便的 09/22 09:40
6F:推 kuan07: 现在可以用的工具太多了 工作上 从清理资料到建模产生ap 09/22 10:41
7F:→ kuan07: i都一条龙了 09/22 10:41