作者pelicanper (派立肯)
看板Soft_Job
標題Re: [請益] 資料科學與網頁後端領域的選擇
時間Sat Sep 21 18:46:40 2019
現實生活中Data Scientist/Engineer/Analyst的界線很模糊
事實上據統計Data Scientist有60%的時間都在做Data Cleaning
這並不表示DE沒有做好自己的工作,DE的功能像是比較進階的BI
但是舉例來說在不同資料庫裡面可能對性別的標註不一樣
DS做Feature Engineering的時候可能要花很多時間去把很多來自不同來源的資料標準化
另外,只會做研究的DS是無法在現實生活中生存,很多專案都是有迫切性的問題要處理
建模型是一回事,如何說服決策者模型可以解決問題是一回事,
把模型Productionize到即時系統裡面又是另一回事,
一個好棒棒的DS用了很酷的R/Python做了一個超屌的Model結果前端系統跑在C#上面
請問接下來該怎麼處理,丟給SE然後說這不關DS的事?
一個ML的Life Cycle裡面有很多事情如果拆開來給太多不同人來做並不會比較快
因為光是溝通就會花掉大半的時間,所以不要對DS抱有太高的期待
除非你待的是研究走向而不是要求產出的部門
不過這也是一種商機,台灣不知道有沒有公司用DataRobot
這家公司就是專門提供機器學習自動化的解決方案,也就是說當資料準備好了
DataRobot可以自己跑上百的不同的模型,分析並以Performance來建議最好的模型
當你選擇好模型之後可以自動產生API,所以前端只需要套API就可以用
當然細節上還有很多可以微調,DataRobot還可以自動產生技術文件
尤其是對一些有金融規範審查需要的公司就很方便,我們公司這兩年導入
Snowflake資料庫和DataRobot做機器學習,整個部門包括我只有三個人
從ETL到ML/Tableau全做,事實上沒有人說自己專門做甚麼
可是也是因為這樣做起來很有效率,東西在三個人手上大家都知道甚麼是甚麼
參考一下...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.98.136.57 (紐西蘭)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1569062802.A.E41.html
1F:推 king22649: 這API是落地的? 09/21 18:55
2F:推 b10130402C: 謝謝p大的分享,p大這份工作前是什麼領域的啊? 09/21 20:57
3F:推 wilson85771: 推,非常接地氣的回文 09/22 02:28
4F:推 neo5277: C# 不好嗎? 09/22 03:29
5F:推 laba5566: 不想花錢請人做模型用datarobot還挺方便的 09/22 09:40
6F:推 kuan07: 現在可以用的工具太多了 工作上 從清理資料到建模產生ap 09/22 10:41
7F:→ kuan07: i都一條龍了 09/22 10:41