作者SFMAndroid (安卓發送)
看板Soft_Job
標題Re: [請益] 資料科學與網頁後端領域的選擇
時間Sat Sep 21 01:18:56 2019
※ 引述《b10130402C (Klay射手)》之銘言:
: 版上大大們好,如題,想請教各位的意見以及徵詢大家的看法,謝謝。
: 目前為自學 Python 兩個月半,從最基本的能力迴圈、def、class等觀念重新學起,學會技能列點表示:
: 1. 程式基本觀念活用 ( 迴圈 、陣列、 python 中的 class 類觀念、Dict 使用 、 csv.DictRead & DictWriter 使用、tkinter 按照課程操作一遍)
: 都是跟著 Coursera 學習,皆可完成課程作業。
: 2. Python 中的 Modules ( Numpy , Pandas DataFrame , Matplotlib 畫圖操作 ) 莫凡影片加上第三點的 Side Project 會頻繁複習 1 & 2
: 3. 爬蟲技巧 ( request , BeautifulSoup , Selenium webdriver 等操作 ) 有自己寫出兩個小小的 Side Project ( 爬 2019 電影版好雷的電影 & 爬簡單股市
: 存進 SQLite 練習操作資料庫)
: 4. Django MTV 系統練習,已成功作出小部落格跟 To-do-list ,也練習 heroku 上傳成功
: 5. 因為對資料科學有興趣,統計還算過得去,但是管院沒修過線代,重修李宏毅老師的線代跟買書瞭解機器學習概念
: 未來會花時間學習「資料結構」與「演算法」跟開始作 LeetCode ,自己對於網頁後端跟資料科學都很感興趣,自學兩個月還蠻開心每天都有進步。
: 後續要找工作,時間壓縮情況下,勢必只能往一個領域的技能樹點。
: 資料科學領域:發現要找資料分析工程師或是機器學習相關的工作,還沒辦法實戰 ( 還沒打過 Kaggle ),普遍好像對於學歷都蠻要求要博士或是工作經驗3年以上,對於這塊領域在業界的趨勢也不是很瞭解,如果求職此方面工作是否需要作品集? 想請教此領域在業界新鮮人的能力要求或是發展?
: 網頁後端領域: Django 後發現作網頁蠻好玩的,但我的致命缺點為前端能力 ( HTML 、 CSS 、 Javascript )完全沒有,HTML 只知道是標籤組成,寫網頁也是硬擠出來,後續往此領域勢必要將前端的洞補起來,有摸過 MySQL 跟 SQLite 作前後端串聯,想請問各位大大後端工程師相對於前端能呈現的作品集大致上呈現為何? 對於網頁後端的發展我的看法為比起資料科學相對成熟,也想聽聽看大大對於後端工程師的看法。
: 謝謝各位花時間看完,因為真的有點迷惘,所以跑上來詢問,有任何建議或批評也可以直接點出,非常謝謝你們!!
統計轉後端的來說一下心得
之前分別做過一個Data Analyst和一個Data Scientist的實習
全職後端大概2年
現在在唸資工碩班
------
說一下我理解的幾個不同職位的差別與技能
如果有錯誤歡迎指正,
但我可能不會回,最近太忙了......
Data Analyst
技能: R, Python, SQL, Hadoop(較少), SAS, SPSS(較少), Tableau
知識:
說人話, 精美報告, 敘述統計, 基本建模, 問卷設計(較少), 資料處理,
資料視覺化(重要)
Data Scientist
技能: R, Python(主要), SQL, NoSQL, Hadoop(較少), SAS(較少), SPSS(較少)
知識: 高階演算法(主要)、專業報告, 一堆paper(重要), ML, NN, DL, EL, 爬蟲(較少), 資料處理,
超難建模, 依領域(Signal processing, image processing, NLP, etc.),
作業系統, 平行系統, GPU運算, 計算機網路, ...
Data Engineer
技能: 同Data Scientist
知識: 進階演算法(重要)、跟Data Scientist混熟, ML, 爬蟲(主要), 資料處理(主要),
作業系統(重要), 平行系統(重要), 雲端運算(重要),
GPU運算(重要), 計算機網路(重要), ...
NOTE: 以上三種我相信是大多數人容易混淆的,
但事實上業界也沒分這麼細,
多得是徵Data Scientist做Analyst甚至是DBA事情的公司,
反之亦然,請在面試時就問清楚,
除非是國際型大公司。
Backend Engineer
技能: Java(Spring), Python(Django), JS(Node), Ruby(RoR), php(Laravel),
SQL, NoSQL, AWS, Version Control Tools(主要)
知識(主要): 資料庫設計、軟體工程、Scrum, DevOps, 作業系統、計算機網路、
物件導向設計、資料結構, 計算機組織/結構、
依領域(Web: JWT, Session Mgmt., Optimization, Load Balancing, ...)
演算法(普通), 設計模式(普通), 雲端儲存, RESTful APIs
Frontend Engineer
技能: 前端三大框架(React(FB), Vue(Evan You), Angular(Google))(主要),
HTML5/CSS3(主要), Sass(普通), JavaScript(主要), ...
知識: 切版(重要), 和UI/UX合作良好(主要), 軟體工程, Scrum, DevOps,
瀏覽器引擎(普通), Optimization, 設計模式(普通), ...
Data Analyst
通常會直接support行銷/決策團隊/老闆/客戶,
根據分析結果提供他們意見,
所以
說人話非常重要,
不然事後絕被老闆噹爆,
當然精美的PPT也是不可少的。
Data Scientist
極度研究導向,
通常都是在公司的研究團隊裡開發,跟paper為伍,
我覺得沒有博士根本做不起來,
恕我才疏學淺無法評論,總之都是神人等級的。
但基本上完全
不會參與決策過程,
也不太需要跟客戶社交,
簡報就是很專業,不用迎合平民百姓。
Data Engineer
主要support Data Scientist,
畢竟DS都把精力花在研究模型上了,
資料處理這種活當然是給Engineer做,
所以DE主要就是負責把Data來源、品質處理好,
還有把運算環境等搞好讓DS方便作業,
不要動不動就跑到系統crash。
當然台灣有些會把Data Engineer和Data Scientist的職責綁一起,
我是覺得這樣會把人累死......
還剩下前/後/全端沒講,但PTT真的太難編輯了,
加上我離伺服器太遠,文章打起來好頓...就先這樣吧。
希望能讓一些想轉行的、想了解的有收穫,
有些typo或不通順的地方還請包涵,
感謝各位~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 71.234.178.193 (美國)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1568999938.A.30F.html
※ 編輯: SFMAndroid (71.234.178.193 美國), 09/21/2019 01:21:59
※ 編輯: SFMAndroid (71.234.178.193 美國), 09/21/2019 01:27:02
※ 編輯: SFMAndroid (71.234.178.193 美國), 09/21/2019 01:32:24
1F:→ fyc22122: Data scientist絕對很多都要兼你講的Data Analyst 尤其 09/21 01:47
2F:→ fyc22122: 一些非lab跟非科技業的 09/21 01:47
3F:→ fyc22122: 而且senior data scientist 很多也是要帶領團隊跟專案 09/21 01:49
4F:推 BignoZe: 好文 推 09/21 02:10
5F:推 backprog: 相當清楚推 09/21 02:15
6F:推 fishstay: 好文推 09/21 02:34
7F:推 Saaski: push 09/21 03:27
8F:推 chocopie: 推 09/21 03:41
9F:推 olycats: 本身做資料分析/資料工程各半 寫得不錯推推 09/21 03:55
10F:推 rainingmoon: 好文推 09/21 03:58
11F:→ DrTech: 這叫好文?。資料科學家真的被亂用了 09/21 07:58
12F:→ DrTech: 不太需要跟業務打交道?那間公司阿 09/21 07:59
13F:→ DrTech: 只搞技術怎麼做資料科學家呢 09/21 08:00
14F:→ DrTech: 離開業務的資料科學,或建模怎麼做? 09/21 08:05
15F:→ DrTech: 真正工作時,又有多少時間在寫程式或訓練模型呢? 09/21 08:10
16F:→ Murasaki0110: 算了啦,這邊不是剛畢業就是只需要default model的 09/21 08:26
17F:→ Murasaki0110: 公司 09/21 08:26
18F:推 pk790127: 好文推推 09/21 08:31
19F:推 vincentman: 還不錯的文,推一個 09/21 08:54
20F:推 sxy67230: DS不只在台灣,在國外除非像google 這些巨頭公司,要不 09/21 08:56
21F:→ sxy67230: 然其實做的工作一樣很雜,分析報告、研究新模型、甚至 09/21 08:56
22F:→ sxy67230: 到後端架構、業務面向其實都會包到的。薪資差距也極高, 09/21 08:56
23F:→ sxy67230: 強者就是越來越高,普通人就只能往另一邊靠攏。 09/21 08:56
24F:推 sxy67230: 能進去巨頭的DS也是萬中選一的人才,當然挑戰也很高 09/21 08:58
25F:→ SFMAndroid: 抱歉 DS的樣本只有2個 一個G一個MS 09/21 09:22
26F:→ SFMAndroid: 我自己以前做DS也是全包 09/21 09:23
27F:→ SFMAndroid: 所以我覺得很多公司的DS都不是DS 09/21 09:23
28F:→ SFMAndroid: 所以後來就放棄DS了XDD 09/21 09:24
29F:推 gbd37: 寫得不錯 某樓就別氣了 本來大家對DS的認知不一 09/21 09:54
30F:推 loveu8: 推!!~ 09/21 10:26
31F:推 b10130402C: 謝謝S大花時間回一篇文告訴我業界資料科學的狀況,真 09/21 10:58
32F:→ b10130402C: 的很感謝你,含金量很高,可以幫助我們多了解DS這塊領 09/21 10:58
33F:→ b10130402C: 域,我先把這篇收藏起來 09/21 10:58
34F:→ b10130402C: 不過 Data analyst跟我想像差異最大,感覺被當作業務 09/21 11:00
35F:→ b10130402C: 使用 09/21 11:00
36F:→ Hsins: DA 很多缺是開給社科院的 09/21 11:32
37F:推 PoloHuang: 受用了 09/21 11:34
38F:推 mirror0227: 好文推 09/21 12:39
39F:→ joejoe14758: 業界不一定是這樣啦 至少台灣和美國還是有落差的 09/21 12:40
40F:推 zero11995: 推 09/21 12:44
41F:推 judge1226: 推,雖然我覺得台灣真的是混用了QQ 09/21 13:52
42F:推 cougarboy: 推 09/21 14:43
43F:→ netburst: 切版應設計師切吧 09/21 15:06
44F:→ netburst: 應該說介於前端工程<>設計師 09/21 15:06
45F:→ wilson85771: 台灣純研究的 DS 缺真的太少了,不要過度美化 DS 工 09/21 15:35
46F:→ wilson85771: 作 09/21 15:35
47F:推 g5637128: 推,希望之後有空的話能再講講前/後/全端的部份 09/21 19:16
48F:推 yupog2003: 推整理清楚 09/21 20:56
49F:推 a2768387: 推推 09/21 20:59
50F:推 pipisn1024: 超詳細 推推 09/21 22:18
51F:推 Csongs: 是不是有重複啊@@ 09/22 12:34
52F:→ Csongs: 但還是詳細給推 09/22 12:35
53F:推 kuantingyu: 對於想踏進這領域的新手 很大的幫助 感謝 09/22 17:31
54F:推 casd82: 感覺超多人想做DS 09/22 21:04
55F:→ lukelove: 事實上看到的DS就是點不同技能的BE, leetcode刷一刷 09/23 00:10
56F:→ lukelove: 問你尻過什麼套件, 怎麼建product, etc 09/23 00:10
57F:→ lukelove: 由於最靠近產品, 動不動要你從頭追root cause追到尾 09/23 00:11
58F:推 w60904max: 台灣很多DS就只是後端 call的API變sklearn或keras XD 09/23 01:22
59F:推 ruokcnn: 在台灣掛DS的沒想像中那麼神 09/24 00:41
60F:推 louner: 淚推把人累死那段 台灣就是丟一個問題 要你全包資料蒐集 09/24 12:30
61F:→ louner: 清理 設計feature 跑model 開發部署跟維運 同時還要你做其 09/24 12:30
62F:→ louner: 他backend的事 幹 09/24 12:31
63F:推 sxy67230: 其實這反應了一個現象,業界經理人對DS領域的了解不夠深 09/24 18:39
64F:→ sxy67230: 。光是看到演講某些企業經理人拿套件出來講講幹話就知道 09/24 18:39
65F:→ sxy67230: 了。我還看過拿三個分類,3000筆數據的量來說自己效果屌 09/24 18:39
66F:→ sxy67230: 打一條街的,還有一堆在吹噓的大概就知道程度在哪邊了。 09/24 18:39
67F:→ sxy67230: 很多企業就是拿有深度學習的技術椪風,套套模板就說自己 09/24 18:39
68F:→ sxy67230: 有技術的那種程度。 09/24 18:39
69F:→ Hsins: 我也見過拿 SAS 跑一跑就說自己大數據,洋洋得意說只要匯入 09/25 09:23
70F:→ Hsins: 資料就好的。 09/25 09:23
71F:推 aaa12478: 收藏 09/27 10:50
72F:推 pig22022: 主要還是看team的組成,根據某在台美商現況,DS除了trai 09/27 17:41
73F:→ pig22022: n model和寫pipeline外,要跟pm和BE依照業務需求調整和 09/27 17:41
74F:→ pig22022: 做系統整合。通常science team也不是人人做research,會 09/27 17:41
75F:→ pig22022: 有部分的人處理BE和pipeline的整合。 09/27 17:41