作者applehpsh ()
看板DataScience
標題Re: [請益] Data Engineer門檻問題
時間Wed Mar 21 11:20:14 2018
給想入行的人 你有3/4以上的時間都在清整資料
都在想辦法建置資料庫 都在想辦法要如何彙整資料
現在各大社群都在炒作建模 好像這些真的很重要
真的很重要 可是卻不是唯一重要的事情
從SQL或NoSQL資料庫建置
一堆環境的建立
資料進資料庫前的設計規劃
不同資料源間要如何彙整 要如何自動匯入
等到這些東西都弄好了
好來 我們開始去做資料清整
好不容易清整完了 又突然多了一個資料源來
再回去想辦法把資料庫弄好
弄好完再清整
清整完又發現哪邊有問題一直循環
好不容易都弄完了
我們才可能可以開始建模呢!
什麼? 你說你想當「資料科學家」負責建模就好?
你他媽的資料都拿不到手 你以為你可以坐著看大家忙得焦頭爛耳然後爽爽等建模?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.138.88.119
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1521602417.A.0F6.html
1F:推 Jeffrey11061: 這篇怨念好深啊XD 辛苦了 03/21 12:36
2F:推 kokolotl: 同意~ 把底層弄好後 整碗就被捧走了 幫QQ 03/21 15:18
3F:→ kokolotl: 老闆表示:公司內部人員不足,找外部合作好了 03/21 15:20
4F:→ kokolotl: 然後內部人員繼續苦苦幹黑手 03/21 15:20
5F:→ kokolotl: 真的只想建模就去提供數據分析服務的公司當小弟 03/21 15:24
6F:推 chen1025: 八成的時間都是在做資料倉儲 資料清洗 03/21 16:11
7F:→ sssh5566: 好奇沒有Data Engineer幫忙做這些工作嗎? 03/21 16:48
8F:→ sssh5566: 我原本是想改朝Data Engineer準備,但看半天時在不知 03/21 16:48
9F:→ sssh5566: 怎自學 03/21 16:48
10F:→ sssh5566: 既然Data Engineer缺的人比較多。。何不多開幾個班 03/21 16:49
11F:→ sssh5566: 目前大多是以教如何成為data scientist的課程 03/21 16:50
12F:→ applehpsh: 其實我是覺得實務上沒辦法分得那麼細 03/21 17:03
13F:推 minikai: 這篇才是事實 03/21 17:19
14F:推 kokolotl: 公司不會多找一個資料工程師,頂多IT抓人來協助一下 03/21 17:31
15F:→ goldflower: 那是鳥公司吧我想 03/21 18:02
16F:→ goldflower: 因為大家覺得data engineer不好玩啊 最不爽的部分 03/21 18:03
17F:→ goldflower: 開課要開有夢的才好吸引人 03/21 18:03
18F:推 kokolotl: 規模太小 /__\ 03/21 18:20
19F:推 goldflower: 規模小的公司應該也沒分什麼唉踢啦 大概都全包了QQ 03/21 18:48
20F:推 kokolotl: 數據分析人員就掛在IT內 說小應該是分析人員規模小XD 03/21 18:56
21F:推 chen1025: 其實資料清理這些不會太難 都可以自己跳下來做 這樣資 03/21 19:10
22F:→ chen1025: 料的彈性會很大 我認為不需要分太細 03/21 19:10
23F:推 chen1025: 而建模是這部分最快的 不過建模好壞 牽涉到你對產業的 03/21 19:15
24F:→ chen1025: 熟悉性 03/21 19:15
25F:推 chen1025: 另一點則是 當你對資料處理深入的越細 你就對資料的熟悉 03/21 19:19
26F:→ chen1025: 度越強 那麼訓練出來的效果會更好 不需要再分資料工程師 03/21 19:19
27F:推 mk99: 我聽過:「建模已經好了,只需要一點點時間處理資料就好」 03/21 19:20
28F:→ mk99: 然後我就肯定他真的一點都不懂ML 03/21 19:21
29F:推 chen1025: 像是資料處理過程中 會感覺到資料分布是稀疏的 還是緊密 03/21 19:22
30F:→ chen1025: 的 當你有概念時 這個建模就可以參考 有些並不是圖表能 03/21 19:22
31F:→ chen1025: 馬上體會的 必須要在資料處理中才能發現 03/21 19:22
32F:推 Kazimir: 難不難看資料來源啦 有一些使用者自定義輸入的 鳩咪窩 03/21 20:08
33F:推 chungyiju: XD 03/23 11:16
34F:推 alznn: 真誠推 04/02 14:56