作者applehpsh ()
看板DataScience
标题Re: [请益] Data Engineer门槛问题
时间Wed Mar 21 11:20:14 2018
给想入行的人 你有3/4以上的时间都在清整资料
都在想办法建置资料库 都在想办法要如何汇整资料
现在各大社群都在炒作建模 好像这些真的很重要
真的很重要 可是却不是唯一重要的事情
从SQL或NoSQL资料库建置
一堆环境的建立
资料进资料库前的设计规划
不同资料源间要如何汇整 要如何自动汇入
等到这些东西都弄好了
好来 我们开始去做资料清整
好不容易清整完了 又突然多了一个资料源来
再回去想办法把资料库弄好
弄好完再清整
清整完又发现哪边有问题一直循环
好不容易都弄完了
我们才可能可以开始建模呢!
什麽? 你说你想当「资料科学家」负责建模就好?
你他妈的资料都拿不到手 你以为你可以坐着看大家忙得焦头烂耳然後爽爽等建模?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.138.88.119
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1521602417.A.0F6.html
1F:推 Jeffrey11061: 这篇怨念好深啊XD 辛苦了 03/21 12:36
2F:推 kokolotl: 同意~ 把底层弄好後 整碗就被捧走了 帮QQ 03/21 15:18
3F:→ kokolotl: 老板表示:公司内部人员不足,找外部合作好了 03/21 15:20
4F:→ kokolotl: 然後内部人员继续苦苦干黑手 03/21 15:20
5F:→ kokolotl: 真的只想建模就去提供数据分析服务的公司当小弟 03/21 15:24
6F:推 chen1025: 八成的时间都是在做资料仓储 资料清洗 03/21 16:11
7F:→ sssh5566: 好奇没有Data Engineer帮忙做这些工作吗? 03/21 16:48
8F:→ sssh5566: 我原本是想改朝Data Engineer准备,但看半天时在不知 03/21 16:48
9F:→ sssh5566: 怎自学 03/21 16:48
10F:→ sssh5566: 既然Data Engineer缺的人比较多。。何不多开几个班 03/21 16:49
11F:→ sssh5566: 目前大多是以教如何成为data scientist的课程 03/21 16:50
12F:→ applehpsh: 其实我是觉得实务上没办法分得那麽细 03/21 17:03
13F:推 minikai: 这篇才是事实 03/21 17:19
14F:推 kokolotl: 公司不会多找一个资料工程师,顶多IT抓人来协助一下 03/21 17:31
15F:→ goldflower: 那是鸟公司吧我想 03/21 18:02
16F:→ goldflower: 因为大家觉得data engineer不好玩啊 最不爽的部分 03/21 18:03
17F:→ goldflower: 开课要开有梦的才好吸引人 03/21 18:03
18F:推 kokolotl: 规模太小 /__\ 03/21 18:20
19F:推 goldflower: 规模小的公司应该也没分什麽唉踢啦 大概都全包了QQ 03/21 18:48
20F:推 kokolotl: 数据分析人员就挂在IT内 说小应该是分析人员规模小XD 03/21 18:56
21F:推 chen1025: 其实资料清理这些不会太难 都可以自己跳下来做 这样资 03/21 19:10
22F:→ chen1025: 料的弹性会很大 我认为不需要分太细 03/21 19:10
23F:推 chen1025: 而建模是这部分最快的 不过建模好坏 牵涉到你对产业的 03/21 19:15
24F:→ chen1025: 熟悉性 03/21 19:15
25F:推 chen1025: 另一点则是 当你对资料处理深入的越细 你就对资料的熟悉 03/21 19:19
26F:→ chen1025: 度越强 那麽训练出来的效果会更好 不需要再分资料工程师 03/21 19:19
27F:推 mk99: 我听过:「建模已经好了,只需要一点点时间处理资料就好」 03/21 19:20
28F:→ mk99: 然後我就肯定他真的一点都不懂ML 03/21 19:21
29F:推 chen1025: 像是资料处理过程中 会感觉到资料分布是稀疏的 还是紧密 03/21 19:22
30F:→ chen1025: 的 当你有概念时 这个建模就可以参考 有些并不是图表能 03/21 19:22
31F:→ chen1025: 马上体会的 必须要在资料处理中才能发现 03/21 19:22
32F:推 Kazimir: 难不难看资料来源啦 有一些使用者自定义输入的 鸠咪窝 03/21 20:08
33F:推 chungyiju: XD 03/23 11:16
34F:推 alznn: 真诚推 04/02 14:56