作者pxycho (trolltrolltroll)
看板DataScience
标题Re: [请益] Data Engineer门槛问题
时间Tue Mar 20 13:14:10 2018
以我个人的经验资料这一行可以用开餐厅来比喻
你去一间五星级大饭店的厨房工作
可能就只要专门负责煎鱼或做甜点就好了
其他料理有其他助厨负责
上面有行政主厨决定菜单
下面还有实习生帮杀鱼你削苹果
但是如果你是到路边的小快炒店工作
所有的菜你都要自己炒
菜单要自己定
马铃薯要自己削蒜头也要自己剥
你会建 ML model, tune param 很好
如果有机会到资料相关业务建置完整的大规模公司上班
可能就可以专门负责这一块工作就好
自然会有人帮你把资料准备好让你端来就可以直接丢进去当 training set
但是如果你是去新创公司或是正要建置这种单位的地方...
资料要弄到可以丢进你的 model 之前
光是 data cleaning 就不知道要烧掉你多少时间
我真的看过 5TB 的纯文字资料没有 header 没有 schema 被要求用来建 model
这种时候没有人帮你做 dirty work 就只好自己卷袖子下去搞
要用到的工具不外乎资料库 (SQL, NoSQL), 资料湖 (hadoop)自己建 ETL 模式
然後 AWS 可以帮你省很多跟硬体打交道的时间
(如果公司愿意付钱的话,AWS 也不是每个公司都愿意用,规模不大的话效益有限)
就像很多人在职场中都会从前端工程师、後端工程师通通变成全端工程师
同样的道理不管你是 Data Scientist 还是 Data Analysist 还是 Data Engineer
名称真的不是那麽重要
只能说该会的东西跑不掉
你想要在工作更上一层楼总有些东西是非会不可
※ 引述《sssh5566 ()》之铭言:
: ※ [本文转录自 Soft_Job 看板 #1QhXMqsH ]
: 作者: sssh5566 () 看板: Soft_Job
: 标题: [请益] Data Engineer门槛问题
: 时间: Sun Mar 18 15:30:56 2018
: 之前听一堆广告说ML的缺很多就入坑了
: 但爬了一堆文被一堆人劝退找data scientist 的工作
: 朋友推荐可以找看看Data Engineer
: 目前正在考虑中
: 也在考虑报名这间Bootcamp
: https://imgur.com/2fj4jtA
: https://imgur.com/dVIoKD5
: https://imgur.com/6kpcO3n
: https://imgur.com/mwLkOLC
: 课表大概长这样
: 朋友是说SQL sparks Hadoop AWS
: 这些对找data Engineer的工作有帮助
: 但是由於之前都在接触Machine learning、deep learning的东西
: 只知道怎麽调参数和建model而已
: 也不太清楚是否SQL Sparks Hadoop Aws这些东西是否有趣
: 以及更重要的是,能否训练一两个月後就能找到工作
: 想问下北美 Data Engineer的职缺是否和Front-end一样
: 很容易让非本科系受训後转行?
: (没身分问题)
: 毕竟念web dev的几乎每个去受训後3~6个月都能保障找到工作
: 但爬文Data Engineer无论是中文还是英文资料都挺少的
: 有点不懂既然Data Scienist 门槛那麽高,为何还一堆bootcamp、MOOC、线上课程?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 61.219.237.246
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1521522852.A.88D.html
1F:推 goldflower: 纯好奇5TB那个後来怎麽解 直接断词embedding硬塞吗XD 03/20 14:08
2F:推 Jeffrey11061: 想到data cleaning 头就好痛Orz 03/20 14:36
3F:→ Jeffrey11061: 我也很好奇後来怎麽处理的w 03/20 14:38
4F:推 kokolotl: 现在公司数据分析还没成立单位,还在到处找资料来用 03/20 15:59
5F:→ kokolotl: 然後外部分析公司就跳进来把我想干的事情做掉了 03/20 15:59
6F:→ kokolotl: 还要帮他们弄好资料跟後续应用的部分... 03/20 16:00
7F:推 sssh5566: 几乎每个MOOC都没教清理资料这部分xdd...之前kaggle玩 03/20 19:52
8F:→ sssh5566: 一次後还真觉得有点累。 03/20 19:53
9F:→ abc2090614: 不会/不想清资料就跟耕田不撒种就想收成一样 03/20 19:55
10F:→ abc2090614: 算是把资料变成盈余的必经之路... 03/20 19:56
11F:→ sssh5566: 话说我觉得MOOC一开始就教清洗资料 应该会让一堆人 03/20 19:57
12F:→ sssh5566: 打退堂鼓xdd 03/20 19:57
13F:→ sssh5566: 之前其实还有买过Datacamp,拖到最後两个单元才到ML 03/20 19:58
14F:→ f496328mm: 原始 DATA 用正规去抓?? 03/20 23:56
15F:→ f496328mm: 连SQL都要自己架真的蛮麻烦的 等於重0开始 03/20 23:56
16F:→ f496328mm: 真的最後通通变成全端了 整个流程走过也比较有概念 03/20 23:57