Soft_Job 板


LINE

※ 引述《joyste0102 (Joyce)》之铭言: : 晚安,大家,不好意思有以下生涯发展想请问: : 朋友商管背景,工作大概3年,想转职Data analysis/data engineering或是偏backend的工作,请问各位转职大神有什麽建议呢? : 目前有几个想法是这样: : 1. 不要去考研究所,成本太高也不太需要。 : 2. 去上线上课程Python跟Database开始测试自己的兴趣,然後一路上到data visualization之类的。 : 3. 去Bootcamp。Alpha Camp只有Full stack似乎不太适合?要去App Works?还有其他的吗?Hahow有什麽好课程推荐吗? : 另想询问各位推荐几件事情: : 1. 台湾的线上或是实体课程。英文程度OK,但还是希望以中文先入手,然後有人可以问可以讨论最好。目前有在上班,现在是淡季可以晚上上线上,不排斥两三个月後辞职准备。 : 2. 课程地图。想请问自己在家上MOOC的话,应该是怎样的顺序然後才去衔接比方说App Works的Boot camp呢?比较不希望一张白纸就去上,上之前的前期工作要准备好。所以我才会开Python基本语法然後DB,但是到Data Visualization的中间,还有哪些东西可以上MOOC的呢? : 非常感谢大家的协助,谢谢~ : ----- : Sent from JPTT on my Realme RMX2144. 其实看到这篇真的感触很深,这几年DS变显学但是再屌的DS後面都还是传统的BI 只是现在为了要吸引人来应徵和跟上潮流大家都一定要讲Data Science... 我现在刚好就在纽西兰某一万五千人的公家机关当DS Manager 但是我的部门其实是一个SAS平台从Data Warehouse到Visualisation和Analytics 不管前面的专案用甚麽资料模型,一大堆PhD(Permanent Head Damage) 都还是要仰赖ETL,然後我们招人头衔开Data Scientist来丢履历的都可以包山包海 面试前30分钟丢考卷里面大概六大类考题,请他们能做多少做多少 每个都写会R/Python/SAS,做过Power BI/Tableau,成功的ML专案 然後丢一个辗转相除法用SAS写Macro,问为什麽 select * from a inner join b on a.id = b.id 有问题 来个Left Skewed Bar Chart请他们提供更好的视觉化 再来个Confusion Matrix比较outcome 最後问一个怎麽追踪量测已经上线的ML 结果...全挂@@ 尤其在底层的程式语言和资料仓储现在有能力的越来越难找 所以回到原PO的问题,其实我到觉得Data Backend非常有搞头 因为传统ETL越来越跟不上现代快速大量然後一直变化的需求 从老式Dimensional Modelling到後来Data Vault到现在都Realtime data pipeline 要能够建立维护一个稳定又效率的资料仓储尤其在像是大企业或是政府机关 真的难度很高,我们有超过1,800个source table 每天大约六十四亿笔资料更新,1.1Tb资料在伺服器间往返 然後编制...六个人,而且还不能加班 现在薪水开到约两百二十万台币还真的很难找人 (不好意思我们乡下地方不能跟美国比) 所以有机会进Data Backend的话其实还蛮推荐的哇哈哈~~~ --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 101.100.130.214 (纽西兰)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1623414606.A.E94.html
1F:推 lairrol: data sourece 量大又要即时 搬到哪个领域都是大问题 06/11 20:34
2F:推 kokolotl: 一般招DS都是考这类题目吗 06/11 20:35
题目是我出的哇哈哈,因为既然每个都包山包海我就甚麽都考...一点 然後专门找上网找不到或是没有一定答案的 最後一轮前三十分钟才公布考题,而且题目多到很难全做完 这样考的人一定会选自己知道得先写这样马上就知道这家伙大概领域在哪
3F:→ lairrol: 羡慕这个使用量 小弟还没摸过 Tb 等级的量... 06/11 20:36
※ 编辑: pelicanper (101.100.130.214 纽西兰), 06/11/2021 20:40:56
4F:推 kokolotl: 原来如此~ 感谢 06/11 20:42
5F:推 Apache: 酷欸 06/11 21:00
6F:推 chocopie: inner join 考题感觉很有趣 06/11 21:19
7F:推 yoche2000: 受教了 推 06/11 21:29
8F:推 drajan: 这个inner join我看不出来哪里有问题,求教 06/11 23:14
9F:→ drajan: 你问的问题需要一个有几年经验的ML/Data工程师才回答的出 06/11 23:15
10F:推 x246libra: 我也想知道inner join有什麽问题,是否还要知道,ab各 06/11 23:24
11F:→ x246libra: 别资料才能看出问题? 06/11 23:24
12F:推 everglows: 真好奇这样的问题考得出监别度吗 06/11 23:24
13F:→ everglows: ds面试超难准备 很广又因应不同的面试者 会有不同问题 06/11 23:25
14F:→ everglows: 之前onsite 其中一轮的interivwer只问我电脑配备是什麽 06/11 23:25
15F:→ everglows: 怎麽处理记忆体有效使用的问题 没错就这样而已 06/11 23:26
16F:→ everglows: 老实说 问个很偏的题目 在否定candidate的实力不是很认 06/11 23:27
17F:→ everglows: 同 要说实务上会遇到就算了 06/11 23:27
18F:→ everglows: 要jr role就问观念基础 跟测验程式能力 06/11 23:28
19F:→ everglows: sr role就直接问实际接触到的case or case study 06/11 23:28
20F:→ everglows: 到底是要考倒candidate还是知道测试实力? 06/11 23:29
21F:→ everglows: 有时候该准备都准备了 题也刷了 被问到很偏的问题答不 06/11 23:31
22F:→ everglows: 出来 真的内心很干Orz 06/11 23:31
23F:推 kokolotl: 是不能接受select * 吗 ,求解 06/11 23:34
24F:→ sextitanic: 比较好奇a跟b的id的关系,为何不是 a.id = b.a_id 06/12 00:25
25F:推 chocopie: 10楼的方向有点接近了 06/12 00:45
26F:推 Nonsense8: 1 to 1 relationship? 06/12 02:33
27F:推 wahaha279: 如果用id当外键,可以重新审视一下为什麽要分两个table 06/12 02:47
28F:→ wahaha279: 。 06/12 02:47
29F:推 drajan: Star schema吧 06/12 02:49
没想到大家对这个inner join的问题这麽有兴趣 这个问题有两个角度... 第一个是效率,select * 意思就是全部,如果两个表格都超大 那就要问为什麽一定要如此详细的资料,譬如说回传>100G的资料产生的问题 不是CPU或是Memory而是网路频宽,尤其在企业级的平台即使设备再好 常常瞬间爆量的传输量都有可能瘫痪系统,我之前在银行就发生过两次 有人用select * from a inner join b on a.id = b.id向核心系统发指令 因为回传量瞬间太大导致核心系统无法回应导致瘫痪网路银行 第二个角度是从ETL的维护, select * 的问题是如果没有把栏位写清楚 如果上游加了删了或改了一个下游没有在用的栏位就会让自动化的流程产生错误 现在很多ETL都是用软体像是Wherescape Red, Talend, Informatica等等 现代的ETL软体大部分可以解决这个问题,因为都用拖拉的 基本上这个问题会出现在使用custom query在某些特定场合 或是在某些程式语言嵌入的SQL 这个select * from a inner join b on a.id = b.id 是要看来应徵的有没有大型企业ETL或是在实务上对资料量与环境的影响够不够敏感 尤其是SAS,因为SAS很特别所有的程式都跑在伺服器上不是客户端 加上因为安全考量我们没有用云端,这个部分就会是面试中一个值得注意的眉角 另外补充说明一下... 其实影响面试的面相很多,像广义的DS真的一两样没有答得很好也不一定会影响结果 而且很多东西是经验的累积用错误和血汗才能换来 到最後都是综合评比和这个人适不适合这个位置而已 我个人也是从银行传统BI然後再新创ML+BI,现在进政府机关一年後当个小主管这样 当初能被看上是因为技能树很广,但是我旁边那个博士DS就是除了ML其他不插手 所以我的功能现在就是把所有的鸟事揽在身上,这样下面的就可以专注做目前最重要的 一个团队要各种不同的人所以没有甚麽一定是怎样 这个行业就是这样,永远都学不完 共勉之 ※ 编辑: pelicanper (101.100.130.214 纽西兰), 06/12/2021 03:31:23 ※ 编辑: pelicanper (101.100.130.214 纽西兰), 06/12/2021 04:04:51
30F:推 expiate: 对我来说你比较需要的是data engineer而不是DS 06/12 04:19
31F:→ pelicanper: 就这个inner join问题是,但是上面原文就不只这个问题 06/12 04:37
32F:→ pelicanper: 只能做DS的DS对我们来说只是一种理想哇哈哈 06/12 04:38
33F:推 Apache: 不然找个会DS的DE好了 06/12 04:40
34F:→ pelicanper: 来应徵的都说会啊@@还有履历Web到ML全包的 06/12 04:44
35F:→ pelicanper: 我就是看了人资给我Short List的履历才决定这样考 06/12 04:45
36F:推 loveu8: 哈 看工作内容就真的很有趣,不过人员编制少 06/12 10:07
37F:→ loveu8: 真的有时候面临这麽大资料量要处理时 06/12 10:07
38F:→ loveu8: 就会很辛苦去处理 06/12 10:07
39F:→ loveu8: inner join 会面临许多问题在於大资料量的状况下 06/12 10:07
40F:→ loveu8: l.两个资料的量体是不是太大,大到记忆体都无法放进去 06/12 10:08
41F:→ loveu8: 2.就算放进去记忆体里面,还会面临过於复杂的运算 06/12 10:08
42F:→ loveu8: 可能会有算不出来的状况 06/12 10:08
43F:→ loveu8: 3.若要一定得运算出结果,有时inner join 06/12 10:09
44F:→ loveu8: 产生资料遗失的部分,该怎麽调整 06/12 10:09
45F:→ loveu8: 4.inner join 有时会改用 指定colume+sub query 06/12 10:10
46F:→ loveu8: 减少资料的输出,加快运算结果 06/12 10:10
47F:→ loveu8: 5.如果这个join结果是必须常使用,是不是要建立view 06/12 10:11
48F:→ loveu8: 给需要的单位去查看 06/12 10:11
49F:→ loveu8: 6.资源很重要,每一笔query都是钱,怎样花费最少的cost 06/12 10:12
50F:→ loveu8: 查出想要的结果,正确判断资料集该用怎麽方式去获取 06/12 10:13
51F:→ loveu8: 7.分析join的必要性,有时需求单位给了一项议题 06/12 10:14
52F:→ loveu8: 很多自然会想要利用join去解决问题 06/12 10:14
53F:→ loveu8: 但有时资料的乾净程度与内容很重要 06/12 10:15
54F:→ loveu8: 才不会白作工 06/12 10:15
55F:→ loveu8: 以上是偶尔协助资料分析的经验 06/12 10:16
56F:→ loveu8: 才会理解这个水很深,不是做完程式就没事 06/12 10:16
57F:→ loveu8: 无时无刻需要调整优化,并回馈真实结果,而改善 06/12 10:17
58F:→ loveu8: 真实世界我们面临问题,进而改善,是这门技术存在之需求 06/12 10:17
59F:→ loveu8: 只是想进去的人很多。在里面的人 说不出里面的苦 06/12 10:18
60F:→ loveu8: 等入门後,大家一起跳坑了XD 06/12 10:19
61F:推 sammythekid: 架构上就有问题了,怎麽能够在online service query 06/12 17:36
62F:→ sammythekid: loveu8大大讲得太中肯。调整优化回馈结果&改善 06/12 17:37
63F:→ bowin: 感谢你的精辟分享。可惜若没有对PhD的偏见就更好了 06/12 22:06
PhD那个就开玩笑,学士BS=Bull Shit,硕士MS=More Shit啦哇哈哈
64F:推 sammythekid: 总之还是感谢分享。抱歉这样推文会有误会。感谢分享 06/12 23:54
※ 编辑: pelicanper (101.100.130.214 纽西兰), 06/13/2021 14:56:19
65F:推 endlesswalk: select不能用*取全部栏位是因为有时候会取太多资料回 06/14 13:51
66F:→ endlesswalk: 来导致DB爆炸吗?前公司甚至还规定不能用join(前公 06/14 13:51
67F:→ endlesswalk: 司是国内知名大电商) 06/14 13:51
68F:推 yiche: confusion matrix 没特别背这麽多metric 反正要用google都 06/26 10:25
69F:→ yiche: 有,这心态参加面试是可以的吗 06/26 10:25







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:e-shopping站内搜寻

TOP